林顺畅,腾讯云原生产品司理,负责散布式云产品迭代和注册节点客户扩展,专注于云原生混合云新形态的推广实践。
布景
企业在继续事务运维过程中,感受到腾讯云 TKE 带来的快捷性和极致的运用体验,将新事务的发布以及老事务都迁移到云上 TKE 来完成。但许多企业数据中心建设较为早期,选型上采取了自建 IDC 机房的计划,长久以来的 IDC 运营保护和企业上云的诉求产生了冲突和对立
1、资源难利旧/运用率低
- 事务大部分在云上运转,存量的 IDC 主机难以利旧;
- 云下资源事务运用率低(主要是 CPU 资源),均匀不超过20%,资源糟蹋严峻;
- 对于 GPU 只能完成整卡运用,多数事务运转达不到单卡门槛时产生了 gpu 资源糟蹋;
2、运维本钱高
- 自建 Kubernetes 带来了运维的布置交付和保护本钱;
- Kubernetes 的晋级保护、组件(如 kubelet)的晋级保护带来了运维的继续运营本钱;
- 自建集群出现问题时,尤其是体系组件问题场景下,毛病定位难,修正本钱高;
- 基于自建集群,完成运维的监控需求,要求运维进一步自建监控体系、日志体系,增加了运维复杂度;
3、难以一致调度
- 云上现已运用容器服务,云下有物理机,难以打通云上云下资源,完成一致调度和办理;
- 云上和云下资源散布在不同的地域,难以将不同地域的资源放在一个集群中一致办理;
云上和云下的一致纳管
怎么处理企业 IDC 和上云的冲突问题?这似乎在过去现已有了答案 – 混合云布置。但是当下,咱们面对的是云原生的新场景而非单纯的上云,因而,咱们基于传统混合云的处理计划进一步深入考虑,首创出 IDC 轻量级云原生处理计划 – 注册节点 :IDC 节点和 TKE 打通,云上作为管控面来供给办理、调度、监控才能,云下 IDC 作为支撑面来实际承载事务运转。在满意企业资源利旧、保管运维、混合布置/调度等云化场景的一起,将云上关于降本增效的中心特性下沉到 IDC 节点完成无缝集成,进一步促进了 IDC 节点资源的有用、高效运用。
TKE 注册节点的中心特性
- 本钱洞察:可视化监控各种类型作业负载下各项维度指标的运用情况,协助用户发现资源糟蹋;
- Crane:负载资源配额的智能引荐和节点上事务的专有调度,进步资源运用率;
- qGPU:强阻隔的 GPU 虚拟化技能,事务分配 GPU 不是按整卡而是可按1/10卡做细粒度的分派,减少 GPU 资源糟蹋;
注册节点现已支撑腾讯上万台 IDC 节点,CPU 累计超过500w核,成为 IDC 节点轻量上云新范式。在上云一起,渠道侧借助云原生财物大盘的资源监控和 crane 的专有调度才能,进步了 IDC 节点的资源运用率,节点资源均匀水位值由 15% 迁越至 50%。
注册节点,IDC 轻量级云原生最佳途径
TKE 注册节点是针对混合云布置场景,全新晋级的节点产品形态,处理了企业在 IDC 运维过程中面对的各类问题:
-
资源利旧和运用率进步
充分运用 IDC 资源,并经过 Request 引荐、动态调度、节点超卖等才能进一步进步 IDC 资源的运用率。一起针对于 GPU 资源运用,供给厘核级算力阻隔与多优先级混部。
-
节点保管运维
免除在本地建立、运维 k8s 集群的本钱,无缝集成腾讯如此原生相关服务,包含日志、监控、审计、存储、容器安全等才能,用户仅需求运维本地服务器即可,并供给节点声明式运维的才能,支撑节点快速晋级及回滚。
-
云上云下一致调度
支撑在单集群内一起调度本地节点与云上 CVM 节点,便于将云下事务拓展至云上,一起无需引入多集群办理。
注册节点产品才能
云上才能赋能云下
- 可视化资源监控:经过 CPU/内存运用率、节点装箱率等指标直观展现本钱消耗和资源糟蹋现状;
- 事务配额智能引荐:依据事务 Pod 的历史水位,协助用户引荐、装备合理的 request;
- GPU 同享有用运用:供给了 qGPU 才能,qGPU 是内核级别 GPU 虚拟化技能,完成 GPU 同享和强 QoS 阻隔,功用几乎零损耗;
- 动态调度、重调度:供给方针运用率装备才能,基于真实运用率调度,坚持节点在安全水位;
IDC 资源利旧和保管免运维
IDC 注册节点保管至云上,作为 TKE 的worker节点承载事务,天然完成了资源利旧;控制面在云上 TKE,集群组件的运维、晋级、继续运营都由 TKE 主动化完成。
进步 IDC 节点运用率
基于 Crane 的专有调度器供给了节点超卖的才能,用户能够自主装备节点的扩大系数,事务动态调度至扩大节点上,进步了节点的装箱率并进一步进步了节点的运用率。
一致纳管云上和云下节点
云上节点和注册节点经过不同的节点池来进行办理,事务资源调度时可指定节点池和节点类型,能够完成云上云下彼此弹性。
注册节点运用场景
企业 IDC 资源利旧
企业 IDC 中存在各类急需有用利旧的服务器节点,包含 闲置节点、老旧节点、退保节点等,这些节点面对许多问题:
- 机器是异构的,难以一致满意事务的诉求;
- 老旧机器的运维复杂,难度高;
- IDC 节点资源运用率低,糟蹋严峻;
- 本地私有容器化建设和保护本钱高;
经过注册节点的计划,企业在极短时间内就能够完成 IDC 节点接入 TKE 的动作(单节点10min内接入),运用 TKE 服务。而且,进一步
- 复用 TKE 云上才能,包含监控,日志,安全等;
- 进步了资源运用率:复用云上节点运用率进步计划,最高可进步5倍;
- 方便晋级运维:云上集群主动晋级,节点可设置晋级窗口晋级;
GPU 细粒度分配
当用户事务 pod 需求运用 GPU 资源且运用量较低甚至不满1卡时,假如选用 Kubernetes 原生的GPU 配额机制会形成资源糟蹋。
注册节点无缝集成了腾讯云 qGPU 技能,支撑在多个容器间同享 GPU 卡并供给容器间显存与算力强阻隔的才能,从而在更小粒度运用 GPU 卡的基础上,确保事务安全,达到进步 GPU 运用率、下降用户本钱的意图。依靠底层强大的 qGPU 阻隔技能,可做到 GPU 显存和算力的强阻隔,同享运用 GPU 的一起,确保事务功用与资源不受搅扰。
多地域一致办理
用户在不同地域中都有存量的 IDC 机房场景下,想要完成一致的资源办理难度非常大,每个地域新建办理平面和事务发布流程增加了运维日常作业复杂度。
注册节点计划能够协助用户将不同地域的 IDC 注册到同一个 TKE 集群中进行一致的办理运维,一致了管控进口,下降了运维的复杂度。
云上云下容灾调度
负载+高可用的多集群、多套计划的运维本钱高,而公有云和 IDC 资源的阻隔性,天然适合用来企业落地事务的容灾场景,用户急需探寻怎么经过云上云下完成容灾调度的需求。
注册节点计划中,事务能够自定义调度形式,用户能够自主挑选将服务调度至云上还是云下,云上云下彼此弹性,满意单集群容灾场景。
怎么创立注册节点
运用注册节点功用的前提条件:
- IDC 节点操作体系:tencent os 2.4、3.1 ;
- TKE 规范集群:版本 v1.18及以上;网络插件类型为 cillium overlay;
- 网络打通:IDC 和 TKE 专线打通;
节点注册步骤:
TKE规范集群,进入集群详情页 > 挑选左边菜单栏中的节点办理 > 节点池 > 点击新建节点池,挑选注册节点池并填写对应参数提交。
节点池创立完成后进入节点池 > 点击新增节点,复制命令并到IDC主机上履行即可。
总结
腾讯云TKE中供给了3种节点运维的新范式:
- 声明式节点运维-原生节点;
- 有节点的 serverless – 超级节点;
- IDC 轻量上云–注册节点;
3种节点类型别离面向客户不同的事务场景,TKE完成了一个集群中一起纳管这3种节点新范式和TKE一般节点的一致办理、调度计划。这也是腾讯云原生一贯的科技与人文观念,用交融的形态协助客户处理各类事务支撑的问题、继续关注下降用户的运维本钱。
咱们期望经过企业渐进式上云最佳计划注册节点,最低本钱的完成 IDC 事务原地云原生,用户能够快捷的、分钟级的取得云上云原生的才能,完成降本增效。