将云原生进行到底：腾讯百万级别容器云平台实践揭秘

导读｜基于 K8s 的云原生容器化现已在腾讯内部海量事务中大规模落地实践。事务从传统的虚拟机布置形状无缝切换到容器布置形状，运转在 K8s 上的应用从无状况服务扩展到有状况服务，这个进程经历了哪些改造？一起，K8s 如何饱尝住事务形状复杂多样、模块数量巨大的考验？遇到哪些新的应战？如何优化？效果怎么样？腾讯云高级工程师林沐将为你解答。

在线事务资源容器化布置的问题与优化方案

腾讯渠道的事务根本都归于在线事务。这些事务曾经在虚拟机布置时，是经过物理机筹办的方法出产出很多虚拟机，关于事务来说是不感知的。当事务发现虚拟机负载较低时，可将多个在线事务混部来进步资源利用率。

这种资源办理方法到容器化布置时产生了一些变化，首要有四方面的内容。

容器交付。每个 Pod 在交付的一起需求声明标准巨细，标准巨细要改动时 Pod 必须毁掉重建，无法经过混部来新增事务。节点均衡。K8s 每个节点上布置多个 Pod，每个节点上的 Pod 类型、数量也都不相同，要确保节点均衡是一个应战。K8s 的云原生特性，也便是弹性，是否能够符合在线事务在出产环境中的需求？集群池化。K8s 是按集群维度办理，而渠道有上万个事务，这么多事务如何映射到不同的集群完成条带化办理？

针对上述问题，腾讯采纳的优化手段是：

榜首，资源利用率进步——动态压缩和超卖。咱们面对一个痛点是用户装备的容器规模不合理，遍及偏大，这样节点装箱率和负载比较低。所以榜首个优化方法便是 Pod 资源动态压缩，Pod 恳求双核处理器 4G 内存，在调度时压缩成单核 4G 内存。由于 CPU 归于可压缩资源，内存归于不行压缩资源。这儿修正的只是 Request 巨细，并不修正 Limit，所以不影响容器实际能运用的上限值。这样能进步节点的装箱率。接下来是 Node 资源动态超卖，依据负载状况超卖更多 CPU 中心。

第二，节点负载均衡——动态调度和重调度。资源压缩超卖能进步节点的装箱率和负载运用率，但 Pod 是同享Node 的，压缩和超卖会加重它们之间的搅扰。于是咱们开发了动态调度器，当每一个 Pod 调度时，能够感知存量 Node 当时的实时负载状况，从而对增量 Pod 在 Node 当中均衡处理，掉到一个低负载的节点上。存量 Pod 在节点上也有可能产生高负载，这时咱们在节点上布置 Pod-Problem-Detecor、NodeProblem-Detecor，检测出哪个 Pod 会导致节点高负载，哪些 Pod 归于灵敏 Pod，经过事情上报告诉API Server，让调度器将反常 Pod、灵敏 Pod 重新调度到闲暇节点。

第三，K8s 事务弹性弹性——协同弹性。在线事务最关怀事务稳定性。有时事务负载超出预期时，由于最大负载数装备过低，导致事务雪崩。所以咱们对 HPA 进行优化，参加 HPAPlus-Controller，除了支撑弹性最大副本战略之外，还能够支撑事务自定义装备进行弹性。第二个是 VPAPlus-Controller，能够 Pod 突发高负载进行快速扩容，对有状况的服务也能够进行无感知扩缩容。

第四，集群资源办理——动态配额和资源腾挪。从渠道的角度，K8s 集群也是一个重要的保护目标。渠道经过动态 Operator 的方法操控事务对集群的可见性以及配额巨细，使得各个集群的事务是散布均匀的。集群自身也有规模巨细，有节点弹性，叫做 HNA。HNA 能够依据集群负载状况主动弥补资源或开释资源。出产环境中一种状况是，有时分突发活动，在公共资源池里没有特定资源，需求从其他体系里腾挪资源。所以咱们开发了弹性资源方案 Operator，它会给每个节点、每个集群下发使命，要求每个集群开释一些Node 出来。这批节点的数量要尽可能符合事务的数量要求，一起要对存量事务的负载质量不产生影响。咱们的方法是经过动态规划的方法处理问题，从而在事务做活动，或许紧急状况下，能够使集群之间的资源也能够流转。

容器化对动态路由同步的应战与处理方案

每一个 Pod 在毁掉重建的时分会动态增加或提取路由。一般来说，出产环节中的路由是第三方体系负责，当 Pod 正常的时分体系给它转发流量，或许做名词解析，当它摘除时就从名词服务里除掉。

但咱们的渠道在出产环节中会遇到一些特别状况。榜首个状况便是容器化之后容器的改改变加频繁。第二个变化在于事务规模十分巨大，单个负载的 Pod 可能不计其数。第三是事务层面的变化，云原生的方法是一个集群对一个路由入口，但在出产环节又是第三方路由体系，答应云上云下混合布置，跨集群多路由服务同享路由。动态路由是容器化的关键途径，是要处理的中心问题。

在微观层面，事务对容器运转阶段有特别需求，包含容器分级、路由和进程的运转状况一致、大批量探针失利时要完成路由熔断。

出产环节中路由体系是十分多的，每个路由体系会对应一种操控组件。所以咱们需求路由同步 Controller的一致结构。这个结构理论上是一个旁路 Controller，因而存在不行靠的问题。例如在 Pod 下线前，毁掉的时分不确保现已除掉路由；又比如在翻滚更新时，可能上一批还没有增加路由，下一批就开端毁掉重建。由于有些事务又比较灵敏，必须要求肯定确保线下和翻滚的时分路由的正确性，于是咱们利用了 K8s 云原生的删去保护、翻滚更新机制来完成这一需求。当事务在毁掉之前先除掉路由，事务在翻滚更新的时分先保

证上一批增加。经过这种方法将路由融入到 Pod 生命周期里，来完成事务的可靠性。

关于运转阶段，例如容器反常主动重启，或许 Pod 其间一个容器经过原地生成的方法启动，这些场景就会绕过前面提到的翻滚更新和删去保护。所以还要在运转阶段确保事务之间的快速同步。事务大批量改变又会产生很多事情，导致 Controller 积压问题。

对此咱们榜首个优化方法是运用 Service 粒度事情合并，将事情数量成数量级减少来进步速度。第二个是双行列模型。K8s 的 Controller 里有守时前史对账机制，会将一切的 Pod 目标悉数入行列。咱们需求将实时和守时的事情分隔，这样既能够处理守时对账，又能处理实时处理需求。

这儿面有一个细节问题，两个不同行列可能在同一个时刻会有同一个事情要处理，这就需求彼此感知的能力避免这种状况产生。

下一个 Controller 结构的中心点在于支撑同享路由。但云原生的 K8s 机制里是一个集群对应一个路由入口，所以咱们在 Controller 结构里增加一个路由同步记载，也是依照 Service 的粒度去记载的。假如事务体系产生脏数据，例如触发一个除掉操作，但是路由体系返回成功了，实际上没有除掉，那么下一次它去同步处理这个事情的时分发现它没有被除掉，那么仍是会再重新除掉一遍。也便是说路由操作等于希望值去 Diff当时值，而它的希望值就等于 Endpoint 和 Pod 生命周期的交集，当时值便是路由体系里边的状况加上路由记载，二者再取差积便是要做的路由操作。

旁路 Controller 作为一个组件会有反常的时分，尽管 K8s 供给 Leader 机制，但这个机制被 Controller拉起时需求预加载存量 service 数据，假如数据量十分大需求很久时刻。咱们的处理方法是，每一个Controller 运转的时分归于主备形式，这样当主容器挂掉的时分，备容器获得锁，之间的距离便是整个Controller 同步中断的最长时刻，之后备容器就能够快速接收路由通路服务。中断期间可能产生事情丢掉问题，咱们经过守时前史对账机制处理这个问题。

咱们还有特别需求，是事务为了兼容虚拟机布置的一种办理方法，首要针对容器的运转阶段以及特别处理。这儿的需求包含容器分级、流量平衡、路由熔断。这些需求对传统的 Endpoint Controller 而言是不感知的，原来只保护 Ready 和 Not Ready 的状况，没有感知更细分的状况去保护容器的人物和状况。假如这是由路由 Controller 来完成，那么对这些特别场景来说是牵一发而动全身的，每一个组件都得一起开发，修正一遍，保护成本是很高的。所以咱们供给了一种处理方案——Endpoint-Plus Controller。它将保护容器人物和状况的能力下沉到 Endpoint 来完成。它与 Endpoint 和路由同步 Controller 之间树立一种交互协议，便是 Endpoint Ready 时增加路由，Not Ready 时禁用路由，不在 Endpoint 里删去路由。这样一切组件都是一致的，并且每次事务的新需求只要修正 Endpoint 就对悉数收效，这样完成了动态路由同步的桥梁作用。

一种全新的容器毁掉失利自愈机制探索

最终一个话题是关于容器毁掉失利自愈的。前面提到了动态调度、弹性弹性、容灾搬迁、流水线发布，这些操作都有一个前提，便是容器毁掉重建时老的容器要毁掉，新的容器能创立出来。但实际上在出产环境中这并不是 100% 能确保的。由于容器是同享的，多个容器在同一个节点上，卡住的时分会涉及到很多原因：

调用链很长，只要其间任何软件呈现 BUG 都会卡住；办理容器对事务容器有侵入，造成卡顿；事务容器之间互相搅扰；同享内核、Cgroup、Namespace，并不确保一切资源肯定完全阻隔；同享节点资源，当 CPU、磁盘 IO 高负载时会影响整个节点上的一切 Pod。

K8s 发展到现在现已有了一套很完善的自愈机制。对容器反常来说，云原生 K8s 供给一个暴力处理方案便是强删机制。该机制只是删去这个数据目标的数据，并不是毁掉这个容器。这样导致一个问题，假如进行强制毁掉，可能老容器会残留，新容器又起来了，这时老的容器会影响节点。

所以容器毁掉阶段卡住会影响容器毁掉重建这个根本需求，并且它的原因是复杂多样的，在大规模体系环境中更简单呈现，罢了有的自愈机制是没有包括这种场景的，所以咱们就需求供给一种全新的自愈机制。传统的处理方案是经过脚本扫描到它，关于定位到的问题，没有处理方案的需求暂时阻隔，已有处理方案的就要清晰修复。但这并不是一个闭环方案，由于还有很多不知道问题，对不知道问题来说事务关怀的是尽可能康复，而对渠道来说为了确保稳定性，需求尽可能知道这些根因，去收敛这类问题。

所以咱们统筹这两个需求，要缩小定位规模、缩短定位周期，进步定位功率。对定位到根因的咱们要去评估它的影响面，防止增量产生。而现已有处理方案的，咱们需求有全网修复能力，呈现反常的时分要告警，从而完成闭环处理方案。

咱们想到了是智能运维的方法，它依靠大规模训练样本，关注相关性。而毛病处理一般是小样本量，强调专业和因果性，所以它并不很合适这种场景。但在智能运维的决策树模型里有些概念能够拿来参考，譬如基尼系数、信息熵、剪枝等。

最终简单介绍一下决策树模型的完成。

榜首步需求树立模型，是关于信息熵的权衡，要平衡自愈机制和定位功率。咱们在挑选信息熵的时分是自顶向下的推导途径，从节点反常再到容器调用链反常，再到具体体系日志。

第二步是特征选取，基尼系数越小特征越清晰，所以咱们挑选共同特征作为一个特征值。一起挑选一些已知问题或许根因比较清晰的作为叶子节点。

最终一步是模型优化，例如剪枝优化，经过后剪枝的方法处理过拟合现象。一起简化模型。经过这种方法，

当容器产生毁掉失利时，能够触发自愈途径。一起，关于新增问题，咱们能够缩短问题规模，进步定位功率。

经过以上三步，最终咱们探索出了这样一种全新的容器毁掉失利自愈机制。希望本文思路对你有帮助～

⛳️公众号粉丝专享：点击文末“阅览原文”，参与调研抽BANQ防水U盘

腾讯工程师技术干货直达：

1、手把手教你建立Hexo博客

2、如何不改一行代码，让Hippy启动速度进步50%？

3、内存泄露？腾讯工程师2个压箱底的方法和工具

4、一文读懂Go函数调用

阅览原文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

将云原生进行到底：腾讯百万级别容器云平台实践揭秘

近期文章

近期评论