岁除夜,是全国人民阖家团圆的日子,也是鹅厂这帮技能人最紧张的时刻——一年一度的新年重保

在这辞旧迎新的重要节点,全球十多亿用户经过微信和QQ拜年、发红包,在朋友圈、QQ空间分享心情,经过微信视频号、腾讯视频等观看春晚直播。

这些“新年俗”带来的是秒级内增加几十倍乃至数百倍的流量洪峰,就像传说中每年如约而至的“年兽”,稍有不慎,鹅厂体系就有被流量打崩的危险。

本年是腾讯自研事务全面上云之后的首个春保,比较从前,不仅顺利完结了护航使命,并且功率更高、质量更好、本钱更低
究其原因,这与腾讯自研事务全面上云、云原生技能的大规划使用,以及多部分的一致和谐密不可分。

百T流量,“云”中调度

对于许多人来说,“看春晚”是岁除必做的事情。
无论是电视、电脑仍是手机,春晚直播能够做到高清、实时、顺利,都与直播渠道与直播技能提供方的技能保证密不可分。直播保证也是鹅厂技能团队每年春保的重要使命之一。

现在,越来越多的人选择经过微信视频号看春晚。加上本年竖屏春晚玩法升级,经过微信视频号竖屏看春晚的用户到达了1.9亿,比较上一年1.2亿的直播观看人数有了大幅增加。

据测算,全网观看直播的流量峰值在岁除夜到达近百T。微信视频号、腾讯视频等作为春晚的首要直播渠道,为应对瞬间的流量顶峰,对网络速度和稳定性提出极高要求。

全面上云之后,不管是微信视频号、腾讯视频等腾讯产品,仍是腾讯云支撑的央视频等外部客户,海量访问流量都合并跑在腾讯云直播渠道上。

比较起一条条小路各自建立红绿灯和缓冲带,这个一致的调度体系更为高效,大大提高了全体的资源使用率,也进一步降低了本钱。渠道打造了完善的大盘监测体系,能够按秒级分析直播流的卡顿率、推迟状况与画质清晰度等指标。

特别是在春晚精彩的抽奖环节、以及沈腾小品播出时段,面临陡然拉升的流量冲击,腾讯云直播渠道建立了智能化的调控计划。

其间,腾讯云直播的极速高清才能,凭借AI主动适配网络状况,在网络不佳的时分降低直播码率。CDN 可经过智能负载均衡体系,将用户的直播访问定位至最佳节点,避开网络拥塞,降低源站压力。腾讯云自研新一代 P2P 技能,则更好地使用了全体网络搁置带宽,进一步降低 CDN 网络的压力。

存储有他,稳了

作为疫情防控进入新阶段后的首个新年,节日气氛格外浓郁。“团圆”来之不易,短暂的相聚让数亿用户愈加愿意在朋友圈凭借图片和视频分享喜悦之情,传递久违的年味儿。

相对应的,新年期间,数据的上传下载量也远超预期,岁除峰值到达平常均值的10倍以上。从技能层面来说,当微信用户给朋友发图片、视频,或许发表朋友圈、抢红包的时分,不管是发出仍是收到内容,背面都是腾讯存储体系的一次读写。

曩昔,微信中心模块使用的是 TFS 存储架构。这种架构虽然曩昔支撑不少腾讯产品打赢了“海量之战”,但由于存储集群较小,无法充分调动不同集群间的搁置资源,需求储藏许多资源用于毛病康复和应对突发。

全面上云后,微信所用的目标存储 COS,首次全面从TFS存储引擎切换到最新的自研 YottaStore 架构。依据新一代存储引擎 Yottastore,无论是存储规划,仍是 IO 才能都有比较大的提高:

作为一个云原生的数据存储体系,YottaStore 的一个集群能够办理上千万台服务器,集群规划大了,集群内的 IO 资源天然水涨船高。YottaStore 能够充分调动集群内一切存储节点 IO 才能,在新年视频和图片这种顶峰值的上传下载场景中,能够有用节约存储资源,完成全体的降本增效。

一同,腾讯云目标存储 COS 结合自研事务的特色,充分发挥 YottaStore 引擎的优势,提供了智能分层、深度归档等存储才能,在保证用户体会的前提下大大降低了存储本钱。

从“月”变为“天”

从前国庆一过,春保技能团队的气氛就开始紧张起来,收集事务需求,评估所需资源,进行机器采买和资源建造、体系扩容,加上必要的单机和全链路压测,技能团队的铺排容灾和柔性演习等,一般都需求持续好几个月时刻。

上一年腾讯全面上云之后,最直接的一个变化就是春保从一个需求严阵以待的大项目,变成了一份“寻常工作”。

比如,在资源准备阶段,由于事务的资源由物理服务器变为 CVM 虚拟机,这让资源准备周期大幅缩短,曩昔至少需求1个月时刻请求采购、出产虚拟机,现在只需1周就能完结。
一同,在运维功率上,凭借腾讯云容器服务 TKE,使用的扩容也变得愈加弹性,同样扩容100万核的资源并布置事务完结上线,时刻从2周缩短到2天以内。

为了充分使用云原生的特性,上一年开始,微信中心模块全量布置在了**腾讯云容器服务渠道 TKE **上,进入容器化上云阶段。

经过全力容器化改造,选用多容器减少上T级的流量穿越、支撑一切使用可调度提高毛病实例康复时效、多集群多 workload 容灾打散调度提高使用容错才能、Quota 资源按需请求节约许多本钱、容器监控和事务监控左右开弓提高服务质量。

使用 TKE 超强的集群办理、资源调度、容器编列,屏蔽了底层基础构架的差异,简化了分布式使用的办理和运维,依据微信事务的使用场景,建造了灵活高效的 DevOps 运营体系,全体功率提高了40%以上

当事务中心模块容器化后,单机反常、版本不一致等问题降为0。使用 TKE 的增强 HPA 弹性弹性特性,当事务负载急剧飙升时,能够快速扩容多个 Pod 副本;事务负载变⼩时,恰当缩容来节约核算资源。整个进程⾃动化,不需求人工⼲预,应对突发时扩容更快、本钱更低。

走向“无人驾驶”

在2013年之前,腾讯还没有“春保”。PC 互联网时代,新年的流量相对分散,顶峰还不需求太大规划的技能保证。

2013年,微信群发拜年视频鼓起,六七倍的流量涌入,远超技能团队原先的储藏,只能靠体系硬扛。

2015年,微信红包露脸春晚互动。原来仅仅几万人使用的红包体系,紧迫扩大到支撑十几亿人抢红包。20点到次日清晨零点48分的时刻里,春晚微信摇一摇互动总量到达了110亿次。许多现已在家吃年夜饭的技能人员被紧迫“召回”公司。

2020年,线上会议需求爆发,新年8天紧迫扩容100万核,腾讯会议创下了我国云核算史上的又一个记载。

现在,担任“春保”的团队规划越来越小,越来越多的搭档又能够年三十跟家人一同吃年夜饭了。回望曩昔十年,从“被打的措手不及”,到“想方设法先扛住再优化”,腾讯春保现在回归“静悄悄”。

与上云前比较,此次春保的资源使用率提高1倍,CPU 峰均值使用率达45%以上;交给功率提高50%,扩缩容功率提高5倍以上。腾讯的全面上云,为事务春保带来了功率、容量、本钱的全方位优化,也支撑了数以亿计的用户,度过了一个热闹吉祥的新年。

“以前春保更多考虑的是体系会不会崩掉,怎么能扛住一波接一波的流量顶峰,而当全面上云之后,才能足够强壮,不崩现已变成新的常态,咱们未来需求考虑的是怎么提高用户体会,并进一步降低本钱,经过智能化的容量猜测、智能化的调度,完成更精细的运营。”

腾讯云副总裁、云架构渠道部副总经理高向冉表示:“现在的新年保证相当所以人工在驾驶的,将来期望完全由机器来完结主动驾驶。”