01 引子

CDN 服务了互联网的大部分场景,是互联网事务背后重要的根底组件。CDN 的拜访反常有或许形成大面积的互联网事务影响,怎么应对拜访反常是衡量 CDN 服务质量好坏的一个重要规范。比方某某电信大楼着火事件形成了某些地区的网络不可拜访,阿里云 CDN 经过技能手段,保证了客户事务的正常运转。这背后是怎么做到的呢?

02 技能简介

阿里云 CDN 具有 3 千个节点,支撑了全球的内容下载加速服务,可以看作是一个巨大分布式体系。节点很多可以服务更广规模的客户,但一起也带来了体系的极大杂乱性。

某个节点或许由于各种原因不能服务客户,如运营商网络问题、节点设备问题、某个服务问题或许某个回源链路问题等等。CDN 处理问题的一个常用办法是——快速节点逃逸,即快速发现有问题的节点,然后切换掉这个节点的事务。快速发现问题成为处理 CDN 问题的要害一环。

怎么快速发现 CDN 问题?如前所述节点拜拜访题会有各式各样的原因,那么需求针对每个场景去设计不同的的监控办法,但这会是一个反常杂乱的勘探监控体系。

有没有更高效的办法呢?剖析可知,尽管出问题的场景多种多样,可是大部分的场景都会体现为事务网络拜拜访题。所以经过网络勘探的办法去发现边际云节点问题是一条便捷、快速的办法,即经过边际网络感知快速发现问题。这儿说的边际网络感知,既包含根底的 3、4 层根底网络勘探,如 ICMP ping、TCP Ping 等,也包含上层事务勘探,http/https 等事务相关的勘探。

经过网络勘探发现节点问题,要害点是在有限的资源下怎么更快地发现问题。在快的一起,也需求处理准和全的问题。

准和快一般是对立的两方,一个网络动摇或许继续 10 秒,随后又康复了正常,如果 10 秒就决议计划逃逸,那么就简单陷入来回动摇的场景。需求快和准之间寻觅最佳的平衡点。

掩盖全和资源有限又是一对对立,CDN 支撑全球几十亿的用户,各种场景很难全掩盖,或许需求极高的代价才能进行全面的掩盖。不断提高勘探才能、扩大掩盖规模,也是边际网络感知的必定之路。

03 边际网络感知架构

关于网络勘探来说,有三个基本组成部分,勘探源、勘探方针以及勘探链路。

勘探源是使命的建议方,经过建议多种勘探办法勘探整个链路。

勘探方针是被勘探方,它既或许是边际云自有资源,也或许是事务方方针,还或许是第三方资源,如电信运营商根底资源。

勘探链路跟着不同场景,掩盖不同的链路,或许是基本的网络链路,也或许包含某个中心链路,还或许是一条端到端链路。针对不同链路进行勘探数据剖析,得到边际网络质量的要害信息。

关于边际网络感知,一般放在一个完好的事务逻辑,包含使命规划、网络勘探、数据收集、数据处理,以及终究的事务消费。

无处不在的边缘网络感知

04 阿里云的边际网络感知阅历的三个阶段

1.0 骨干网网络感知阶段

CDN 拜访的典型场景是,客户拜访就近的 CDN 节点,该节点对恳求提供服务。当就近节点没有缓存内容的时分,就会向其他 CDN 节点恳求或许向源站进行恳求对应的资源。宏观上看,CDN 节点间构建了一张巨大的内容传输的骨干网。

骨干网网络感知便是根据边际节点,针对节点间的网络质量进行感知,当出现问题及时进行逃逸。CDN 骨干网承载节点间中的大量重要数据,类比人体血管的话,便是人体的各个主动脉。骨干网拜访出毛病会出现全局性的问题,影响全国、全省或许几个地级市的事务。

阿里云 CDN 根据边际云 3K+节点,针对节点间的网络质量,构建了全球骨干网网络感知体系。现在每分钟运转着几十亿的勘探,保证着 CDN 事务的平稳运转。

2.0 全链路感知阶段

全链路感知由最终一公里勘探、骨干网勘探和源站勘探构成。其中最终一公里勘探,是客户常常重视的问题。骨干网网络感知处理了 CDN 大规模毛病的问题,可是关于某个或某几个节点的问题,仍广泛存在。

跟着阿里云 CDN 体量越来越大,小规模的问题也会形成较大的影响。一种典型问题便是,客户上报某某省拜访有问题,可是 CDN 侧却不能发现。问题排查下来发现,最终一公里的链路影响了客户的拜访。而最终一公里勘探可以快速的发现客户测问题。

怎么构建最终一公里勘探:专用的端勘探设备+节点反向网民勘探。根据端勘探设备,阿里云构建了与客户拜访一致的网络感知才能,以此模仿客户的事务拜访。端勘探设备资源有限,有或许掩盖不全,与节点反向网民勘探形成互补。

阿里云根据骨干网勘探、端边勘探技能以及回源勘探才能,构建了全球掩盖的全链路网络感知体系。现在每分钟运转上亿次全链路勘探,掩盖了 CDN 节点全量 VIP 网络质量监控。

3.0 智能剖析网络感知阶段

构建网络拓扑,并根据网络拓扑进行网络问题的剖析。

国内运营商的网络是相对简单的。三大运营商都是集团、省公司、市公司的结构,对应的网络也是分层的,国家骨干网、省级骨干网以及县市的网络。跟着阿里云海外事务的不断拓宽,网络感知也拓宽到海外场景。

新场景新特点:运营商多,BGP IP 多,多线路宣告。什么意思呢?在国内 A 到 B 的拜访,一般规划在同一个运营商,是一条规划好的路线,A 从 A 省,到国家层次骨干网,到 B 省,到 B 市,到 B。而在海外不同,A 到 B,有或许阅历多个运营商,比方或许是:A->运营商 C->运营商 D->运营商 B->B,也或许是 A->运营商 E->运营商 B->B。不同运营商会设置不同的战略,形成网络拜访的杂乱度更高。

新问题新思路:在国内勘探办法根底之上,增加多线路勘探才能,构建海外网络拓扑图,感知一切可达线路的质量。在多条可达链路中进行最优挑选,保证客户事务的服务质量。

CDN 节点逃逸效果:针对不同场景,边际网络感知体系定制了相应的战略。关于要点链路,选用高强度勘探,最高做到毫秒级勘探,可以完成秒级逃逸;关于大规模问题节点,根据互联网网络动摇的特点,完成分钟级逃逸;关于单 VIP 问题,完成十分钟级逃逸。

边际网络感知一个重要场景是节点逃逸,这也会使用到到其他场景:

| 选路场景。全站加速、直播、组网等事务,都会根据网络状态进行最优途径的挑选。网络感知作为选路的根底信息,提供了实时及历史数据,进行最优途径的挑选。

| 节点质量分级场景。

| 协议栈优化场景等。

05 总结与展望

根据边际网络感知的质量大图监控整个边际云的运转状态,既有实时的问题发现与问题处理,又有长周期的资源质量点评、事务质量点评、技能指标基准等。这些保证着边际云的健康发展。

全链路勘探掩盖了大部分场景,可是还不能做到每个客户的事务都能有对等掩盖的监控。怎么更有用的勘探,是个值得思考的问题。把边际网络感知想象成人体的神经体系,它既要无处不在、处处感知,又要能做到重大影响快速感知、快速反应,小的影响有用过滤。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。