2022年12月18日大概是阿里云最漆黑的日子,阿里云香港Region可用区C由于机房水冷设备呈现毛病导致大规模服务中断,对许多客户事务产生严重影响,包含澳门多家网站及App自当日午时起无法访问使用。云服务器宕机后一般几个小时左右便能康复,可是阿里云这次宕机于12月18日早上8点56分首次检测到毛病警告,直到次日凌晨0点30分所有服务才康复正常,整个毛病持续时刻超越15个半小时。声称国际第三的云计算服务商在机房呈现异常的时分要耗费如此多的时刻才干康复几乎不敢想象,真实和其宣传的各种黑科技高可用截然不同。

这次的宕机事情对阿里云的技能品牌力损害非常大,或许后期你再宣传自己技能有多牛,客户或许都不会信赖了,一旦失掉了客户的信赖,那离失掉商场也就不远了。究竟现在云计算商场竞争仍是比较剧烈的,像华为云、腾讯云以及百度云等都在跃跃欲试抢占商场份额。

毛病复盘

时刻轴(笔直).png

露出的问题

制冷体系监控不足

在机房呈现毛病的时分,首要检测到的是机房温度异常升高而后才排查到是机房制冷设备问题,很明显机房监控体系没有对制冷机组进行监控。原因机房主备水冷机组共用了同一个水路循环体系,因而存在单点毛病问题,一旦水路循环体系出问题,主备水冷机组都会受影响。后期对制冷设备进行手动操作依然不能康复其正常运行,很明显没有对水冷设备进行过设备毛病演练,导致呈现问题后康复操作时刻过长。

为什么机房直接进行喷淋?

我们都知道机房中的服务器都是电子设备,而电子设备最怕水了,假如服务器进水了那就很有或许导致服务器短路损坏,从而导致服务器数据丢掉,愈加延长了毛病康复的时刻。所以为什么不是喷洒七氟丙烷气体灭火,最起码泡沫、粉末也行啊,可是实际上直接触发了喷淋操作,这也是非常怪异的地方。

高可用形同虚设

企业使用阿里云的一个重要原因就是看中了其高可用能力,期望哪天在产生毛病的时分用户能够无感地快速进行切换,尽或许的减少毛病导致的事务中断时刻。而在此次的阿里云宕机毛病中,尽管采用了B、C可用区双机房进行了容灾,在C可用区毛病之后通过B可用区对外提供服务,可是惋惜的是B可用区服务实例资源不行,同时ECS启动时依赖的中间件服务没有进行双机房容灾,只部署在了可用区C机房当中,而此刻的可用区C机房现已呈现毛病,导致B区无法实现扩容。这也露出了阿里云对重要的基础中间件以及oss基础服务并没有真实做到全部双机房容灾,呈现了单点毛病问题。

阿里云智能换帅

2022年12月29日,阿里云宕机事情不到两周的时刻,阿里巴巴董事会主席兼CEO张勇向阿里全员信公布人事变动信息,张勇将亲自兼任阿里云智能总裁,张建锋不再担任阿里云智能总裁。在这封信中说到:只有在一点一滴的行动上保障好客户利益,发明好客户价值,才干承当好引领开展、发明就业、参与国际竞争的大任务。

在这封全员信发出后,张勇作为阿里云智能总裁单独面向阿里云整体小二发了内部信,信中措辞更为严峻,在800多字的内容中,说到了超越20次“客户”,可见张勇这次是真的急了。以下截取了信中部分内容。

image.png

反思

无论是像阿里这样体量的公司仍是正在创业的公司,都要始终把客户的利益放在第一位,把客户的信赖放在第一位才干赢得客户,赢得商场。不然一旦失掉客户的信赖,也就慢慢失掉了商场,那么在剧烈的商场竞争中就会被淘汰。期望在新的一年里阿里云真的能够吸取这次宕机事情的经验,真实为客户发明价值。