阿里云的“寒冬”:一年两次重大故障,如何避免?

2023-11-13每日热点

  21世纪经济报道记者崔灰灰 北京报道

  立冬之际,阿里云遭遇了一场突如其来的严寒。

阿里云的“寒冬”:一年两次重大故障,如何避免?

  11月12日下午,阿里云发生重大故障,波及面非常广泛,不仅是阿里系产品,很多外部客户的业务也受到影响。这对把稳定性作为生命线的云服务公司来说,无疑是一场噩梦。

  去年,同样是在冬季,阿里云的香港机房节点发生故障,导致我国香港和澳门诸多关键基础设施运营者的网站、互联网应用均无法打开。

  一年之内,两次重大事故,阿里云迎来创立以来的至暗时刻。更尴尬的是,过去一年,阿里云的组织架构也不太稳定。一年两换CEO,目前董事长兼CEO一职由阿里巴巴集团CEO吴泳铭兼任。

  行稳致远两次重大故障,如何避免?,作为中国云计算的先行者,阿里云现在需要稳定,这既包括组织上的稳定,也包括业务上的稳定。

  三个半小时的故障

  最先感知到阿里云故障的,是各个产品的用户。发现产品无法打开后,用户纷纷跑到社交平台上吐槽,很快,人们发现,出现问题的产品不止一个阿里云的“寒冬”:一年。

  一时间,淘宝、闲鱼、阿里云盘、钉钉……阿里几乎全线产品都出现了故障。与此同时,很多使用阿里云服务的企业产品也出现问题,据21世纪经济报道记者不完全统计,整数云、理工小蜜蜂、饿乐送、cool easy、IOTTEC、纳思云、语雀等平台均受到影响。

  当时阿里云健康面板显示,全部的92个产品均出现异常,并且受影响地域涉及全球所有节点。根据阿里云随后发布的公告,阿里云方面对整个故障的处理时间线如下:

  17:44,阿里云监控发现云产品控制台访问及API调用出现异常;

  17:50,阿里云已确认故障原因与某个底层服务组件有关;

  18:54,杭州、北京等地域控制台已恢复;

  19:20,绝大部分地域控制台服务已恢复;

  19:43,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复;

  20:12,北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中;

  21:11,受影响云产品均已恢复。

  据阿里云披露,整个故障使云产品控制台、管控API等功能受到影响,OSS、OTS、SLS、MNS等产品的服务受到影响,大部分产品如ECS、RDS、网络等的实际运行不受影响。

  根源或是“鉴权服务”

  截至发稿,阿里云尚未发布关于此次故障的详细说明。不过针对此次故障,21世纪经济报道记者采访了多位业内人士,他们依据已披露的官方信息对该故障进行了分析。

  首先要明确一个概念,“云产品控制台”其实是云厂商的一个网站,在这上面可以控制服务器的状态,比如开机、关机、重启等。API调用则是指有些客户不直接使用云厂商的控制台,而是自己有一个运维平台,然后通过API把云厂商的控制台信息调用到自己的运维平台上。

  所以,阿里云此次故障的导火索就是无法正常访问云产品控制台,至于阿里云后面确认的故障原因,是与某个底层服务组件有关,行业技术专家李明(化名)分析猜测,这个服务组件可能是阿里云的鉴权服务,而出现异常的是AK、SK。

  在云计算领域,"鉴权服务" 指的是身份验证(Authentication)和授权(Authorization)服务。而AK(Access Key)是用于标识访问者身份的一串字符串,类似于用户名,SK(Secret Key) 则是与Access Key 相关联的用于签名验证的私密字符串,类似于密码。

  正常来说,当用户发起对云服务的请求时,需要使用AK表示身份,使用SK进行签名验证以确保请求的合法性,而鉴权服务的业务逻辑就涉及验证用户的身份。所以当鉴权服务出现问题,可能带来未经授权的访问,或者是拒绝合法请求。

  李明认为,阿里云这次故障影响的范围如此大,就是因为AK、SK属于最底层的服务,一旦出现问题,所有产品都无法正常访问。

  对于阿里云为何在此时出现故障,业内有分析猜测,可能是双十一刚结束,阿里云收缩容量导致。

  但这也是让李明十分疑惑的一个地方。“通常云厂商面对重要节点,都会进行封网保障,即在节点前后的一段时间不对系统进行任何变更。从技术层面来说,只要不对业务进行变更,故障概率就会比较小。”

  如果没有操作,那可能是由单点故障引发。但以阿里云的经验,这个可能性也很小,因为系统都有冗余设计,一般来说是能够规避某台服务器的故障导致所有服务器都出问题。“但这也不是绝对没有可能,如果真是因为单点故障,那就需要对阿里云的架构是否完善存疑了。”李明称。

  在李明看来,这次故障大概率还是由业务变更导致。“但阿里云为何会在这个节点做业务变更,又很难理解,可能是业务的线网发生其他故障,必须要去操作进行修复,另外也不排除有人恶意操作。具体原因还是要等阿里云做官方披露。”李明表示。

  如何避免故障发生?

  当阿里云故障发生后,也再次引发了人们对云计算稳定性的关注。

  过去十年,“上云”成为产业数字化的一个重要趋势,越来越多的业务已经跑在云上。在此背景下,人们的担心也在情理之中,尤其是当很多对人们生活会产生较大影响的产品都跑在云上,一旦发生类似此次的故障,势必会对用户生活造成影响。

  所以,如何避免类似故障的发生,也是整个行业都需要思考的问题。云服务行业的资深人士张坦(化名)坦言,对任何技术来说,100%避免故障都不可能实现,但要做的,是尽可能降低故障发生的概率,或者最小化故障发生后的影响。

  基于阿里云这次故障,张坦提出,多云部署或是一个比较合适的解决方案。“如果是单云部署,即便在云内做各种各样的高可用,比如多倍冗余,跨可用区部署,但如果发生底层组件的故障,那也会像阿里云这样出现多可用区的多产品故障。”

  如果是多云部署,比如把业务部署在两个不同云厂商,那这两个云之间的组件不会相互依赖,这就可以避免其中一个云出现问题时,整个产品都不可访问的现象。

  这种多云部署,会带来一定的成本提升,比如资源成本的增加,以及技术复杂度提升带来的成本增加。但是张坦指出,多云部署在云服务市场并不鲜见,从实际案例来看,多云部署成本提升不算太高,这也和每个企业选择的技术方案有关,比如如果只选择把关键模块做多云部署,那这个成本则更小。而且相比稳定性提升的收益,这部分成本大部分企业也都愿意接受。

  从企业的角度,做多云部署或许会是一种趋势。但对云厂商来说,让其把自身业务部署一部分到其他云厂商,或许现阶段还很难实现。不过,这次阿里云的故障也再次为行业敲响警钟,虽然故障的真正原因还有待官方披露,但每个云厂商也都需要未雨绸缪,如何避免这样的“灾难”在自己身上发生。

标签: 今日热榜

“阿里云的“寒冬”:一年两次重大故障,如何避免?” 的相关文章

问界夺新势力销冠,华为余承东自称“余大嘴变余小嘴”:对智选车受欢迎程度预估保守了

问界夺新势力销冠,华为余承东自称“余大嘴变余小嘴”:对智选车受欢迎程度预估保守了

  IT之家 2 月 1 日消息,今天下午早些时候,问界汽车公布了 1 月的“成绩单”:交付新车 32973 辆,首夺新势力品牌月销冠军,详情可见IT之家此前报道。   ...

“双11”第一波快递高峰来临

“双11”第一波快递高峰来临

  天山网-新疆日报讯(记者范琼燕报道)11月6日,中国邮政集团有限公司乌鲁木齐邮区中心快递处理业务量达66.8万件,继11月4日突破60万件大关之后,再创新高,这意味着“双11”第一波快...

比亚迪仰望U7正式官宣:定位百万级新能源旗舰轿车

比亚迪仰望U7正式官宣:定位百万级新能源旗舰轿车

  比亚迪旗下首款轿车仰望U7今日正式官宣,这是继仰望U8和U9之后的第三款量产车型。定位为“百万级新能源旗舰轿车”,其外观采用了“时空之门”的家族化设计语言,与仰望U...

小米汽车回应SU7安全方面是否合格:超越现有碰撞标准

小米汽车回应SU7安全方面是否合格:超越现有碰撞标准

  快科技1月10日消息,今日,小米汽车官方发布了《小米汽车答100问(完结篇)》。   小米汽车针对小米SU7经过哪些碰撞测试,安全气囊配置怎么样进行了回答。...

AMD预测2024年AI芯片收入将达35亿美元

AMD预测2024年AI芯片收入将达35亿美元

  集微网消息,AMD预测新的人工智能(AI)芯片今年将产生比预期更多的收入,不过2024年第一季度的营收将低于预期。   AMD表示,2024年第一...

美团财报电话会:目前股价被低估,考虑推进10亿美金回购计划

美团财报电话会:目前股价被低估,考虑推进10亿美金回购计划

  凤凰网科技讯 11月28日,美团公布2023年第三季度财报美团财报电话会:目前股价被低,在财报电话会上,美团CEO王兴表示,管理层对公司的长期增长潜力有十足信心,目前美团在二级市场的股...