阿里云出现重大技术故障损失过亿,阿里云故障真正原因是什么?

描述

昨天,技术圈又出了搅动全技术人的一次重大技术故障。记得上一次是携程2015年瘫痪了11小时,损失高达7000W+。

阿里云是国内最大的云服务商,服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。

6月27日下午,阿里云出现重大技术故障,故障于北京时间2018年6月27日,16:21左右开始,16:50分开始陆续恢复。官方给出的故障时间大概持续30分钟,陆续恢复时间有一个小时多。

在6月27日凌晨时分,阿里云给了官方说明,最后官方给出的说明是:“我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。”引发了大量吐槽。

对于此故障的原因,网上传的各种版本都有,传的最多的是以下2个版本:

网上流传故障原因版本一

网上流传故障原因版本二

小编邀请原美团点评运维架构师&马哥教育联合创始人张sir对本次故障解读:

“至于实习生误删登陆服务之说,应该是不存在的,一方面,大型互联网公司尤其是阿里云这样的公司,对工程师权限有着极为严格的控制,因为阿里云数十万台服务器,支撑了全国各行各业千亿以上规模的线上业务,不可能让实习生不熟悉的情况下,给予过高的管理权限。这是极其不专业的做法"

”对于版本二的说法,说的比较含糊和笼统,我通过内部了解到原因:”

"这个说法跟阿里云官方通告是比较符合的,本次故障的严重程度是非常高的,故障级别定义在S1级别,整个阿里集团的核心业务,以及依托阿里云的公司,很多都受了影响。"

"对于企业来说,上线都是开发-测试-上线大致都是以下这样的流程,通常开发会开发出来程序,然后交给测试工程师,测试工程师测试完成后,后提交给运维工程师进行线上服务配置以及业务上线。"

“本次故障,阿里官方说明:工程师团队,在上线一次自动化运维新功能的时候,执行了一项变更验证操作,这一项功能在测试环境验证中未出现问题,上线生产环境中,触发了一个未知的bug。这个bug后来通过阿里的同学证实:具体原因是一个核心的应用在拉VIP列表的时候,返回了空列表,这就会导致上千VIP被禁用了。VIP = Virtual IP Address,虚拟IP地址,主要作用为集群的负载均衡的入口地址,可通过一个VIP的地址,实现一组业务的访问,通常也叫集群负载均衡技术。VIP是集群业务的入口,如果数千个VIP被禁用了,可能后端上万台的服务、应用、数据库等将直接无法访问,本次故障盲点,是测试通过了,在生产环境触发了一个未知bug,导致核心应用在拉取VIP列表时,为空了,导致内部的上千台负载均衡不可用,从而后端的应用也不可达。”

"如图所示,对于大型互联网公司,运维技术架构都是多层机构。在内部负载均衡上配置的VIP如果不可达的话,后端的service层和数据库等内容,都是不可达的,这也是为什么故障的时候,页面能打开,但是报错为502故障,502错误一般常为后端服务器不可用,这也说明了故障的根源所在。阿里的运维团队故障响应还是比较给力的,数千个VIP配置错误,在半小时内从发现,到定位,到故障排除,以及解决,还是挺快的。”

“在一个庞大复杂的架构体系中,会涉及到成千上万的配置以及几十种技术的应用,有时候可能因为一条配置的错误,会导致整个服务崩盘。而出故障时,一位优秀的运维工程师,可为公司挽回巨大损失。运维工程师目前已经是各家互联网公司必不可少的重要岗位,是要求有极高的技术能力和心理素质(当出现故障时,耽误一分钟损失上百万的时候,那种压力是常人无法理解的),所以这也是,为什么业内优秀的运维工程师是比较稀缺的。一个优秀的运维工程师或者云计算工程师,是需要不断的提升和学习,因为公司的业务需要不断的完善架构体系,保障服务正常运行,以及服务性能和工作效率不断的优化和改进。”

阿里云对于本次故障,还是非常坦诚的:

"对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。"

此次阿里云重大故障,网友们纷纷讨论,运维都要背锅啦。其实,运维工程师这个群体,比你想象的要厉害,如果不是他们为互联网的业务保驾护航,可能故障远不止此。所以,对于错误,我们应该包容,错误是成长的必经之路,更何况,人非圣贤孰能无过?

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分