还原阿里云十年“计算”重构史

描述

从“去 IOE”到虚拟化架构的全面升级,从初涉容器到全面容器化,从支撑双11到疫情期间创下扩容纪录,阿里云原生体系不断演化,形成了庞大的“计算”家族。

十年,阿里云原生重构“计算”,未来十年,阿里巴巴希望真正释放云的红利,让更多的人用上云或理解云,为企业和社会创造更大的价值。

导语

十年前,“IOE”稳坐 IT 架构C位不容置疑;十年后,上云成为大势所趋,无人不识云原生。依托高弹性可扩展、高性价比、高可靠性等优势,云计算颠覆了传统IT 架构成为主流。

对于企业而言,云计算已经成为企业发展的必选项,引用Gartner的说法,“Cloud is not a strategy,it is a tactic”,云计算已经不再是战略问题,而是战术问题。

对于国家而言,云计算是抢占未来信息化制高点的重要的途径和战略制高点,各国针对云计算纷纷出台政策,甚至上升到国防战略高度。

阿里云的“去IOE”主张带动了一批公司从传统IT架构向互联网架构转型,并逐渐从互联网企业蔓延到传统企业。以阿里云为代表的国产云计算不断追赶,不仅缩短了和国际巨头的差距,还形成了庞大的“计算”家族。

本文通过梳理阿里云原生演技的重要节点,尝试还原阿里云十年“计算”重构史。

阿里云

阿里云原生演进 VS 云原生行业大事记

从零开始,攻坚云计算

2008年-2015年,从“去IOE”到虚拟化架构的全面升级,从初涉容器到全面容器化。

1. 去IOE,建立“飞天”团队

2008年,随着电商发展,淘宝业务激增,阿里巴巴对计算的需求呈现指数级增长,并与业务的增长之间产生了鸿沟。靠当时主流的IOE,IT基础设施将成为业务发展的瓶颈。

在这样的背景下,阿里巴巴提出“去 IOE”,研发自己的技术架构,2008年10月,这个想象中属于中国的云计算系统被团队定名为“飞天”,源自中国神话中的形象,是阿里云计算探索的开始。

I(IBM,服务器提供商,他们提供的服务器俗称“小型机”)

O(Oracle,数据库提供商,他们的软件是著名的“甲骨文商业数据库”)

E(EMC,存储设备提供商,他们提供的是“集中式存储”)。

从字面义上看,“去IOE”只是换掉传统IT基础架构,而从更深的层次来讲,是驱动了IT基础架构的变革。除此以外,“去IOE”的另一重象征意义在于,自研创新的道路就此开启,后续阿里巴巴的成功让大量中国的服务器厂商、软件平台和应用软件厂商,以及立足自主研发的存储厂商看到了实现跨越式发展的契机。

2. 阿里云成立,陆续推出产品

2009年,阿里云成立。当时的云计算是不太可能使用 VMWare 这样的商业化软件,所以就采用了当时比较流行的开源虚拟化软件 Xen。第二年,阿里云就推出了首个弹性计算产品 ECS。

2009年 阿里云成立

除此之外,阿里云网络产品也开始有了声音,AVS 和 SLB 相继上线。但是,从技术产品上来看,阿里云早期的“计算”家族还是比较单薄的,也存在一些限制,云计算的概念在业界基本处于萌芽阶段,玩家不多。

2011 年开始,各种各样的云开始出现,更强更新的 CPU 带来了云上虚拟机计算能力的提升和换代,阿里云的计算产品家族逐渐丰富,接连推出 ECS 2.0、ECS 企业级产品家族,从对 Xen 架构研发过渡到 KVM 架构,并为 12306 提供了技术支持。

2013 年,淘宝最后一台小型机下线,阿里自研的飞天云操作系统开始支撑集团业务。随后不久,洛神 1.0 发布,这是国内首发自研 SDN 系统。

虽然捷报频传,但当时阿里的虚拟化技术,已经满足不了云计算发展的步伐,要做到把自有业务也迁移到云上面来,就必须变革虚拟化技术。

克服云计算“缺陷”,开启云原生时代

1. 降低虚拟化损耗,自研容器技术

虚拟化损耗是云计算自诞生以来就有的缺点。阿里云一直以来都在降低云计算虚拟化的损耗,逼近极致。

2011 年,随着云计算的普及,阿里巴巴走过物理机时代,全面迈向虚拟机,为了缓解巨大的虚拟化损耗,淘宝研发出了阿里第一代容器——T4,容器调度技术开始逐步支撑阿里集团的在线业务,云原生时代开启。

2015 年底,阿里云正式发布了企业级容器服务 ACK,正式对外开放容器技术,整个集团也开始实现全面容器化,推动了整个应用开发,交付和运维方式的变革。

阿里业务逐年爆发,容器规模化后,跑在云服务器上是必然趋势。 阿里云的飞天操作系统已经可以成熟调度数万台物理机,但因为虚拟化损耗,容器依然只跑在物理机上,无法享受到上云便利。

为了给容器打造最合适的底座,2016 年双 11 的技术复盘会上,时任阿里巴巴集团 CTO 张建锋提出了极为苛刻的要求——由弹性计算团队打造神龙服务器,将虚拟化损耗降低为0。

从上层的容器到下层的资源底座神龙,如此,阿里便能构建敏捷、高效的业务运行体系。

2. “0”虚拟化开销,自研神龙架构

把虚拟化开销降低到0,这看似是违背能量守定律的,即便在学术界也没有相关研究。最终阿里云想出了新的解决方案——通过专用芯片来解决虚拟化开销。

从技术的实现思路看,研发团队需要重构一套计算架构,通过研发一个新的芯片组来为每个节点提供功能性和管理性的需求支持,在此基础上,再研发出一套新的服务器硬件,和配套的系统软件;然后再将这套技术架构融入到现有的产品设计中去。

软硬协同架构设计的理念已然飘向了云端,体量大的云厂商服务器部署规模达到百万级别,意味着可以定制任何硬件,而云厂商也开始重新审视芯片、硬件和软件的协同创新。要想收获软硬融合的技术红利,重要的前提是可以自定义芯片,自主研发硬件。

2016 年,阿里云开始规划下一代虚拟化技术,也就是神龙,2017 年,神龙架构问世。它真正使用软硬融合、软硬件协同设计的模式,改变了传统虚拟化技术和当前的计算架构不友好的地方。

神龙架构的灵魂:阿里巴巴自研MOC卡

与“神龙”的意义类似,阿里云这一年推出了全球首个云企业网 CEN,引领了业界云上网络互联产品的发展方向。阿里云网络产品大爆发,先后上线了迁移 VPC 方案、VPN 网关、共享流量包、共享带宽、全球加速以及云企业网。

这一年,云网络也迈入了云原生时代,推出云原生 SDWAN,并全面支持 IPv6。

至此,整个阿里云“计算”家族已经相当完善且庞大,并尝试在双 11 中进行应用。

全面云原生化

2016-2019 年,阿里云“计算”家族从初涉双 11 到全面支撑,从这场毕业大考中取得优异成绩。

1. 支撑双11,核心系统100%上云

2018 年的双 11,阿里尝试将部分流量用神龙架构来支撑,2019 年,阿里巴巴将核心交易系统全部搬到了云上。这些系统对存储 IO 能力、计算能力、网络延迟等的要求相当于将神龙的能力榨取到极致。双 11 大促如果可行,服务超大型客户也将成为可能。

在 2019 年的这场大考中,整个阿里云“计算”家族顺利毕业,拿下了 2500 亿的交易额,同年发布的洛神 2.0 系统也在这次双 11 中完美首秀。

这一年双 11,集群的规模超过百万容器,单容器集群节点数量过万,数据库的峰值超过 54 万笔每秒,对应 8700 万查询每秒,而实时计算每秒峰值处理消息超过 25 亿条,消息系统 RocketMQ 峰值处理了超过每秒 1.5 亿条消息。

在总结会上,阿里云智能总裁张建锋表示:过去的一天,20 个小时是阿里技术上最经受考验的一次。阿里云承载阿里巴巴 100% 的核心系统,这是我们全球第一个做到的,我们有自己自研的飞天操作系统、神龙架构、云原生的数据库、计算存储分离的架构、全球第一个大规模 RDMA 网络。

经此一役,阿里云“计算”家族的技术能力被广泛认可。然而,突如其来的疫情再次将其拉回备考状态。

2. 疫情突袭,创下扩容纪录

2020 年一场疫情打破了很多人生活的节奏,如果说“双 11”是一场毕业大考,疫情就是一场临时小考。为应对疫情中在线办公和在线教育场景下激增的流量,阿里云迅速帮助钉钉在 2 小时内紧急扩容一万台云服务器,这个数字也创下了阿里云快速扩容的新纪录。

借助自身的大规模集群管理能力,在短短几天之内,阿里云帮助百家云团队有效升级了原有的架构方案,实现了数十倍的扩容,大幅提升了其性能与稳定性,并拥有了应对爆发性规模的能力,用户毫无察觉。

“随着阿里云计算能力不断发增强,我们已经能够一分钟扩容 1000 台虚拟机,弹性容器实例平均启动时间仅为 10 秒。”

这一年,阿里云又迎来了数据湖分析、实时计算、大数据分析等产品基于容器或者 Serverless 服务的方式对外交付,此时已经可以看到 Serverless 成为新的可能。

3. 升级战略,成立云原生技术委员会

2020 年 9 月 18 日,2020 杭州云栖大会上,阿里巴巴正式成立云原生技术委员会,云原生成为阿里技术新战略。在云原生技术委员会成立之后的双 11,双 11 核心系统又实现了全面云原生化。

截至 2020 年,经过 10 多年的技术实践,阿里云已经拥有国内最丰富的云原生产品家族,覆盖 10 多个类别 100 余款产品,涵盖底层基础设施、数据智能、分布式应用等,可以满足不同行业场景的需求,为企业数字创新打造最短路径。

2021年,阿里云将投入20 亿优选合作 10000 家伙伴,共同服务百万客户,加速百行千业实现数字化转型。同时,阿里云还启动了“云原生人才计划”,三年内产教融合进入 300 所高校,新增培养 100 万云原生开发者。

2020年云栖大会,阿里云原生全景图发布

面向下一个十年的技术储备

“ Serverless 是云计算的未来”

随着以 Kubernetes 为代表的云原生技术成为云计算的容器界面,Kubernetes 成为云计算的新一代操作系统。因为屏蔽了服务器的各种运维复杂度,Serverless 让开发人员可以将更多精力用于业务逻辑设计与实现,而逐渐成为云原生主流技术之一。

Serverless 计算可以分为 Serverless 运行时和后端服务( Backend as a Service)。其中 Serverless 应用运行时在阿里云上有非常丰富的产品选择:如面向事件驱动应用的函数计算 FunctionCompute,提供了极简的编程和运维体验;面向微服务应用的 Serverless 应用引擎(SAE),对于传统微服务架构应用无需任何修改即可以轻松上云。

此外,阿里云还提供了Serverless容器的产品,比如弹性容器实例 ECI 和 Serverless Kubernetes(ASK),它们提供了标准的Kubernetes界面,不但可以让用户享受到极致的弹性能力,并且是完全免运维的。它们在过去一年有了 9 倍的高速增长。

动态、混合、分布式的云环境将成为新常态

上云已是大势所趋,但对于企业而言,有些业务出于对数据主权、安全隐私的考量,会采用混合云架构。

此外,边缘计算将成为企业云战略的重要组成部分,为应用提供更低网络延迟,更高网络带宽和更低网络成本。我们需要有能力将智能决策、实时处理能力从云延展到边缘和 IoT 设备端。随着云平台成为企业数字化转型的创新平台,一个变化随之产生——云正在靠近它们。在分布式云中,公有云的服务能力可以位于不同的物理位置,而公共云平台提供者会负责服务的运维、治理、更新和演变。

软硬一体化全面升级

云计算的发展推动了整个计算架构的演进,面向数据中心的芯片层出不穷,计算密度得到了大幅提升,如果将其与 Serverless 结合能够全面提升计算效率和资源利用率;过去,我们已经经历了 CPU 和存储资源的池化,如今我们可以看到越来越多的 GPU 资源池化,开发者可以按需创建弹性的 GPU,大幅降低 AI 的计算成本,资源池化使得整个计算能力的弹性进一步增强,可以让 Serverless 计算场景覆盖更多的领域。

此外,Serverless 也在全面推动软硬一体化的进一步升级。阿里云“计算”家族的整体性价比不断提升,企业用云的成本逐步下降,底层硬件对上层应用的支持越来越强,可以理解为下一代神龙是以应用为中心的,对上层的函数计算等应用的支持将越来越好,效率提升的同时大幅降低成本。

无处不在的计算催生新一代容器实现

针对不同计算场景,容器运行时会有不同需求。KataContainer、Firecracker、gVisor、Unikernel 等新的容器运行时技术层出不穷,分别解决安全隔离性、执行效率和通用性三个不同维度的要求。OCI(Open Container Initiative)标准的出现,使不同技术采用一致的方式进行容器生命周期管理,进一步促进了容器引擎技术的持续创新。

结语

从无到有、从有到多、从多到精,在中国还没有自己的云计算的时候,有人选择了这条无人小径,走的人多了,它便成为了通往未来的通天大道。

云原生还会有更多的创新,有更多的产品技术。从企业客户和开发者角度,云原生是云计算释放红利的最短路径,是企业数字化的最短路径。

而在云原生时代,云计算会持续地向前演进。未来十年,阿里巴巴希望真正释放云的红利,让更多的人用上云或理解云,降低IT 开发或研发门槛,通过开发者的手为企业和社会创造更大的价值。

原文标题:数智洞察丨阿里云原生十年演进史

文章出处:【微信公众号:工业4俱乐部】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分