关注云服务市场的读者朋友想必都知道,虽然芯片市场早已有着英特尔、AMD、英伟达、高通、联发科技等诸多强有力的厂商,但是近年来针对某些应用,越来越多的云服务商开始推出自研芯片。
那么问题就来了:究竟是什么样的原因,让这些云服务商走上了定制芯片的道路?与大家熟知的传统芯片相比,这些定制芯片究竟拥有哪些优势?对于芯片市场而言,这种变化又预示着怎样的未来?
作为亚马逊云科技EC2产品管理总监,Chetan Kapoor主要负责人工智能、机器学习、高性能计算、图像处理、游戏开发等业务。在2022亚马逊云科技re:Invent全球大会现场,趣味科技通过对Chetan Kapoor的采访,逐一揭晓了以上问题的答案。
亚马逊云科技的三类计算服务
在计算领域,亚马逊云科技的产品与服务主要有三个大的分类。
1、按需索取:以Amazon EC2为代表。Amazon EC2的核心能力,就是将重要资源分离开来并按需交给客户。客户无需在本地进行硬件堆砌,只需使用一个API或者在亚马逊云科技的控制台发出计算资源请求后,即可向客户提供所需的服务。
2、无服务器:以Amazon Lambda系列为代表。该系列产品是一种无服务器计算组件,客户无需管理计算资源,只需提供相关代码并允许亚马逊云科技执行代码,亚马逊云科技就会围绕该代码提供一系列的相关应用,客户只需做好应用即可。
3、容器计算:容器化计算的所有应用都是基于容器,亚马逊云科技提供了一系列可以帮助客户开发容器化应用的服务;Amazon Fargate则让客户只需要创建容器,给出指令“这是我的容器,运行它”即可。
亚马逊云科技的自研芯片之旅
Chetan Kapoor透露,之前亚马逊云科技在很长时间里都是用英特尔、英伟达、AMD等合作伙伴的芯片,譬如Amazon EC2就是基于英特尔提供的芯片开发的,在机器学习领域采用了英伟达的GPU效果也非常不错。然而后续亚马逊云科技也不断收到客户的积极反馈,希望能够有更加细化的产品服务可供选择,帮助客户围绕某些应用降本增效,提升性能,以及更好地匹配应用需求。
“十年前亚马逊云科技开始做自研芯片,刚开始是Amazon Nitro虚拟化芯片,后面又开始打造Amazon Graviton CPU芯片。过去的四到五年里,我们的重点都是持续构建芯片来加速人工智能和机器学习应用的开发。”Chetan Kapoor介绍道,亚马逊云科技的自研芯片之旅是从开发Amazon Nitro芯片开始,它是帮助用户卸载虚拟化工作负载的专用芯片。通常硬件虚拟化的主要方式是让虚拟化软件在同一台服务器上运行,支持客户的工作负载。假设客户的服务器是48核心,那么大概需要预留10%-15%的算力来运行虚拟化软件。而Amazon Nitro是有自己独立CPU的芯片,具备单独完成虚拟化的能力,服务器就不需要承担虚拟化软件的资源开销,可以给客户交付更高性能的实例(云主机)。从此,亚马逊云科技就走上了定制芯片之路,也开始开发通用处理器,其中第一个版本就是4年前推出的Amazon Graviton。
除此之外,人工智能与机器学习也是客户向亚马逊云科技反馈较多的领域,尤其是当前深度学习模型的应用普及非常迅速,每年都会有十几倍的增长,训练这些深度学习模型需要消耗大量算力和成本,让许多企业不堪重负。为了帮助客户降低成本,亚马逊云科技开始进行自研深度学习推理芯片的开发,发布的第一款芯片就是2019年推出的Amazon Inferentia。随后亚马逊云科技又再接再厉推出了Amazon Trainium,主要针对机器学习训练工作负载。
在亚马逊云科技2022 re:Invent全球大会上,亚马逊云科技高级副总裁Peter DeSantis重磅发布了Nitro v5,其晶体管数量是前一代产品的2倍,提供了更多的计算性能,同时带来了50%的DRAM内存性能提升,2倍的PCle 带宽提升,每秒数据包速率(PPS) 提高60%,延迟改善30%,每瓦性能提高40%。亚马逊云科技CEO Adam Selipsky也在会上发布了下一代Amazon Inferentia2(简称Inf2),与Inf1实例相比可提供高3倍的计算性能、高4倍的吞吐量和低10倍的延迟。
定制芯片性能高成本低的奥秘
为什么与商用芯片相比,定制芯片既可以做到非常高的性能,又能够做到非常低的成本?
Chetan Kapoor揭晓了其中的奥秘:“因为专用芯片把运算能力都给到了客户,极大地提升了效率。以刚才介绍的Amazon Nitro为例,Nitro的特殊之处在于独立性,整个虚拟化是在独立的芯片和服务器运行,因此可以让客户得到服务器100%的算力资源,这也意味着客户得到的计算性能更高、成本更低。”
在Amazon Nitro芯片研发取得成功之后,亚马逊云科技就开始着手研发自己的处理器,希望能够帮助客户降低成本,提升效率。事实也证明,Amazon Graviton2的同规格实例性价比提升高达40%。而在人工智能与机器学习领域,亚马逊云科技也专门研发了针对机器学习推理的芯片,可以带来更好的性能、更低的成本以及更强的机器学习推理能力。与Amazon Graviton带来的收益类似,客户可以看到亚马逊云科技提供的机器学习芯片无论是用于模型训练还是日常生产,性价比都要比其他同类产品高出40%-50%。
在2022亚马逊云科技re:Invent全球大会上,亚马逊云科技高级副总裁Peter DeSantis还发布了Amazon Graviton3E 芯片以及高性能计算实例HPC7g、C7gn,与现有的Graviton系列产品相比,新的Amazon Graviton3E芯片无论是性能还是精度都有着更高的提升,其中对依赖矢量计算指令的工作负载其性能提高了35%。
定制芯片将会成为未来主流
从2006年3月14日亚马逊云科技发布第一个云存储服务Amazon Simple Storage Service(简称S3)至今,云计算已经走过了16年的发展历程。然而在Chetan Kapoor看来,其实一切还只是刚刚开始:“如今许多传统行业,包括金融和医疗等很多都还处于上云的初级阶段,很多企业还在用自建的数据中心,因此云计算在未来还有着非常广阔的发展前景。”
而对于定制芯片的未来,亚马逊全球副总裁兼CTO Werner Vogels博士有着这样的预测:“2023年定制芯片的使用将迅速增加。因此,随着工作负载将利用硬件优化来最大限度地提高性能,同时降低能耗和成本,创新的步伐将会进一步加快。”
Werner Vogels博士指出,在消费技术行业,定制芯片和定制硬件因为在性能上的显著提升而获得了迅速发展,但是商业应用程序和系统的情况却并非如此。然而随着定制芯片的普及和采用,这种情况将在未来几年迅速发生改变。亚马逊云科技近年来之所以在芯片设计上投入大量资金,正是因为亚马逊云科技知道客户的工作负载在定制芯片上运行,会具有更好的性能以及更高的成本效益。
“以机器学习工作负载为例,未来几年越来越多的工程师将会看到将工作负载转移到专为模型训练(Amazon Trainium)和推理(Amazon Inferentia)设计的芯片所带来的好处。通过使用基于Trainium的实例实现约50%的训练成本节省,或者使用基于Inferentia2的实例实现50%的每瓦特性能提升,工程师和企业都会注意到,我们将开始工作负载的大规模迁移。而在性能提升以及成本节约上的巨大优势,也将带来更多的实验、创新以及应用,并最终为其他特定工作负载提供更多的定制芯片,从而形成一个良性循环。”Werner Vogels博士表示。
审核编辑 :李倩
全部0条评论
快来发表一下你的评论吧 !