变革性技术机器学习把硅战争带到云端

电子说

1.3w人已加入

描述

AWS全球基础设施和客户支持高级副总裁Peter DeSantis在AWS Re:Invent年度用户活动上发表主旨演讲时表示,与CPU巨头AMD和Intel提供的处理器相比AWS的处理器和芯片设计在云应用程序性能方面具有优越性,而且AWS的图形处理器性能超过了Nvidia为机器学习(ML)提供的GPU。他指的是AWS Graviton2处理器,由AWS使用64位Arm Neoverse定制。

随着AWS上以及Azure和Google Cloud Platform(GCP)上可用选择的爆炸式增长,客户可能会越来越仔细地考虑应用程序性能和服务提供的成本/性能比。这样,底层芯片和服务器基础设施将成为决定云原生应用程序性能、功耗以及成本的关键因素。

因此,AWS希望旗舰64位基于ARM的Gravion2和其他内部设计的处理器的强大功能发挥重要作用,以帮助客户提高其应用程序的性能。

DeSantis说:“对AWS硅技术的深度投资真正令人兴奋和带来变革的是能够跨定制硬件和软件工作,以提供独特的功能。通过在整个堆栈中工作,我们能够比以往任何时候更快地实现这些改进。”

发力芯片

Graviton2有望通过多种方式进一步提高应用程序性能。DeSantis作出了大胆的声明,AWS Graviton2提供了优于传统设计的性能、节能优势和安全性。AWS还公开表示,为Amazon EC2 T4g、M6g、C6g和R6g实例以及基于本地NVMe的SSD存储的“变体”提供动力的Graviton2“为各种工作负载”提供了比基于x86的实例高出40%的性价比

DeSantis说,在基于Graviton的Amazon EC2 A1实例中引入Graviton的目的是让AWS“与客户和ISV合作伙伴合作,了解他们在现代64位ARM处理器上运行工作负载需要什么”。

DeSantis解释说,如今用户需要的是将处理器设计与在云环境中运行的高度分布式微服务应用程序相匹配的能力。今天的开发者也基本上不再用C++编写云原生应用程序,而是用GO和Ruat,并且“完全改变了高性能多线程应用程序的开发”。

“对我来说,最令人兴奋的趋势之一是转向基于服务的架构,从大型单体应用程序向小型专门构建的独立应用程序发展。这正是容器和Lambda支持的计算类型。虽然横向扩展计算已经发展到利用更高核心处理器,但处理器设计师从未真正抛弃旧世界。他们试图做到这两个方面,既满足传统应用程序的需要,又满足现代扩展应用程序的需要。”

DeSantis在重申Graviton2的设计者“专注于确保每个核心都能为现代云工作负载提供最真实的性能”的同时,还暗指传统的CPU性能基准(如用于衡量PC和服务器性能的基准)不再适用。“我们利用运行实际横向扩展应用程序的经验,确定需要在哪些方面添加功能以确保最佳性能。”

DeSantis还表示,Graviton2的设计旨在节省每个芯片的硅表面,同时通过减少内核数量来降低功耗——这是衡量处理器性能的传统方法。

“我们设计Graviton的目的是有尽可能多的独立核心,而尽管独立,Graviton两个核心的设计是一致的。”

Snap的工程高级副总裁Jerry Hunter表示,Snap使用Graviron2有助于降低AWS DynamoDB和S3的成本和能耗。除了用AWS的DynamoDB和S3进行存储外,他还看到了Graviton2“在不消耗大量能源的情况下为客户降低成本并创造更好的性能”。

Hunter说,Snap向Graviton2的转变“非常简单”,API“与以前使用的非常相似”,因此“不需要花太多时间来迁移代码以进行测试。我们节省了20%的成本,这是非常棒的,因为我们能够切换此负载,并立即获得成本节约和更高的性能。”

芯片上的机器学习

虽然没有透露具体的基准测试,DeSantis还表示AWS优于Nvidia。总的来说,与用于支持ML的大规模推理基础设施的GPU相比,AWS Inferentia提供了“以一半的成本实现了最高的吞吐量(每次推理)”。具体到Nvidia,DeSantis说Amazon Alexa最近将其推理工作负载从基于Nvidia GPU的硬件转移到了基于Inferentia的EC2实例,成本降低了30%,延迟降低了25%。

对于ML开发人员,AWS的Neuron团队提供了TensorFlow、PyTorch和Apache MXNet等框架来设计运行在Inferntia上的应用程序。DeSantis说:“开发人员可以利用Inferntia的成本节约和性能,而不需要对ML代码进行很多更改或根本不做任何更改,并保持对其他ML处理器的支持。”

在没有透露具体细节的情况下,DeSantis说,AWS为ML设计的下一款硅芯片将包括明年推出的AWS Trainium。

“我们在机器学习芯片上的投资才刚刚开始。正如Inferentia所做的那样,Trainium将提供最低成本和最高性能的方式来运行训练工作负载。”

对于ML开发团队,AWS还通过机器学习扩展运维,并将AWS的数据库服务(包括S3和Dynamo)与AWS SageMaker及其ML基础设施集成在一起。有了正确的硅基础设施和开发工具,目的是提供一个机器学习平台可以满足DevOps团队的需求,因为他们可以在不改变基础设施和工具集的情况下,从10或100个ML项目模型扩展到1000个。

“这是一种变革性的技术。我认为,开始机器学习并开始进行概念验证非常重要,而AWS提供的工具使其变得更加容易,”AWS ML的副总裁Bratin Saha表示。“所以,我认为让客户明白机器学习是现在的关键,而不是未来,这一点非常重要。”
编辑:hfy

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分