与x86正面交锋,Arm服务器芯片又掀狂澜

电子说

1.2w人已加入

描述


在Arm服务器处理器阵营中,鲜少有从开始一直挺立到现在的,Marvell算其中一个。
 
现在仍然可以查到Marvell发表于2010年的媒体简报,“Marvell今天发布新款ARM架构嵌入式处理器ARMADA XP,将主要用于云计算等企业应用领域,诸如高性能网络设备、网页服务器,以及家用NAS、媒体服务器等。运算内核包括四核心,频率最高1.6GHz,拥有2MB二级缓存,其运算性能可达16600DMIPS,而功耗低于10W。”
 
今天看来,当时的配置和愿景都过于朴素。
 
时间就这样过去了十年。
 
这期间,Marvell对旗下业务大刀阔斧地进行了整并,移动芯片和多媒体芯片业务对外出售,基础设施领域实力不断强化,直到现在成为一家专注于基础设施市场的半导体厂商,提供存储、处理、网络、无线连接和安全产品组合,服务器芯片地位越来越重。
 
今天,Marvell的服务器芯片主要聚焦三大应用市场:超算、云端、边缘,保持着两年一代的上新节奏。
高性能计算 

一次咄咄逼人的上新

近日,Marvell基于第三代Arm的服务器处理器ThunderX3取得突破性进展。它专为当今云计算和HPC市场上较严苛的工作负载而设计,可提供高性能、低功耗、高内存带宽和低内存延迟,将于今年年中向客户提供样片。
 
Marvell半导体公司副总裁及服务器处理器部总经理Gopal Hegde指出,如今数据中心已从对单线程性能的关注转向对机架级别性能的关注,其中性能功耗比、性能成本比和TCO(总拥有成本)是部署考虑的三大关键因素。因此,数据中心开始采用专为特定工作负载而定制的服务器。
 
相比上一代ThunderX2,ThunderX3实现了性能上的全面提升。据介绍,ThunderX3处理器采用台积电7P制程工艺制造,拥有高达96个核,4线程/核心,每个插槽的总计算能力达到384线程。内存接口支持8通道DDR4-3200,每个通道可搭载2个DIMM。I/O扩展提供了64个PCIe Gen 4.0通道,搭载16个控制器。该处理器支持单节点和双节点配置。在浮点运算方面,ThunderX3的每个核心搭载四个128位SIMD (Neon)单元。该设备完全符合SBSA/SBBR,并提供了企业级的RAS和虚拟化功能。
高性能计算 
ThunderX3的性能改进如何实现?Marvell半导体公司服务器处理器部产品营销高级总监周立新告诉<电子发烧友>,主要来自于微架构的改进,使得IPC的整体性能较ThunderX2提高25%。结合处理器频率和DDR频率的提升,单线程总体性能较上一代提高了60%以上。在单颗处理器层面,相较于ThunderX2,ThunderX3的整数运算性能提升3倍以上,浮点运算性能提升5倍以上。
 
那么,对于HPC市场来说,需要什么样的性能?周立新表示,HPC需要很多并行处理,ThunderX3每一个核有4个线程,最多96个核,可以支持384个线程。他强调,单核支持四线程,不论是x86架构还是其它Arm处理器,目前都没有实现,ThunderX3在这方面实现了“数量级的差异”。
 
四线程跟单线程比,究竟有什么好处?可以主要从三方面来看,一是SPECCPU,这是最标准的衡量服务器的指标;二是MySQL数据库;三是Web搜索。根据测算,四线程比单线程有显著的性能提升,特别是MySQL,可以提高80%的性能。
高性能计算
当然,CPU不仅仅是计算指标,还涉及先进的DDR、PCIe。ThunderX3采用了PCIe 4.0,当年在ThunderX2,每个核里面有2个128bit SIMD (Neon) Units,而ThunderX3提升到4个,这对超算、AI和机器学习来说非常重要。
 
谈及对比于x86架构处理器的主要优势,Gopal Hegde表示,x86架构面向服务器、桌面等众多市场,而Armv8-A是专门面向服务器应用开发的核,在面积、性能、功耗层面更加优化。x86架构两大厂商:英特尔在工艺上相比台积电已落后一两代,这对其x86服务器CPU性能有一定的影响;AMD在架构上采用封装集成,64核有9个Die,相应地在延时、带宽方面存在不足,同时功耗偏高。

未来可能考虑Chiplet

各家由于情况不同,也有各自的实现路径。比如AMD,其EYPC系列的成功与Chiplet技术的采用密不可分,它作为一种解决物理瓶颈的方法,Marvell是否会予以考虑?
 
Gopal Hegde谈到,当时AMD的EPYC,如果把32核放在同一芯片中,物理上首先难以量产,就算生产出良率会比较差,所以不得不用4个Die来做32核。Marvell每个核的尺寸比AMD的约小30%左右,所以在ThunderX3中还可以集成这么多核。他谈到了一些不采用chiplet的优势,比如内存带宽,而且延迟也比较短。不过,未来再往下走,就算核再小早晚也会碰到物理瓶颈,那时可能也会考虑Chiplet方案。

盘点Arm服务器阵营的底气

从Arm进入服务器市场的第一天起,整个业界就充满了怀疑的论调,这种唱衰一路贯穿,甚至在高通正式取消其服务器芯片项目时达到顶峰。
 
不过,后面的故事越来越精彩,2017年,英特尔前高管离职创办了从事Arm 服务器芯片研发的Ampere公司;2018年,富士通公开介绍了业界首款支持基于ArmV8指令集扩展SVE(Scalable Vector Extension)的A64FX芯片,据称性能强悍到无需与GPU组合;2019年AWS推出的Graviton 2堪称惊艳……
 
事实上,也正是从去年开始,业界推出Arm服务器处理器的节奏明显加快,性能PK也更为激烈。国产阵营的代表有飞腾和华为,作为国内最早获得ARMv8指令集架构授权的设计厂商,飞腾的CPU产品近年来不论是性能还是生态都成果颇丰;还有华为鲲鹏,正在通过全生态体系和产业链的整合能力高歌猛进。
 
为什么Arm服务器生态开始呈现出前所未有的繁荣景象?Gopal Hegde认为,最显著的原因是最终用户发现Arm加速应用的时机已经成熟,才会有越来越多的人投入。
 
Arm框架的核心优势在于低能耗、移动市场的高占比。但是,服务器是一个跟生态密切相关的业务,现在整个市场x86架构还是占据了90%以上的份额。本文发布之时,英特尔刚刚公布了2020年第一季度财报,其中数据中心业务同比增长43%,个中原因这里不去深究,但足以见得Marvell等面临的是怎样的对手。
 
那么,Marvell竞争的底气来自哪里?
 
Gopal Hegde表示,生态层面其实是一种“滚雪球”效应,滚到一定地步就会自己越滚越大。自前两年推出ThunderX2之后,部署进度在不断加速,得到了诸多OEM厂商和平台、IHV硬件厂商、操作系统和固件、中间件、应用和工具的支持,目前生态系统覆盖已超过100家合作伙伴企业。微软正为Azure部署基于ThunderX2的量产级服务器,也公开表态未来可能有40%-50%的量迁移到Arm平台上。此外,ThunderX2系列服务器处理器已实现对NVIDIA GPU的支持,将进一步满足HPC 和游戏应用的需求。
 
比较聪明的一点是,正如Gopal Hegde在采访中所澄清的,Marvell并非全线与x86竞争,只主抓生态成熟、且成长非常快的领域,就是超算和云这两块,企业级的市场不会进入。
 
Arm架构在服务器市场进入了关键时期。诸多创新场景带来的海量数据计算、存储需求将孕育庞大的云服务市场,对基础计算架构产生了真正的多元化的需求。而先进算力的提升也确实需要多元化的构建,眼下这种繁荣的生态景象正是行业所需要的。

本文由电子发烧友网原创,未经授权禁止转载。如需转载,请添加微信号elecfans999.
打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分