192个自研核心，AmpereOne的绝对性能压制

安晟培半导体 2023-06-13 2149

描述

在亚马逊、英伟达和阿里巴巴等厂商纷纷围绕Arm Neoverse架构打造服务器处理器之际，Ampere Computing选择了一条与众不同的路线，自研核心。近日，Ampere宣布推出全新的AmpereOne系列处理器，可配置多达192个核心，且这些都是基于Ampere自有IP打造的自研核心。

Ampere Altra到AmpereOne，Ampere的自研之路

OEM

Ampere Altra与AmpereOne对比 / Ampere Computing 凭借前两代Ampere Altra系列产品80核Ampere Altra和128核Ampere Altra Max，Ampere成了在Arm服务器CPU领域的先行者之一。主流的大型云服务厂商（CSP）都已经推出了基于这两款CPU的服务器，如京东云就在近日推出了其首款基于Arm架构的云主机，搭载的正是Ampere Altra Max CPU。 CSP厂商纷纷拥抱Arm的原因很简单，高并发、高算力和更低的价格，为上云提供了极具性价比的选择。但如何做好差异化，是每个Arm服务器CPU厂商都需要思考的问题，比如英伟达选择了与自己的GPU结合打造Grace Hopper这样的SuperChip。而拥有Arm ISA架构授权的Ampere选择了从微架构上进一步创新，打造自研的Arm云原生核，从绝对性能和可扩展性上超越同类产品。单个AmpereOne CPU的可配置核心已经达到192个，比上一代的Ampere Altra Max多出了50%，内核数为业界最高。这意味着基于AmpereOne CPU的单机架性能将再创新高，为了匹配新CPU强大计算能力，AmpereOne还采用了8通道DDR5、128通道PCIe 5.0和更大私有缓存的设计，断绝了内存带宽和I/O性能上出现瓶颈的可能。针对高速增长的云原生应用，AmpereOne还集成了一系列新特性，包括网格拥塞管理、细粒度电源管理和内存标签等。Ampere表示，AmpereOne将帮助该公司进一步扩大在每机架性能方面的优势。 Ampere首席产品官Jeff Wittich：“192 核是一个非常大的数字，比英特尔和 AMD 要多很多。用一个具体的场景来说明，在云环境中运行虚拟机时，用192核的AmpereOne对比96核的AMD Genoa，或者60核的英特尔Sapphire Rapids，AmpereOne每机架运行的虚拟机数量是AMD Genoa的2.9倍，是英特尔Sapphire Rapids的4.3倍。”

AmpereOne发力Chiplet与AI推理

得益于工艺的进步和架构的创新，AmpereOne能做到如此规格似乎并不意外，但能在Ampere Altra Max面世后的短时间内推出这样一个“性能怪兽”，其实也离不开在设计方法上的转变。从AmpereOne的架构可以看出，与此前Ampere Altra系列不同的是，新的处理器转为采用Chiplet设计。近来不少先进芯片设计中都采用了这一技术，电子发烧友网也就这一转变询问了Ampere，Chiplet究竟有何助力，是否加快了芯片设计周期？ Jeff Wittich指出：“综合而言，我们在Ampere中转为大量采用小芯片带来了许多的优势，其中第一点就是能够有更高的灵活度，第二点就是如问题中提到的，帮助我们加快了整个芯片设计周期。在采用了Chiplet架构之后，产品的TTM也会随之缩短，还可以提供更高的可扩展性，从而提供现代云原生CPU的最佳性能。第三，Chiplet拓扑的设计也可以使AmpereOne更轻易地实现内存到内核的访问，而不需要为处理器引入额外的HOPs。” 另外值得注意的一点是，在早前的Ampere Altra系列CPU中，虽然也可以用于AI推理，但从CSP已发布服务器的定位来看，其主要还是用于Web服务、视频编解码以及云游戏等非AI应用上。而此次发布的AmpereOne，则在AI计算上加大了力度。

OEM

AI推理性能对比 / Ampere 从性能对比上，我们可以看出AmpereOne在AI推理负载上的领先，比如在生成式AI和推荐算法上，AmpereOne的单机架性能是AMD EYPC 9654 Genoa的两倍或以上，但两者却有着近乎相同的系统功耗，AmpereOne的优势在此展现得一览无余。这与Ampere自身的发展以及行业趋势也紧密相关，AI负载已经成为云端最大的算力需求之一。而Ampere除了解决了AI硬件的问题外，也在布局AI软件生态。比如2020年，Ampere收购了专注于打造AI软件的OnSpecta，通过软硬件协同优化，为AmpereOne提供卓越的AI性能，比如对BF16精度的支持等等。

解决性能与能效的矛盾

OEM

服务器CPU的能效象限 / Ampere Computing 在Ampere公布今年的路线图时，创始人/董事长兼首席执行官Renée J. James表示：“Ampere已经向行业证明，击破单核性能与能耗之间的矛盾正是行业所有人都在寻找的新象限。在能耗与性能的坐标轴之中，朝坐标轴的右下方移动是行业发展的新常态，目的是实现更低的能耗和更高的性能。” 针对云计算的需求，在设计产品的过程中，Ampere借助Arm架构的优势，综合考量从核、SoC到其他方面的因素，致力于实现每瓦性能、每机架性能的提升。对比x86架构的CPU，Ampere Altra系列的的云原生处理器可以实现每机架2.5倍的性能提升，降低能耗2.8倍，并仅占用1/3的空间。而新发布的AmpereOne将帮助Ampere进一步扩大领先优势。 Jeff Wittich表示：“其实我们Ampere Altra系列处理器已经提供了行业领先的单机架性能，在能效方面已经是行业标杆性的产品。不仅是在性能方面，在能效方面我们也是领先AMD和英特尔所有的产品，即使是他们近期发布的低功耗产品。”

写在最后

诚然，对于大部分服务器CPU而言，面向的客户都是CSP和服务器OEM厂商，而他们提高竞争力的方式之一即提供差异化的高质量方案。不少Arm服务器CPU，虽然都在设计上做了差异化，但计算核心的性能并未拉开太大差距。Ampere选择了自研云原生核的方式，既满足了更高性能的需求，也解决了他们的另一大痛点，可扩展性与规模化。成立5年多来，Ampere，已经在x86垄断的服务器市场占领了一席之地。在一切背后，是Ampere 认为云需要一种从本质上而言完全不同的方法。随着所有的计算转移到云端，整个平台的云原生化趋势不可避免，而Ampere正在做的就是为云原生进行彻底的CPU创新。

打开APP阅读更多精彩内容