基于ARMv8A的处理器——Graviton系列

描述

2011年ARM公司的年度技术会议TechCon发布了全新的ARMv8架构[1],同一年,在以色列,Nafea Bshara和Bilik Hrvoye从他们的前老板获得2000万美元的投资,创建了Annapurna Labs。四年之后的2015年,亚马逊用35亿美元收购了这家公司。Annapurna Labs从此成为亚马逊的一个部门,这个部门相继设计了3代基于ARMv8A的处理器——也就是Graviton系列。

话不多说,先上参数:

处理器

数据整理:健哥。

原始地址:https://fvot4kwt4n.feishu.cn/sheets/shtcn69s9nbcvYxX0bAnDgxiAUb

Graviton3们,等等,这里为什么用们?因为Graviton3这颗“芯片”(Chip)里面是由7颗芯片(die)组成的。虽然没有召唤出神龙,Graviton3的引力吸引到了4个DDR控制器die(每个die又有两个DDR5通道)和两个PCIe5.0控制器die。

把多个die封装到一个芯片中的技术称为chiplet技术,这样的好处是,如果将来亚马逊有了更快的CPU,而周围的DDR和PCIe控制器不变,则不需要重新设计制造DDR和PCIe控制器芯片,可以把新的CPU和已有的控制器封装到一起。这样,系统设计可以更加灵活。前面表格的华为鲲鹏920,也采用了这项技术。

芯片整体性能方面,官方的说法是每个核心的性能至少快了25%。下面的SPEC CPU 2017测试也可以说明这一点。图中的蓝色是Graviton2,绿色是Graviton3。SPEC CPU是业内通行的测试CPU性能的benchmark,包括整数测试,浮点测试等等,大多数的用例都取自最终用户的应用,例如perl解释器,视频压缩,3D渲染等等[3]。

处理器

来源:AWS re:invent 2021

Nginx的负载均衡测试里面,Graviton3比前一代好了一倍。

处理器

来源:AWS re:invent 2021

对于Nodejs,则提高了40%

处理器

来源:AWS re:invent 2021

视频编码提高了50%

处理器

来源:AWS re:invent 2021

机器学习提高了几乎150%

处理器

来源:AWS re:invent 2021

由于亚马逊做了软硬件垂直优化,不光是芯片本身的迭代,整个服务器的结构也有改进,这次一个主板上(下图右侧)支持三颗Graviton3芯片。

处理器

来源:AWS re:invent 2021

最后,让我们“打开”芯片,看看里面的CPU。Graviton3使用了ARM Neoverse V1。V1主要是支持ARMv8.4的特性(上次说的苹果M2支持到ARMv8.5特性),包括MPAM,SVE,嵌套虚拟化等。

处理器

来源:https://community.arm.com/arm-community-blogs/b/architectures-and-processors-blog/posts/neoverse-v1-platform-a-new-performance-tier-for-arm

ARMv8.4的MPAM是内存的分区和监控功能,通过Partition ID对cache的容量和内存带宽进行划分。SVE是ARM在NEON的下一代SIMD(单指令多数据)指令集,关于SVE指令,2020年的超级计算机排行榜的第一名的Fugaku,就是基于ARM架构并使用了SVE指令集。[4]

ARMv8.4还支持了安全世界的虚拟化(Secure EL2),平时咱们用的Linux/Android都运行在Normal World(非安全世界,和安全世界相对)。安全世界运行需要更高安全性的能力,例如手机的指纹识别,版权视频播放等等。安全世界的虚拟化就是允许安全世界运行多个安全操作系统。

处理器

来源:https://en.wikipedia.org/wiki/Bfloat16_floating-point_format

ARMv8.6的Bfloat16不仅支持了Bfloat16浮点类型,还支持了该类型的点积和矩阵运算,以及从单精度浮点(32位)转换到Bfloat16的命令。Bfloat16格式是由Google Brain团队开发的格式,如上图,指数有8位,小数有7位。该格式很适合机器学习使用。

处理器

来源:AWS re:invent 2021

Graviton3的CPU性能如何呢?有大神做了详细的测试[5],健哥选了其中的时延测试。下图的Amphere Altra和Graviton2一样都采用了Neoverse N1,下图是二者和Graviton3的memory时延对比,可以看出Graviton3的L3 cache性能(下图虚线,第三个台阶)明显比另外两个处理器好。但是由于DDR5本身的延迟比DDR4大一些,再加上DDR5在另外的die上面,所以Graviton3的主内存时延比另外两个稍稍大一些(下图第四个台阶,图片的右上角)。

处理器

Graviton3在亚马逊云服务上已经上线,一根豪华冰棍的钱(每小时15.5RMB)就能愉快的玩耍64个vCPU的虚拟机1小时,相比之下,1vCPU2G内存的虚拟机只需要每小时两毛四。64个CPU意味着单个Graviton3的芯片完全被你所用,系统cache和内存带宽都是你一个人的。

处理器

对ARM架构和调测调优感兴趣的小伙伴可以进群咨询了解健哥的课程

审核编辑 :李倩

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分