ARM Cortex-A78、Cortex-X1、Mali-G78三种技术对比

454398 2020-08-11 24882

电子说

1.4w人已加入

描述

2019年5月，ARM发布了Cortex-A77 CPU和Mali-G77 GPU架构（准确说是IP，又称内核授权），刚刚量产的天玑1000+就是首款同时采用上述IP组合的旗舰级5G SoC。

ARM正式发布了下一代IP，由Cortex-X1、Cortex-A78和Mali-G78组成的“三剑客”，从即将在今年9月发布的麒麟1000开始，未来的5G SoC都将因它们而获益，并有望进一步拉近与同期苹果A系列SoC的性能差距。

那么，ARM新一代的“三剑客”都有啥特色？

骁龙865为啥最厉害？CPU和GPU架构了解下！

硬核科普！为啥说SoC的性能取决于架构和工艺？

麒麟990的最大遗憾！ARM Cortex-A77架构到底好在哪？

自研才是出路！看高通和三星如何怒怼苹果A11处理器

为啥iPhone总能默秒全？这才是苹果骄傲的本钱！

Cortex-A78：常规迭代更新

目前，骁龙865、天玑1000和Exyno 980等5G SoC都拿Cortex-A77架构作为CPU中的“大核”，也因此获得了强悍的运算动力。

Mali

作为Cortex-A77的接班人，Cortex-A78其实并没有什么本质上的变化，Cortex-A76、A77、A78都采用了相同的Austin微架构，三代核心在设计上存在很多共性。

用ARM的话来说，就是芯片供应商（如高通、联发科等）在构建核心时可以非常容易地升级SoC的IP设计，不会花费太多经历和成本，从而缩短了开发周期。

因此，大家不要对Cortex-A78性能抱有太大期待，ARM官方数据显示，A78相较于A77，其IPC（架构性能）只提升了7%，功耗降低了4%，内核小了5%，四核簇面积的缩小了15%。

还好，与Cortex-A78搭配的是最新一代的5nm制程工艺，天生就具备更好的能效比。

现在SoC内单个“大核”在满载时的功耗约为1W，此时7nm工艺生产的Cortex-A77可以跑到2.6GHz，而5nm工艺生产的Cortex-A78则可达到3GHz，相当于在相同功耗下获得了20%的性能提升。

Mali

另一方面，在相同的性能下，5nm工艺生产的2.1GHz Cortex-A78功耗比7nm工艺2.3GHz的Cortex-A77降低了50%，有助于提高5G手机的续航。

说实话，ARM的这种计算方式令人头大，不合理也不公平。如果Cortex-A77也用5nm工艺生产，性能也会比7nm工艺时提升不少，功耗也会明显下降。

反之，如果用7nm工艺生产Cortex-A78，其性能和功耗表现也不见得比Cortex-A77好多少。

只是，新工艺和新架构搭配是科技发展的趋势也最经济，还利于宣传。所以咱们也就别较真儿了。

Cortex-X1：自研的终结

从iPhone 5开始，苹果A系列处理器就开始了“自研”之旅，而这也是为什么每一代iPhone的性能几乎都可以领先同期Android手机圈的所有处理器。

所谓的“自研”，就是购买ARM最高级的指令集授权，然后根据自身需要开发兼容ARM的架构，能领先ARM公版的Cortex-A架构多少全看芯片商的技术水平。

Mali

高通曾在骁龙600/800时代采用过自研的Krait架构，距离最新的骁龙820也是自研的Kyro。只是，高通发现自研架构的能耗比很难领先公版Cortex-A架构太多，不经济，所以从骁龙835开始就采取了BoC战略，也就是咱们常说的“魔改”，基于现有的公版Cortex-A架构进行版定制化。

华为从麒麟980开始，也采用了类似的思路，其大核也是基于Cortex-A架构进行了“based”，同样是一种魔改。需要注意的是，公版Cortex-A架构可以进行“魔改”的地方并不多，大家基本都是拿缓存部分开刀，所以无论是高通还是麒麟，其魔改后的内核与公版架构之间的性能差异并不大，关键还是看主频。

三星从Exynos 8890开始也加入到自研大军，并推出了名为猫鼬（Mongoose）的架构核心。但是，经过四代自主研发后，三星在2019年底已经决定放弃自研的Mongoose内核，并解散了位于德州奥斯汀的整个研发团队，未来将全面使用ARM的设计方案。

可见，除了苹果，其他芯片商的自研之路可谓一路荆棘，费力不讨好。

好消息是，ARM此次发布的“三剑客”中的Cortex-X1，其实就是一种允许芯片商在其上进行高度定制的IP内核，可以完全取代辛苦的“自研”之路。

从ARM公布的架构细节上来看，Cortex-X1与Cortex-A78都是ARMv8.2指令集下的，指令集是兼容的，但Cortex-X1是自定义CPU核，解码带宽从4路提升到5路，增加了25%，NEON浮点从2条128b提升到了4条128b，相当于浮点性能翻倍。缓存方面，Cortex-X1的L1缓存可达64KB，L2缓存1MB，L3缓存可达8MB，是Cortex-A78的两倍。

基于以上的改进，Cortex-X1较之上一代A77，其单核性能可提升30%、AI性能更是大涨100%。

按照ARM的规划，未来Cortex-X1将扮演旗舰级5G SoC内的“超大核”，而Cortex-A78则属于普通的“大核”，再与Cortex-A55构成“1+3+4”的三丛集DynamIQ集群，以实现性能和功耗的完美平衡。

唯一可惜的，就是Cortex-X1内核会占用更大的封装面积。ARM的资料显示，4个Cortex-A78核心在搭配4MB L3缓存时，其性能比前代A77可提升20%，同时核心面积降低15%；而1个Cortex-X1+3个Cortex-A78在搭配8MB L3缓存时，虽然核心面积会增加15%，但峰值性能提升了30%。

换句话说，Cortex-X1至少可以带来比Cortex-A78额外的10%的性能提升，看起来也不大啊？

Mali-G78：计算单元暴增

在Android领域，ARM公版的Mali系列GPU已经一枝独秀，昔日的老对手PowerVR已被边缘化。而新一代Mali-G78 GPU的问世，将进一步巩固ARM的亲儿子在GPU领域的领先地位。

也许是没有太大的竞争压力，所以Mali-G78依旧沿用了Mali-G77采用的Valhall图形架构，但它对全局时钟域进行了优化，改为全新的两级结构，实现了上层共享GPU模块与实际着色器核心频率的分离，也就是异步时钟域。这样一来，GPU的核心可以工作在与其他部分不同的频率上，可快可慢，从而解决几何输出与计算、纹理、引擎之间的不平衡问题，还能让GPU运行在不同电压上，从而降低功耗、提高能效，这也是桌面级CPU、GPU通用的做法。

此外，Mali-G78还彻底重写了FMA(融合乘加)引擎，包括新的乘法架构、新的加法架构、FP32/FP16浮点，可以节省30％的功耗。

在Mali-G77时代，最多可以搭配16个计算单元，也就是Mali-G77 MC16，但受制于成本、发热和功耗，哪怕是最激进的Exynos 990也才用了11个计算单元，即Mali-G77 MC11，天玑1000+则配备了Mali-G77 MC9。

这一次，Mali-G78最多可以武装24个计算单元，较之前辈增加了50%。但正如上面的原因，哪怕搭配最新的5nm工艺，估计实际商用的最大规模也就是16个左右，再多手机散热就压不住了。

根据ARM的资料显示，得益于综合架构、工艺等各方面的改进，Mali-G78相比于Mali-G77的性能提升幅度可达25%，即便是在同等工艺条件下也可提升15%，同时能效提升10%，机器学习性能提升15%。

看起来还不错。

此外，ARM还新推出了Mali-G68 GPU，用于填补Mali-G7系列和Mali-G5系之间的空白。从现有的资料来看，Mali-G68的架构和参数和Mali-G78一模一样，只是最多仅能搭配6个计算单元。

换句话说，搭配1~6个计算单元的Mali-G78就叫Mali-G68，超过6个计算单元的则是Mali-G77。

即将在9月份发布的麒麟1000系列应该是首发Cortex-A78和Mali-G78的5G SoC，但它能否用上Cortex-X1架构还不得而知。而明年上市的骁龙875、天玑2000和Exyno 1000系列也将用上“三剑客”中的至少1个成员，至于它们实际性能较之现有的旗舰能有多少提升，就让我们拭目以待吧。

打开APP阅读更多精彩内容