处理器/DSP
Apple在上月底宣布了新一代的M3系列处理器,同时也推出了新款MacBook Pro。而本次Apple选择一次性推出几乎所有产品系列,同时推出了基于标准M3以及更强大的M3 Pro和M3 Max SoC的产品。这些产品是基于TSMC的N3B工艺制造的,Apple旨在再次提高CPU和GPU的性能,并在单个笔记本SoC中使用的晶体管数量上创下了新纪录。
M3系列搭载于新款MacBook Pro以及24英寸iMac。但这些设备没有任何外部设计或功能更改(尺寸、端口和部件都与之前相同),因此内部更新就跟显得直接。因此,这些新产品发布的亮点是新的M3系列SoC及其带来的功能和性能。 Apple利用其最新一代用于Mac(毫无疑问,也用于高端iPad)的高性能芯片,似乎正在充分利用TSMC N3B工艺提供的密度和功率提升。但同时,他们也在改变SoC的配置方式。尤其是M3 Pro,在某些方面与其前代产品有显著的不同。所以,尽管M3芯片本身并不算“开创性”,但这里有一些重要的变化值得我们关注。
首先,让我们来看看三款M3芯片的规格。这三款芯片在一个月内相继发布(严格来说M3 Max设备要到11月中旬才上市),这是迄今为止最雄心勃勃的一次M系列芯片的发布。通常,Apple会从小型设备开始,逐步升级(比如先发布M2,然后再推出Pro和Max型号),但这次我们一次性得到了所有配置的芯片。
不过,Apple在产量方面也开始缩小规模。Apple使用这些新款芯片来更新MacBook Pro系列和一款iMac,这些是Apple产品中较昂贵的产品(普遍被认为是低产量的)。这与先从MacBook Air和其他更便宜的设备开始完全不同,后者需要大量的入门级芯片。这很可能是因为像N3B这样的前沿节点(Apple是为数不多的客户之一),初期可能会有些产量和产能瓶颈。当然,Apple永远不会承认这一点。无论如何,他们在这一代产品的芯片发布策略上采取了从更昂贵设备开始的方式。
这三款芯片共享一个通用架构,并且从广义上讲,是该架构的升级版本,具有更多的内核、更多的I/O和更多的内存通道。最小的芯片M3,以250亿个晶体管开始(比M2多出50亿个),而最高端的M3 Max则拥有高达920亿个晶体管。虽然Apple提供了芯片照片(在当今行业中这是非常罕见的),但他们并未提供芯片尺寸,因此我们需要等到设备发货后才能看到这些芯片尺寸的实际大小。 除了3nm工艺之外,Apple官方没有公开其它的具体工艺,但鉴于TSMC唯一可用于这类高产量生产的3nm生产线是N3B,所以我们可以非常确定M3系列使用的是N3B,A17也采用了这一工艺。根据TSMC的官方数据,N3B提供了极高的晶体管密度,特征尺寸减少了42%,等效功率减少了大约25%。即便如此,尤其是M3 Max,也是一个非常庞大的芯片。
在其他方面,Apple似乎没有对其支持的内存类型进行任何更改。Apple的带宽数据在几个案例中与M2系列数据相同,这表明他们仍在使用LPDDR5-6400内存。这有点令人惊讶,因为更快的LPDDR5X内存已经随处可得,而且Apple以GPU为重的设计通常会从额外的内存带宽中受益匪浅。此时的大问题是,这是否是因为技术限制(例如Apple的内存控制器不支持LPDDR5X?),或者Apple有意决定坚持使用常规LPDDR5。
M3 CPU架构:速度更快?
在架构方面,遗憾的是,Apple对于M3系列SoC中使用的CPU和GPU架构的表述相当含糊。事实上,Apple一整年对相关信息进行了更严密的控制。即使到现在,我们也不知道用于A17 SoC的CPU内核的代号。 无论如何,鉴于Apple在A系列和M系列芯片之间共享CPU架构,我们无疑之前已经见过这些CPU内核。问题是我们是在看A17 SoC最近推出的CPU内核,还是A16的CPU内核(Everest和Sawtooth)。A17更有可能,尤其是因为Apple已经拥有了N3B的工作IP。但严格来说,我们目前没有足够的信息来排除是否是A16 CPU内核;特别是因为Apple没有提供关于M3系列CPU内核相较于M2架构的改进的任何指导。
我们目前所知的是,与M2系列相比,Apple宣称其性能核的性能提升了约15%,与M1相比提升了30%。Apple没有公开用于做出这一判断的benchmark或设置,因此我们无法对这个估计的现实性做出太多评论。或者说,这种提升多少是来自于IPC提升还是时钟频率提升。
与此同时,能效核也得到了改进,据Apple称,其提升幅度超过了性能核。M3系列的能效核比M2快30%,比M1快50%。 Apple在其网站上发布了特定应用的benchmark,尽管这些是系统级别的测试。其中许多混合了CPU和GPU的性能提升。这些测试对于那些应用的用户来说肯定是相关的,但它们并没有告诉我们太多关于CPU内核本身的信息。
Apple同样模糊的性能/功耗曲线也在很大程度上重申了这些声明,同时确认了性能/功耗曲线变得更加平缓的长期趋势正在持续。例如,Apple声称M3能以M1一半的功耗提供相同的CPU性能;但在等效功耗下,峰值性能只提高了约40%。 连续几代的工艺持续降低了从等效性能的角度来看的功耗,但它们在提高时钟速度方面做得相对较少。这使得通过提高时钟速度获得持续性能增益在功耗方面相对昂贵,这反过来又促使芯片供应商整体增加了功耗。即使是M3也无法避免这一点,根据苹果的图表,其峰值功耗高于M1。
M3 GPU架构:Mesh Shading和Ray Tracing
在GPU方面,M3系列包含了更实质性的GPU架构更新。虽然Apple对GPU架构的基本组织没有透露太多,但从功能角度来看,新架构为Apple平台带来了一些重大的新功能:Mesh Shading和Ray Tracing。 这些功能也是随Apple A17 SoC一同为iPhone 15 Pro系列引入的,几乎可以肯定这是该架构更大规模的实现,就像在之前的几代产品中一样。由于我们在这里讨论的是笔记本和台式机,这些功能将使M3 GPU在功能上大致与Nvidia/AMD/Intel最新的独立GPU设计相当,后者在几年前就已经提供类似功能了。在Windows术语中,M3 GPU架构将是一个DirectX 12 Ultimate级别(feature level 12_2)的设计,使Apple成为第二个在笔记本SoC中提供如此高功能集成GPU的厂商。 Ray Tracing几乎不需要介绍,因为整个GPU/图形行业在过去五年里一直在大力推广这种更加物理准确的渲染形式。另一方面,Mesh Shading不太为人所知,因为它提高了渲染pipeline的效率,而不是解锁新的图形效果。然而,它的重要性不应被低估。Mesh Shading彻底颠覆了整个几何渲染pipeline,允许在可用的帧率下实现更多的几何细节。这是一个“基线”功能(开发者需要围绕它设计他们引擎的内核),所以最初的采用不会太多,但最终它将成为一个决定性的功能,作为与M3之前GPU兼容性的分水岭。这是我们今天已经可以在PC上看到的,比如最近发布的《Alan Wake II》等游戏。
这一代GPU还引入了一种新的内存管理功能/策略,苹果称之为“动态缓存”。根据Apple产品展示中的有限描述,看来Apple已经开始更好地控制和分配GPU使用的内存,防止其分配的内存超出实际需求。GPU过度分配内存是常见的,但这是非常浪费的,尤其是在统一内存平台上。因此,正如Apple所说,“每项任务只使用所需的确切内存量”。
值得注意的是,这项功能对开发者是透明的,并且完全在硬件层面上操作。因此,无论Apple在底层做了什么,它都被从开发者和用户那里抽象出来。尽管如此,用户最终将从更多的可用RAM中受益,这对于M3版Macbook Pro的最低配8GB RAM来说,无疑是好消息。
然而,更令人好奇的是,Apple声称这还将提高GPU性能。具体来说,动态缓存将“显著”提高GPU的平均利用率。目前还不清楚内存分配和GPU利用率之间的关系,除非Apple是针对由于缺乏RAM而不得不不断交换到存储的边缘案例。无论如何,Apple认为这个功能是新GPU架构的基石,并在未来值得更仔细的观察。
然而,在性能方面,Apple提供的指导非常有限。在过去的几代产品中,至少为其GPU提供了一个通用的计算吞吐量数字,比如M2 GPU的5.6 TFLOPS。但对于M3 GPU,我们并没有得到这样的吞吐量数据。因此,至少可以说,目前还不清楚这些GPU在现有应用/游戏中可能会多快。Apple在其产品页面上引用了2.5倍的数据,但查看注释,这是Redshift使用硬件RT(M3)与软件RT(其他所有)的比较。
在最佳情况下,Apple在其演示中展示了一张GPU性能/功耗曲线图,将M3与M1进行了比较。Apple再次声称,在等效性能下,M3的功耗是M1的一半。同时,在等效功耗下(峰值M1,约12.5W),性能提高了约50%。但M3的GPU功耗限制也显著提高,达到大约17W。这确实解锁了更高的性能,但同样需要更多功耗,且没告诉我们M3 GPU与M2相比如何。
M3 NPU:速度略快,但架构未更新?
最后,让我们快速了解一下M3的NPU。从高层次来看,这次仍是一个16核设计。Apple声称它提供18 TOPS的性能,比M2的NPU快约14%(Apple的官方数据显示为15%,很可能是四舍五入)。所有三款M3芯片似乎都有相同的16核的NPU设计,因此应该都具有类似的性能。
这个18 TOPS的数据引起了一些疑问。正如Ian Cutress博士指出的,18 TOPS实际上比A17 SoC中的NPU慢,Apple给出的A17的NPU性能是35 TOPS。
那么,究竟发生了什么?
在A17 SoC发布时,Apple开始引用INT8性能数据,与我们认为之前NPU版本(A系列和M系列)使用的INT16/FP16数据相比。该格式的较低精度允许以更高速率处理(以精度换取吞吐量),因此得出了更高的数据。
这里的18 TOPS数据显然是INT16/FP16性能,因为这与过去M系列的说法以及Apple自己的图表一致。然后,留下的问题是,鉴于INT8是最近才为A17添加的,M3中的NPU是否支持INT8。要么它确实支持INT8,这种情况下Apple在这里的信息传递存在困难;要么它是一个较老的NPU架构版本,不支持INT8。
这种差异总体上更像是一个好奇点而非一个问题。但看看Apple是否保持了其A系列和M系列NPU架构的一致性,或者我们在这一代产品中是否看到了分歧,肯定是挺有意思的。
M3 vs M2 vs M1
回到速度和性能规格上,看每一级别M系列处理器的规格表,与它们的直接前代产品进行下比较。这有助于更好地说明M系列芯片随着时间的推移在内核数量、性能、内存支持和I/O方面是如何发展的。
标版M系列是该系列中最直接的。作为M系列芯片中的首款产品,Apple不断提升芯片的能力和性能。但他们并没有在功能模块/内核方面增加太多。现在进入了第三代,我们看到的仍然是4P+4E的CPU设计,而GPU从第一代的8核增长到了M2和M3的10核。
为这个小野兽提供动力的是一个持续的128位内存总线。由于Apple在这一代M系列中没有采用LPDDR5X,内存带宽与M2保持不变,最多可达24GB的LPDDR5-6400,允许100GB/秒的总内存带宽。
芯片的I/O也在各代产品中保持不变。M3能够驱动两个40Gbps的USB4/Thunderbolt端口,与M2和M1相同。此外,它仍然只支持两个显示器,内部显示器和一个外部显示器。
尽管内核数量没有增加,但跨代产品的晶体管数量继续增长,因为新功能和更复杂的内核设计占用了更多的晶体管预算。M3拥有250亿个晶体管,比M2多出25%,或比M1多出56%。
然而,M3 Pro的发展路径更加有趣。与M2 Pro相比,M3 Pro在配置上有一些显著的不同,而且在晶体管数量上并没有像其他芯片那样增长。
从CPU内核开始,尽管M3 Pro像M2 Pro一样共有12个CPU核,但性能核和能效核之间的平衡已经发生了变化。具体来说,它从8P+4E设计变成了6P+6E设计。虽然所有CPU核的总体性能都比M2的内核更高,但这就是为什么Apple官方的性能数据显示,配备M2 Pro的MacBook Pro在CPU性能上只有微弱提升的原因。对于重度多线程工作负载,计算硬件实际上并没有增加。
GPU内核数量也有所下降。M3架构GPU提供18个内核,而M2 Pro提供19个内核。这与普通的M3或M3 Max相反,后者要么保持不变,要么分别略微增加了GPU内核数量。
最后,这一切的原因是一个明显较小的内存总线。M1 Pro和M2 Pro都配备了256位的LPDDR5内存总线,当使用LPDDR5-6400时,为SoC提供了200GB的总内存带宽。然而,在M3 Pro上,Apple显然将内存总线削减到了192位宽(减少了四分之一的内存总线),这反过来又将内存带宽减少了25%,降至150GB/秒。
这些变化的组合意味着,从高层次来看,M3 Pro更像是一个比普通M3更强大的版本,而不是一个缩减版的M3 Max。但总体而言,性能核与能效核的平衡比例更接近M3的设计,内存带宽也是如此。M3 Pro应该仍然比M3快很多,但在某些领域,它可能在性能上与M2 Pro相比只是一种侧面升级。
Apple在M3 Pro上采取的更为保守的立场也反映在其晶体管数量上。M3 Pro的晶体管数量实际上比M2代降低了,从400亿降至370亿。因此,不论使用的是哪种工艺节点,这总体上是一个更简单的芯片。与M1 Pro相比,两代产品中晶体管数量的增长仅约10%。
至于为什么Apple没有像其他M3 SoC那样增加M3 Pro的规模,目前任何说法都是猜测。但从根本上来说,由于晶体管数量较少和芯片尺寸较小,M3 Pro应该比M2 Pro更生产成本更低。N3B的产量可能在这里有一定影响因素(产量较低等于芯片的实际成本更高),但只有TSMC和Apple知道这是否确实如此。
功耗也可能是一个因素,特别是在CPU内核重新平衡的情况下。8个性能核确实可以提供出色的性能,但它们肯定会增加功耗。Max SoC在某种程度上可以摆脱这个问题,因为它们是顶配芯片,也用于高端台式机,并且主要面向台式机替代类笔记本电脑的用户。但对于更多Mac用户来说,Apple可能在通过限制性能增长来控制功耗方面做出了努力。
出于这些原因,看看评测benchmark会如何展开将会很有趣。虽然这不太可能是Apple会讲述的故事,但他们笔记本的性能和功耗应该能够替他们说出很多故事。
最后,我们来看看M系列产品线中最大、最强的产品,Max系列。Max一直在内核数量和晶体管数量上推动极限,M3 Max延续了这一传统。
与其M2前代相比,Apple在这里增加了另外4个性能核,总数达到12个性能核和4个能效核。这使它成为唯一一个性能核数量增加的M3系产品。因此,至少在良好的热条件下,它应该是唯一一个在多线程CPU性能上看到显著提升的M3芯片。尽管“良好的热条件”确实是关键,因为这是一个非常强大的、需要冷却的芯片。
在GPU方面,GPU核数量略有增加,从M2 Max的38核增加到M3 Max的40核。由于Apple没有提供的可参考的相关性能数据,很难估计这在实践中会快多少。
驱动M3 Max的是与前两代芯片相同的512位LPDDR5内存总线。值得注意的是,这意味着Apple可用的内存带宽在过去两代产品中没有增加,以跟上CPU和GPU内核数量的增加,因此Apple需要从其芯片架构中提取更多的效率(和缓存hits中)来保证SoC得到充分供应。
从Apple官方提供的芯片照片来看,我们可以看到Apple再次使用了他们定制的x128组织LPDDR5内存芯片,使他们能够仅通过4个芯片连接一个512位的内存总线。这一代产品的最大内存容量已经增加到128GB,这对这些内存芯片中使用的die有着有趣的影响。除非Apple正在进行一些真正疯狂的事情,否则获得128GB LPDDR5的唯一方法是使用32Gbit LPDDR5芯片(总共32个)。我不知道目前有谁在提供这样容量的芯片,因此看来Apple已经获得了该内存供应商的首发权。对于其他公司来说,我们应该看到明年晚些时候在Windows笔记本上提供128GB LPDDR5(X)配置。
随着CPU内核、GPU内核的增加,以及芯片各种构建模块复杂性的普遍增加,M3 Max的总晶体管数量已经增加到920亿个。这比M2 Max多出了37%,甚至比Nvidia基于TSMC N4工艺的GH100服务器GPU多出15%(120亿个)。基于N3B构建的M3 Max应该明显更小(低于400mm²?),但按照笔记本SoC标准,这仍然是一个巨大的芯片,更不用说如果Apple把两个这样的芯片放在一起形成Ultra配置会发生什么。Apple支付给TSMC的费用肯定价格不菲,但又有多少其他公司在笔记本的SoC上设计比服务器芯片还要多的晶体管呢?
M3 Macbook Pro
总结一下,我们将很快看到M3芯片实际运行的情况。目前M3和M3 Pro已经开始交付。
与此同时,M3 Max的交付时间稍晚一些,Apple表示预计会在11月稍晚时候到货。
此时,M2 Pro和M2 Max的笔记本,以及基于M2的13英寸MacBook Pro已经停产,因此这看起来将是笔记本方面非常迅速的过渡。Apple仍在其台式机部件中使用M2 Pro/Max芯片,例如Mac Studio,但由于所有M3芯片已经上市,Apple升级其台式机产品线只是时间问题。
编辑:黄飞
全部0条评论
快来发表一下你的评论吧 !