基于Chiplet设计的第四代至强可扩展服务器处理器Sapphire Rapids

传感器技术 2023-01-16 2917

描述

在经过多次的延期以后，英特尔首个基于Chiplet设计的第四代至强可扩展服务器处理器Sapphire Rapids终于正式发布。据介绍，该系列处理器包括了包括常规版本和注入 HBM 的Max版本。

这一领域是不是听起来很吸引人？“你的起点并不重要，但要眼光长远，了解相邻学科或互补学科。”施奈尔以安全经济学的为例。“我开设了安全经济学课程，还有安全心理学课程。如果你是一名安全工程师，但不了解自己想解决的问题中的经济学因素，那么你采取的举措可能是完全错误的，你制造的工

外媒tomshardware更是直言，英特尔拥有 52 款全新 CPU 的庞大产品组合将与去年首次亮相的 AMD EPYC Genoa系列展开激烈竞争。

据报道，虽然 AMD 的芯片以单个芯片上最多 96 个内核保持核心数量领先，但英特尔的 Sapphire Rapids 芯片使该公司最多达到 60 个内核，比之前第三代Ice Lake至强的 40 个内核的峰值提高了 50%冰。英特尔声称这将使通用计算能力比其上一代芯片提高 53%，但在演示期间，他们基本上避免与 AMD 的芯片进行直接比较。然而，英特尔已向媒体提供样品以供不受限制的第三方审查，因此它并没有回避竞争。

Sapphire Rapids非常依赖新的加速技术，这些技术可以直接购买，也可以通过新的现收现付模式购买。芯片的这些新的专用加速器区域旨在从根本上提高多种类型工作的性能，例如压缩、加密、数据移动和数据分析，这些工作通常需要独立的加速器才能实现最佳性能。

尽管拥有明显的核心数量领先优势，但AMD的Genoa处理器并没有类似的加速功能。在使用新加速器时，英特尔声称在某些工作负载中，每瓦性能比其上一代模型平均提高2.9倍。英特尔还声称AI推理和训练提高了10倍，数据分析工作负载提高了3倍。

英特尔的Sapphire Rapids采用“Intel 7”工艺制造，还带来了一系列新的连接技术，例如对PCIe 5.0、DDR5内存和CXL 1.1接口（type 1 and 2 devices）的支持，为公司提供了对AMD的Genoa站稳脚跟。

英特尔的Sapphire Rapids产品堆栈涵盖52个型号，分为“性能”和“主流”双插槽芯片，用于通用型号。还有用于液冷、单路、网络、云、HPC和存储/HCI系统的专用型号。结果，感觉几乎每个工作负载都有一个专门的芯片，这就创建了一个令人困惑的产品堆栈。

然后，这些芯片被分为各种Max、Platinum、Gold、Silver 和 Bronze子层（sub-tiers），每个子层表示不同级别的插槽可扩展性、对Optane持久内存的支持、RAS功能、SGX 飞地容量等。

处理器

Sapphire Rapids 芯片现在还配备了不同数量的板载启用加速器设备。目前，重要的是要知道每个芯片都可以启用可变数量的加速器“设备”（在上面的规格表中列出——将“设备”的数量视为类似于加速器“内核”）。

您可以购买完全支持所有加速器的四个设备的芯片，或者您可以选择支持设备数量较少的较便宜的芯片型号。如果芯片未完全启用，您可以稍后通过称为Intel on Demand的新的现收现付机制激活加速器。 “+”模型默认启用每种类型的至少一个加速器。但是，有两类芯片具有两种不同的加速器分配。我们将在下面深入探讨这些细节以及不同类型的加速器。

新处理器都支持AVX-512、深度学习提升（DLBoost）和新的高级矩阵扩展（AMX）指令，后者通过使用一组称为图块的新二维寄存器在AI工作负载中提供爆炸性的性能提升。英特尔的AMX实施将主要用于提高AI训练和推理操作的性能。

和以前一样，英特尔的第4代至强可扩展平台支持1、2、4和8插槽配置，而AMD的Genoa仅可扩展到两个插槽。AMD在PCIe连接选项方面处于领先地位，提供多达128个PCIe 5.0 通道，而Sapphire Rapids最高提供80个PCIe 5.0通道。

Sapphire Rapids还支持高达1.5TB的DDR5-4800内存分布在每个插槽的八个通道中，而AMD的Genoa支持高达6TB的DDR5-4800内存分布在每个插槽的12个通道中。英特尔已将其2DPC（每通道 DIMM 数）配置指定为DDR5-4400，而AMD尚未完成其2DPC传输速率的资格认证（该公司预计将在本季度发布2DPC规格）。

Sapphire Rapids处理器能提供从八核型号到60核型号等不等的SKU，旗舰 Xeon Scalable Platinum 8490H的起价为415美元，最高价为17，000美元。8490H有60个内核和120个线程，所有四种加速器类型都已完全启用。该芯片还具有112.5 MB的L3缓存和350W TDP额定值。

Sapphire Rapids TDP envelopes span从 120W 到 350W。350W 的额定功率明显高于英特尔上一代 Ice Lake Xeon 系列的 280W 峰值，但对更高性能的不懈追求使整个行业都在推向更高的极限。例如，AMD 的 Genoa 以类似的360W TDP达到顶峰，尽管是针对96核型号，甚至可以配置为高达400W。

8490H 是唯一的 60 核型号，并且仅在启用所有加速引擎的情况下才可用。回到56核Platinum 8480+将花费10，710美元，但每种类型的加速设备中只有一个处于活动状态。该处理器具有3.8 GHz升压时钟、350W TDP和105MB的三级缓存。

处理器

英特尔的新型片上（on-die ）加速器是其Sapphire Rapids处理器的关键新组件。如上所述，您可以购买已激活所有加速器选项的芯片，也可以选择更便宜的型号并根据需要通过Intel On Demand服务购买加速器许可证。并非所有芯片都具有相同的加速器选项，我们将在下面介绍。

英特尔尚未提供加速器的定价指南，但许可证将通过服务器OEM提供，并通过软件和许可API激活。无需直接购买完整许可证，您还可以选择按使用量计费的现收现付功能，以衡量您使用了多少服务。此功能可能会在CSP中流行。

Intel On Demand服务背后的想法是让客户只激活他们需要的功能并支付费用，同时还提供了不需要购买新服务器或处理器的未来升级路径。相反，客户可以选择使用加速引擎来提高性能。这也让英特尔及其合作伙伴能够从同一个功能芯片中“雕刻”出多种类型的SKU，从而简化供应链并降低成本。

这些功能代表了英特尔将固定功能加速器引入处理器裸片的悠久历史的延续。尽管如此，Sapphire Rapids上强大的单元仍需要软件支持才能发挥全部性能。英特尔已经与多家软件供应商合作，以支持广泛的应用程序，您可以在上面的相册中看到其中的许多应用程序。

处理器

英特尔有四种类型的加速器可用于Sapphire Rapids。数据流加速器（DSA：Data Streaming Accelerator）通过卸载CPU的数据复制和数据转换操作来改进数据移动。当系统负载波动时，动态负载平衡器（DLB：Dynamic Load Balancer）加速器介入以提供数据包优先级并动态平衡CPU内核之间的网络流量。

英特尔还有一个内存分析加速器（IAA：In-Memory Analytics Accelerator），可以加速分析性能并卸载CPU内核，从而提高数据库查询吞吐量和其他功能。

处理器

英特尔还将其快速辅助技术（QAT：Quick Assist Technology）加速器带入了CPU。此功能过去驻留在芯片组上。该硬件卸载加速器增强了加密和压缩/解压缩性能。英特尔使用QAT加速器已有一段时间，因此该技术已经享有广泛的软件支持。

处理器

不幸的是，这些芯片具有不同的加速能力——你不能在所有型号上购买四个“设备”。Sapphire Rapids处理器由两种类型的设计（Die Chops）组成，如SKU表中所列。XCC芯片由四个die组成，每个die都有一个加速器（IAA、QAT、DSA、DLB）。这意味着您最多可以在这些芯片上激活每种类型的四个加速器（例如，4个IAA、4个QAT、4个DSA、4个DLB）。

相比之下，一些芯片使用单个MCC die，因此它们只有一个IAA和DSA加速器以及两个QAT和DLB加速器（2个QAT、2个DLB、1个IAA、1个 DSA）。

Intel Max CPU 系列和 Ponte Vecchio Max GPU 系列

英特尔最近公布了有关其即将推出的至强Max系列CPU和英特尔数据中心GPU Max系列（Ponte Vecchio）的详细信息。今天标志着正式启动。

英特尔配备HBM2e的Max CPU型号上市，具有32至56个内核，并基于标准的Sapphire Rapids设计。这些芯片是第一批采用HBM2e内存封装的x86处理器，从而为处理器提供了更大的64GB本地内存池。HBM内存将有助于处理对内核数量不那么敏感的内存绑定工作负载，因此Max型号的内核数量少于标准型号。目标工作负载包括计算流体动力学、气候和天气预报、人工智能训练和推理、大数据分析、内存数据库和存储应用程序。

处理器

Max CPU可以在多种配置下运行，例如将HBM内存用于所有内存操作（仅HBM-不需要DDR5内存），将HBM呈现为单独内存区域的HBM“平面模式”（这需要广泛的软件支持），或者在使用HBM2e作为DRAM支持的缓存的HBM“缓存模式”中。后者不需要更改代码，很可能是最常用的操作模式。

Xeon Max CPU将与AMD的EPYC Milan-X处理器相抗衡，后者带有一个称为3D V-Cache的3D堆叠L3缓存。Milan-X模型每个芯片具有高达768MB的总L3缓存，可提供令人难以置信的带宽量，但它提供的容量不如英特尔的HBM2e方法。这两种方法各有优缺点，因此我们迫不及待地想对Xeon Max处理器进行测试。

值得注意的是，富士通的A64FX Arm处理器使用了类似的HBM技术。配备HBM的A64FX处理器为Fugaku超级计算机提供动力，该超级计算机多年来一直是世界上最快的（直到去年由AMD驱动的百亿亿级Frontier接管）。Fugaku仍然保持在Top500的第二位。

英特尔还推出了之前代号为Ponte Vecchio 的 Max GPU系列。英特尔此前推出了三种不同的GPU型号，它们均采用标准PCIe和OAM外形规格。

英特尔傲腾持久内存（PMem） 300

作为Sapphire Rapids发布的一部分，英特尔悄悄推出了最后一个系列的傲腾持久内存DIMM。最后一代代号为Crow‘s Pass 但正式名称为Intel Optane Persistent Memory 300，将提供128、256和512 GB容量，并以DDR5-4400运行。这比之前的DDR4-3200峰值有了很大的改进，但这也意味着如果Sapphire Rapids系统计划使用傲腾，则必须将标准内存从支持的DDR5-4800降频到DDR5-4400。

英特尔声称300系列在随机工作负载中提供的顺序带宽增加了56%，带宽增加了214%，同时支持每个插槽高达4TB的Optane，或系统总容量为6TB。就像上一代Optane 200系列一样，DIMM的运行功率为15W。但是，他们现在升级到DDR-T2接口和AES-XTS 256位加密。

在2015年首次亮相时，英特尔和合作伙伴美光吹捧其底层技术3D XPoint，其性能和耐用性是NAND存储的1000倍，同时密度是DRAM的10倍，但该技术现在即将走到尽头。英特尔已经停止生产用于客户端PC的Optane存储产品，这是有道理的，因为它是将其NAND业务出售给SK海力士。

然而，英特尔保留了其数据中心的内存业务，包括其持久内存DIMM ，它可以作为主内存的附件——只有英特尔提供的功能。在300系列模块之后，这些产品也不会出现任何后代。

英特尔将行业转向基于CXL的架构作为结束Optane业务的原因，反映了英特尔前合作伙伴美光去年退出该业务时的情绪。 Sapphire Rapids同时支持Optane DIMM 和CXL接口，但这将是最后一次看到两者同时出现——CXL将成为未来业界将奇异存储器连接到芯片的首选方法。

英特尔延迟交付旗舰芯片的内幕

去年5月，芯片巨头英特尔的高管桑德拉里维拉（Sandra Rivera）得到了一些令人震惊的消息。

工程师们花了五年多的时间来开发一种功能强大的新型微处理器，以在数据中心执行计算任务，并且确信他们最终得到了正确的产品。但在讨论该项目的例行早会上，出现了潜在严重技术缺陷的迹象。

这个问题非常麻烦，以至于微处理器的代号Sapphire Rapids不得不推迟发布——这是英特尔多年来最重要的产品之一遭遇的一系列挫折中的最新一次。

“我们非常沮丧，”负责英特尔数据中心和人工智能集团的执行副总裁里维拉女士说。“这是一个痛苦的决定。”

Sapphire Rapids的发布时间最终从2022年年中推迟到本周二，比预期晚了近两年。该产品的长期开发——在一个封装中结合了四个芯片——凸显了在美国试图确立其在基础计算机技术领域的主导地位时英特尔扭亏为盈所面临的一些挑战。

自1970年代以来，英特尔一直是运行大多数电子设备的小硅片领域的领先者，最著名的是一种称为微处理器的品种，它在大多数计算机中充当电子大脑。但这家硅谷公司近年来失去了在制造技术方面的长期领先优势，而这有助于决定芯片的计算速度。

2021年成为英特尔首席执行官的帕特里克·盖尔辛格（ Patrick Gelsinger ）誓言要恢复其制造优势并在美国建立新工厂。

Sapphire Rapids的坎坷发展对英特尔能否反弹以按时交付未来芯片具有影响。这是一个可能会影响许多计算机制造商和云服务提供商的问题，更不用说数百万使用可能由英特尔技术提供支持的在线服务的消费者了。

“我们想要的是一个可预测的稳定节奏，”联想负责服务器销售的执行副总裁柯克斯考根说，这家中国公司计划推出25个基于新处理器的新系统。“Sapphire Rapids是旅程的开始。”

对英特尔来说，压力还在。随着对用于个人电脑的芯片的需求下降，该公司在其最赚钱的业务服务器芯片方面面临着激烈的竞争。这个问题令华尔街感到担忧，自从Gelsinger上任以来，英特尔的市值暴跌超过 1200 亿美元。

在周二的在线活动中讨论以科罗拉多河的一部分命名的Sapphire Rapids，英特尔客户描述了使用该处理器的计划，他们表示这将为人工智能任务带来特别的好处。该产品的正式名称为第4代英特尔至强可扩展处理器，与至强芯片系列的另一个延迟添加一起推出。该产品以前的代号为 Ponte Vecchio，旨在加速特殊用途的工作，并与Sapphire Rapids一起用于高性能计算机。

Gelsinger先生在接受采访时说，尽管有延误，但 Sapphire Rapids 已经具备了成功的条件。他在 2021 年选择里维拉女士接管开发它的部门，她正在利用经验教训改变英特尔设计和测试其产品的方式。他说英特尔已经对Sapphire Rapids发生的事情进行了几次内部审查。

Sapphire Rapids始于2015年，由一小群英特尔工程师进行讨论。该产品是该公司首次尝试采用新的芯片设计方法。公司现在通常在每块硅片上封装数百亿个微型晶体管，但像Advanced Micro Devices和其他公司这样的竞争对手已经开始用塑料封装中捆绑在一起的多个芯片制造处理器。

英特尔工程师提出了一种包含四个裸片的设计，每个裸片都有15个处理器“内核”，就像用于通用计算工作的独立计算器一样。该公司还决定为特殊任务（包括人工智能和加密）添加额外的电路块，并与其他组件通信，例如存储数据的芯片。

共同领导英特尔设计工程团队的Shlomit Weiss说，这么多元素之间的相互作用“非常复杂”。“复杂性通常会带来问题。”

Sapphire Rapids团队努力解决由设计人员错误或制造故障引起的缺陷、缺陷，这些缺陷可能导致芯片进行错误计算、工作缓慢或停止运行。他们还受到产品制造过程延迟的影响。

但月，工程师们达到了一个里程碑，称为“流片”。那时，包含完整设计的电子文件会被转移到工厂制作样品芯片。

由于Covid-19迫使封锁，样品芯片于2020年初运抵。工程师们很快就让Sapphire Rapids上的计算核心相互通信，该项目的总工程师Nevine Nassif说。但比预期更多的工作仍然存在。

一项关键的杂务是“验证”，这是一个测试过程，英特尔及其客户在样本芯片上运行软件以模拟计算杂务并发现错误。一旦发现并修复缺陷，设计可能会返回工厂制造新的测试芯片，这通常需要一个多月的时间。

重复该过程导致错过最后期限。Nassif女士说，Sapphire Rapids旨在对抗AMD的Milan处理器，该处理器于2021年3月推出。但到6月它仍未准备就绪，当时英特尔宣布推迟到明年进行更多验证。

就在那时，里维拉女士介入了。这位长期担任英特尔高管的人在2019年被任命为首席人力资源官之前，已经成功地建立了网络产品业务。

“我们必须恢复执行力，”基辛格先生说。“我需要有人能够挺身而出，为我解决这个问题。”

2021年10月，Rivera女士和一位高级设计主管建立了每周一次的Sapphire Rapids状态会议，每周一早上 7 点举行。她说，这些会议表明在查找和修复错误方面取得了稳步进展，这增强了人们对2022年第二季度开始生产的信心。

然后是去年五月发现的缺陷。里维拉女士不愿详细描述，但表示它影响了处理器的性能。6月，她利用一次投资者活动宣布延迟至少四分之一，这将Sapphire Rapids推迟到了11月。

“我们已经准备好发货了，”纳西夫女士说。最后的延迟“考虑到已经付出的所有努力，真是太令人难过了。”

里维拉女士从挫折中看到了一系列教训。一个原因很简单，英特尔在Sapphire Rapids中包含了太多的创新，而不是更早地提供一个不那么雄心勃勃的产品。

她还得出结论，该团队应该花更多时间使用计算机模拟来完善和测试其设计。里维拉女士说，在样品芯片出现错误之前发现错误成本较低，并且可以删除功能以简化产品。此后，她转而加强英特尔的模拟和验证能力。

“我们曾经有很多这样的肌肉，我们任其萎缩，”里维拉女士说。“现在我们正在重建。”

她还确定英特尔安排的产品数量超过了其工程师和客户能够轻松处理的数量。因此，她简化了产品路线图，包括将Sapphire Rapids的继任者从2023年推迟到2024 年。

更广泛地说，里维拉女士和其他英特尔高管推动该组织开发更好的流程来记录技术问题，并在公司内外共享该信息。

审核编辑：李倩

打开APP阅读更多精彩内容