英特尔Gaudi 3 AI芯片：5nm工艺设计，训练推理皆强

微云疏影 2024-04-10 1680

描述

　　4 月 9 日，英特尔在 Vision 2024 大会上公布最新一代 Gaudi 3 AI 芯片并宣布将于同年第三季度批量上市。相较于英伟达 H100，Gaudi 3 训练性能提升 170%，推理能力增幅 50%，效率提升 40%，而成本显著降低。

　　此外，英特尔在发布会上还宣布更改旗下数据中心CPU产品名称：原“Granite Rapids”和“Sierra Forest”将更名为“Xeon 6”系列。新品预计今年发售，并支持性能提升后的标准化 MXFP4 数据格式。

　　除此之外，英特尔正研发适用于以太网的 AI NIC ASIC 及 AI NIC 小芯片。这两款产品尤其适合于其未来的 XPU 和 Gaudi 3 处理器，有望通过英特尔代工厂对外销售。有关网络产品的详细信息尚未公开。

　　据悉，Gaudi 3 采用 5nm 制程，FP8性能较前代翻番，BF16性能增大至四倍，网络带宽增加一倍，内存带宽扩大约 1.5 倍，能够提供Mezz卡、板载以及PCIe三种形式。

　　Gaudi 3拥有64个第五代张量处理核心和8个矩阵计算引擎，并配备128GBHBM内存和96MBSRAM。设计有24条200GBERoCE标准以太网总线和最多16条PCIe5.0总线。

　　在板载版，聚类产品型号为HLB-325。由八块Gaudi 3 Mezz卡组成的模块提供约14.6PFLOPS的FP8性能，极大的带宽速率达29.6TB/s的HBM2e内存，64个线性计算引擎，192条200GBE网络总线和上述所有。

　　在PCIe版本，型号为HL-338的卡具有单卡达1835TFLOPS的FP8峰值性能，128GBHBM2e内存，8个线性计算引擎，24条200GBE网络总线，功率消耗600W，占两卡槽的整体空间高度。

　　一个由8个Gaudi 3 AI加速器构成的节点可提供14.7PF FP8计算性能，128GB的内存，8.4TB/s的网络读写速度，而64个节点的集群（512个AI加速器）能提供的最大计算性能为7.52EF FP8，525.3TB的内存和614TB/s的网络读写速度。更高的，1024个节点的集群可以达到15EF FP8的计算性能，1PB的内存和1，229PB每秒的网络读写速度。

　　在实际测试中，与英伟达的主流产品H100比较，Gaudi 3在相同节点数时的平均训练时间要高出约1.7倍，LLAMA2 70亿的模型参数的情况下超过了H100的1.5倍，对于LLAMA2 130亿参数的模型，Gaudi 3在最高时也超过了H100的1.7倍，同样，GPT 3已达到1750亿参数，且Gaudi 3在推理速度和能效表现上均优

　　英特尔近日发布了其下一代 GPU 路线规划——Gaudi 3，包括风冷和液冷版本，计划于明年三至四季度相继批量交付。Gaudi 3 由戴尔、惠普、联想及超微等众多合作伙伴负责生产和销售，据称下半年有望登陆英特尔自家的云服务——Developer Cloud。除了 Gaudi 3，英特尔还向我们展示了公司在各层面的 AI 产品线的最新进展。

　　为了更好地优化 AI 的表现，英特尔发布了全新的 Xeon 6 处理器，主要用于大模型的训练。Xeon 6 采用了高效能的 E-core 核心和高性能的 P-core 核心，其中 E-core 核心代号为 Sierra Forest，能效较前一代提升了整整两倍半，而 P-core 则代号为 Granite Rapids，支持 MXFP4。值得一提的是，比起前一代 Xeon 处理器，Xeon 6 的机身架构扩展了整整 2.7 倍，已经开始被许多用户用来升级老旧设备，以此达到节能减排的目的。

　　值得一提的还有物联网的应用。今年，英特尔预计将共售出超过 4000 万台基于酷睿 Ultra 处理器的 AI PC，除了消费级市场，AI 也正逐渐走进人们生活的方方面面，如工业制造、医疗健康等领域。据悉，该公司将于年内发布一系列新的边缘芯片，这些产品将涵盖酷睿 Ultra、酷睿、凌动处理器和 Arc GPU，旨在覆盖多个不同行业的应用需求。

　　另外，英特尔还透露计划此次与Ultra Ethernet Consortium合作，推出一种名为 AI Ethernet 的网络解决方案，专门解决海量数据迁移中的网络拥堵问题。

打开APP阅读更多精彩内容