英特尔Gaudi 3 AI芯片:5nm工艺设计,训练推理皆强

描述

  4 月 9 日,英特尔在 Vision 2024 大会上公布最新一代 Gaudi 3 AI 芯片并宣布将于同年第三季度批量上市。相较于英伟达 H100,Gaudi 3 训练性能提升 170%,推理能力增幅 50%,效率提升 40%,而成本显著降低。

  此外,英特尔在发布会上还宣布更改旗下数据中心CPU产品名称:原“Granite Rapids”和“Sierra Forest”将更名为“Xeon 6”系列。新品预计今年发售,并支持性能提升后的标准化 MXFP4 数据格式。

  除此之外,英特尔正研发适用于以太网的 AI NIC ASIC 及 AI NIC 小芯片。这两款产品尤其适合于其未来的 XPU 和 Gaudi 3 处理器,有望通过英特尔代工厂对外销售。有关网络产品的详细信息尚未公开。

  据悉,Gaudi 3 采用 5nm 制程,FP8性能较前代翻番,BF16性能增大至四倍,网络带宽增加一倍,内存带宽扩大约 1.5 倍,能够提供Mezz卡、板载以及PCIe三种形式。

  Gaudi 3拥有64个第五代张量处理核心和8个矩阵计算引擎,并配备128GBHBM内存和96MBSRAM。设计有24条200GBERoCE标准以太网总线和最多16条PCIe5.0总线。

  在板载版,聚类产品型号为HLB-325。由八块Gaudi 3 Mezz卡组成的模块提供约14.6PFLOPS的FP8性能,极大的带宽速率达29.6TB/s的HBM2e内存,64个线性计算引擎,192条200GBE网络总线和上述所有。

  在PCIe版本,型号为HL-338的卡具有单卡达1835TFLOPS的FP8峰值性能,128GBHBM2e内存,8个线性计算引擎,24条200GBE网络总线,功率消耗600W,占两卡槽的整体空间高度。

  一个由8个Gaudi 3 AI加速器构成的节点可提供14.7PF FP8计算性能,128GB的内存,8.4TB/s的网络读写速度,而64个节点的集群(512个AI加速器)能提供的最大计算性能为7.52EF FP8,525.3TB的内存和614TB/s的网络读写速度。更高的,1024个节点的集群可以达到15EF FP8的计算性能,1PB的内存和1,229PB每秒的网络读写速度。

  在实际测试中,与英伟达的主流产品H100比较,Gaudi 3在相同节点数时的平均训练时间要高出约1.7倍,LLAMA2 70亿的模型参数的情况下超过了H100的1.5倍,对于LLAMA2 130亿参数的模型,Gaudi 3在最高时也超过了H100的1.7倍,同样,GPT 3已达到1750亿参数,且Gaudi 3在推理速度和能效表现上均优

  英特尔近日发布了其下一代 GPU 路线规划——Gaudi 3,包括风冷和液冷版本,计划于明年三至四季度相继批量交付。Gaudi 3 由戴尔、惠普、联想及超微等众多合作伙伴负责生产和销售,据称下半年有望登陆英特尔自家的云服务——Developer Cloud。除了 Gaudi 3,英特尔还向我们展示了公司在各层面的 AI 产品线的最新进展。

  为了更好地优化 AI 的表现,英特尔发布了全新的 Xeon 6 处理器,主要用于大模型的训练。Xeon 6 采用了高效能的 E-core 核心和高性能的 P-core 核心,其中 E-core 核心代号为 Sierra Forest,能效较前一代提升了整整两倍半,而 P-core 则代号为 Granite Rapids,支持 MXFP4。值得一提的是,比起前一代 Xeon 处理器,Xeon 6 的机身架构扩展了整整 2.7 倍,已经开始被许多用户用来升级老旧设备,以此达到节能减排的目的。

  值得一提的还有物联网的应用。今年,英特尔预计将共售出超过 4000 万台基于酷睿 Ultra 处理器的 AI PC,除了消费级市场,AI 也正逐渐走进人们生活的方方面面,如工业制造、医疗健康等领域。据悉,该公司将于年内发布一系列新的边缘芯片,这些产品将涵盖酷睿 Ultra、酷睿、凌动处理器和 Arc GPU,旨在覆盖多个不同行业的应用需求。

  另外,英特尔还透露计划此次与Ultra Ethernet Consortium合作,推出一种名为 AI Ethernet 的网络解决方案,专门解决海量数据迁移中的网络拥堵问题。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分