AMD与Nvidia的人工智能芯片之战

SSDFans 2024-01-16 503

描述

AMD和Nvidia陷入了一场人工智能性能之战——就像两家公司几十年来在游戏GPU性能上的竞争一样。

AMD声称其新的Instinct MI300X GPU是世界上最快的人工智能芯片，击败了Nvidia炙手可热的H100和即将推出的H200 GPU。AMD CEO Lisa Su最近在一个人工智能活动上发表演讲时表示：“这是世界上性能最高的生成式人工智能加速器。”

这标志着MI300X的正式推出，它是MI300A的一个更强大的版本，将用于Lawrence Livermore国家实验室建造的代号为El Capitan的200亿次超级计算机。

MI300X基于CDNA3架构，可为FP16和BFLoat16等关键AI数据类型提供三倍以上的性能。该芯片有1530亿个晶体管，采用3D封装；内部使用了5纳米和6纳米工艺制造的芯片模块。该芯片拥有304个GPU计算单元，192GB HBM3内存，5.3 TB/s内存带宽。

MI300X的峰值FP32性能为163.4 teraflops，峰值FP64性能为81.7 teraflops。上一代MI250X的峰值单精度(FP32)矢量和双精度(FP64)矢量性能为47.9 teraflops。AMD还将其芯片与H100的SXM版本进行了比较，Nvidia H100 SXM可提供68 teraflops的峰值FP32性能和34 teraflops的FP64性能。H100 NVL模型在性能上缩小了差距，可提供134 teraflops的FP32性能和68 teraflops的FP64性能。

Nvidia即将推出的H200是H100的内存升级版本，但内存和带宽仍然比MI300X少。H200的GPU内存为141GB，带宽为4.8TB/s。

“对于MI300X，我们增加了更大的灵活性、更大的内存容量和更大的带宽。这意味着它的内存容量是竞争对手的2.4倍，内存带宽是1.6倍。”Su将MI300X与Nvidia的H100 SXM型号进行了比较，后者具有80GB的HBM内存和3.35TB/s的内存带宽。two-piece H100 NVL型号的HBM3内存为188GB，但内存带宽为7.8TB/s，超过了MI300X。

AMD能保持这个头衔多久还有待观察。Nvidia正计划对其芯片进行年度升级，新的B100 GPU将于2024年推出，X100 GPU将于2025年推出。

AMD在短短一年的时间里取得了长足的进步。一年前，当ChatGPT出现时，AMD措手不及。聊天机器人推动Nvidia成长为一家价值数万亿美元的公司，A100和H100 GPU成为最热门的科技资产。

GPT-4背后的Nvidia硬件凭借一己之力推动了人工智能的采用，并且仍然是无可争议的人工智能冠军。但Nvidia的硬件短缺促使客户寻找替代品，并为AMD提供了一个展示其最新GPU和系统的机会，成为一个可行的替代品。除了Nvidia，AMD在市场上也有很多机会。

Su表示:“我们现在预计，数据中心加速器TAM在未来四年中将以每年超过70%的速度增长，到2027年将超过4000亿美元。”

MI300X芯片有1530亿个晶体管，有12个5纳米和6纳米芯片。“它使用了世界上最先进的封装。”MI300X在基础层有四个IO芯片。每个IO芯片都有256兆字节的 Infinity Cache 和下一代IO，如128通道HBM3接口，支持PCIe Gen5，以及连接多个MI300X的第四代Infinity Fabric。该芯片在IO芯片上堆叠了8个CDNA3加速器小芯片。304个计算单元通过密集的TSV连接。支持高达每秒17TB的带宽。该芯片连接了8层HBM3，总共有192GB的内存和5.3 TB/s的带宽。

云供应商微软、甲骨文和Meta已经在他们的云基础设施中部署了MI300X GPU，尽管这些公司的人工智能能力主要还是来自Nvidia的芯片。提供人工智能替代方案的云供应商是很普遍的，如亚马逊提供了各种选择，包括其新发布的Trainium2芯片和英特尔的Gaudi处理器。其意图也很明确：让客户有更多的选择，不必屈服于Nvidia H100芯片的天价。

微软CEO Kevin Scott在AMD活动台上表示：“现在看到GPT-4在MI300X上的应用，看到Llama的表现，并让它投入生产，令人非常兴奋。”甲骨文云也将MI300X放入其云服务中。它还与Naveen Rao等早期采用者合作，后者的人工智能服务公司MosaicML最近被Databricks以13亿美元收购。

据HPCwire报道，一家新的云服务公司TensorWave将在2024年推出一种新的可扩展和适应性强的GPU架构。基于GigaIO FabreX可组合PCIe技术，TensorNODE系统将支持多达5,760个Instinct MI300X GPU，并为所有GPU提供单个FabreX内存结构域。

AMD紧随Nvidia的脚步，也宣布了自己的服务器架构，展示了一个兼容开放计算项目的服务器设计，其中包含8个MI300X GPU，这些GPU通过Infinity Fabric相互连接。该板可以放入任何兼容OCP的开放蓝图中，客户可以在其上构建服务器。

“我们这么做是经过深思熟虑的。我们想让客户尽可能容易地采用它，这样你就可以把主板拿出来，放入MI300X Instinct平台。”这样的系统建造起来会更便宜，让客户可以灵活地以最优惠的价格购买硬件。与Nvidia相比，这是一种截然不同的方法，Nvidia的HGX系统基于专有架构，成本很高。

AMD让MI300X兼容OCP的计划已经取得了成效，Meta快速部署了带有该GPU的服务器。Meta高级工程总监Ajit Mathews表示：“MI300X利用了OCP模块、标准和平台，这有助于我们极短的时间内采用它。事实上，MI300X是Meta历史上最快的部署解决方案之一。”

AMD对硬件的关注破坏了该公司的人工智能软件战略，该战略落后于提供CUDA开发框架的Nvidia。CUDA的支持帮助推动了Nvidia GPU的广泛采用。

该公司即将发布下一代ROCm 6，并声称具有新的功能和性能优势。开发者George Hotz曾批评AMD缺乏软件支持、文档以及对GPU开发者的支持回应。AMD总裁彭于平表示，与上一代版本相比，ROCm 6的MI300X性能提高了8倍。

对于具有700亿个参数的大型语言模型，ROCm 6比MI300X快8倍，比MI250快8倍。ROCm 6框架将支持新的数据类型，包括FP16，这将提高性能并开放内存资源和带宽。该框架还将进行许多低层次优化，以获得更好的AI性能。

审核编辑：黄飞

打开APP阅读更多精彩内容