AMD和Nvidia陷入了一场人工智能性能之战——就像两家公司几十年来在游戏GPU性能上的竞争一样。
AMD声称其新的Instinct MI300X GPU是世界上最快的人工智能芯片,击败了Nvidia炙手可热的H100和即将推出的H200 GPU。AMD CEO Lisa Su最近在一个人工智能活动上发表演讲时表示:“这是世界上性能最高的生成式人工智能加速器。”
这标志着MI300X的正式推出,它是MI300A的一个更强大的版本,将用于Lawrence Livermore国家实验室建造的代号为El Capitan的200亿次超级计算机。
MI300X基于CDNA3架构,可为FP16和BFLoat16等关键AI数据类型提供三倍以上的性能。该芯片有1530亿个晶体管,采用3D封装;内部使用了5纳米和6纳米工艺制造的芯片模块。该芯片拥有304个GPU计算单元,192GB HBM3内存,5.3 TB/s内存带宽。
MI300X的峰值FP32性能为163.4 teraflops,峰值FP64性能为81.7 teraflops。上一代MI250X的峰值单精度(FP32)矢量和双精度(FP64)矢量性能为47.9 teraflops。AMD还将其芯片与H100的SXM版本进行了比较,Nvidia H100 SXM可提供68 teraflops的峰值FP32性能和34 teraflops的FP64性能。H100 NVL模型在性能上缩小了差距,可提供134 teraflops的FP32性能和68 teraflops的FP64性能。
Nvidia即将推出的H200是H100的内存升级版本,但内存和带宽仍然比MI300X少。H200的GPU内存为141GB,带宽为4.8TB/s。
“对于MI300X,我们增加了更大的灵活性、更大的内存容量和更大的带宽。这意味着它的内存容量是竞争对手的2.4倍,内存带宽是1.6倍。”Su将MI300X与Nvidia的H100 SXM型号进行了比较,后者具有80GB的HBM内存和3.35TB/s的内存带宽。two-piece H100 NVL型号的HBM3内存为188GB,但内存带宽为7.8TB/s,超过了MI300X。
AMD能保持这个头衔多久还有待观察。Nvidia正计划对其芯片进行年度升级,新的B100 GPU将于2024年推出,X100 GPU将于2025年推出。
AMD在短短一年的时间里取得了长足的进步。一年前,当ChatGPT出现时,AMD措手不及。聊天机器人推动Nvidia成长为一家价值数万亿美元的公司,A100和H100 GPU成为最热门的科技资产。
GPT-4背后的Nvidia硬件凭借一己之力推动了人工智能的采用,并且仍然是无可争议的人工智能冠军。但Nvidia的硬件短缺促使客户寻找替代品,并为AMD提供了一个展示其最新GPU和系统的机会,成为一个可行的替代品。除了Nvidia,AMD在市场上也有很多机会。
Su表示:“我们现在预计,数据中心加速器TAM在未来四年中将以每年超过70%的速度增长,到2027年将超过4000亿美元。”
MI300X芯片有1530亿个晶体管,有12个5纳米和6纳米芯片。“它使用了世界上最先进的封装。”MI300X在基础层有四个IO芯片。每个IO芯片都有256兆字节的 Infinity Cache 和下一代IO,如128通道HBM3接口,支持PCIe Gen5,以及连接多个MI300X的第四代Infinity Fabric。该芯片在IO芯片上堆叠了8个CDNA3加速器小芯片。304个计算单元通过密集的TSV连接。支持高达每秒17TB的带宽。该芯片连接了8层HBM3,总共有192GB的内存和5.3 TB/s的带宽。
云供应商微软、甲骨文和Meta已经在他们的云基础设施中部署了MI300X GPU,尽管这些公司的人工智能能力主要还是来自Nvidia的芯片。提供人工智能替代方案的云供应商是很普遍的,如亚马逊提供了各种选择,包括其新发布的Trainium2芯片和英特尔的Gaudi处理器。其意图也很明确:让客户有更多的选择,不必屈服于Nvidia H100芯片的天价。
微软CEO Kevin Scott在AMD活动台上表示:“现在看到GPT-4在MI300X上的应用,看到Llama的表现,并让它投入生产,令人非常兴奋。”甲骨文云也将MI300X放入其云服务中。它还与Naveen Rao等早期采用者合作,后者的人工智能服务公司MosaicML最近被Databricks以13亿美元收购。
据HPCwire报道,一家新的云服务公司TensorWave将在2024年推出一种新的可扩展和适应性强的GPU架构。基于GigaIO FabreX可组合PCIe技术,TensorNODE系统将支持多达5,760个Instinct MI300X GPU,并为所有GPU提供单个FabreX内存结构域。
AMD紧随Nvidia的脚步,也宣布了自己的服务器架构,展示了一个兼容开放计算项目的服务器设计,其中包含8个MI300X GPU,这些GPU通过Infinity Fabric相互连接。该板可以放入任何兼容OCP的开放蓝图中,客户可以在其上构建服务器。
“我们这么做是经过深思熟虑的。我们想让客户尽可能容易地采用它,这样你就可以把主板拿出来,放入MI300X Instinct平台。”这样的系统建造起来会更便宜,让客户可以灵活地以最优惠的价格购买硬件。与Nvidia相比,这是一种截然不同的方法,Nvidia的HGX系统基于专有架构,成本很高。
AMD让MI300X兼容OCP的计划已经取得了成效,Meta快速部署了带有该GPU的服务器。Meta高级工程总监Ajit Mathews表示:“MI300X利用了OCP模块、标准和平台,这有助于我们极短的时间内采用它。事实上,MI300X是Meta历史上最快的部署解决方案之一。”
AMD对硬件的关注破坏了该公司的人工智能软件战略,该战略落后于提供CUDA开发框架的Nvidia。CUDA的支持帮助推动了Nvidia GPU的广泛采用。
该公司即将发布下一代ROCm 6,并声称具有新的功能和性能优势。开发者George Hotz曾批评AMD缺乏软件支持、文档以及对GPU开发者的支持回应。AMD总裁彭于平表示,与上一代版本相比,ROCm 6的MI300X性能提高了8倍。
对于具有700亿个参数的大型语言模型,ROCm 6比MI300X快8倍,比MI250快8倍。ROCm 6框架将支持新的数据类型,包括FP16,这将提高性能并开放内存资源和带宽。该框架还将进行许多低层次优化,以获得更好的AI性能。
审核编辑:黄飞
全部0条评论
快来发表一下你的评论吧 !