英伟达新一代人工智能（AI）芯片HGX H200

47wc_ICViews 2023-11-15 911

处理器/DSP

893人已加入

描述

GPU巨头又出王炸了。

当地时间周一，英伟达发布了新一代人工智能（AI）芯片HGX H200，主打超高容量与更大的带宽，算力更为精进，主要用于培训和部署各种人工智能模型。新的H200芯片是当前用于训练大语言模型H100芯片的升级产品，集成了141GB的内存，更加擅长进行“推理”。在用于推理或生成问题答案时，性能较H100提高60%-90%。

基于英伟达的“Hopper”架构的H200也是该公司第一款使用HBM3e内存的芯片，这种内存速度更快，容量更大，因此更适合大语言模型。英伟达称：借助HBM3e，H200以每秒4.8TB的速度提供141GB的内存，与A100相比，容量几乎是其两倍，带宽增加了2.4倍。可部署在各种类型的数据中心中，包括本地、云端、混合云和边缘环境等。英伟达认为，相对先前的H100产品，在Llama 2这样拥有700亿参数大型语言模型上的推论速度将近翻倍提升。

英伟达表示，H200将与H100兼容，这意味着已经在使用H100进行训练的人工智能公司，不需要改变他们的服务器系统或软件来适应H200。H200预计将于2024年第二季度上市，将与AMD的MI300X GPU展开竞争。与H200类似，AMD的芯片比其前身拥有更多的内存，这有助于大语言模型来运算推理。

台积电助攻

H200采用台积电4nm制程，并进一步增加台积电CoWoS封装产能负荷。法人直指，台积电扩增脚步不停歇，预计本月台积电再将InFO设备自龙潭移至竹南，加速InFO改机、并调控空间。为实现庞大市场需求，台积电更加速扩充CoWoS产能，受限设备厂交期超过半年以上，台积电采取折衷方案，11月起开始将InFO机台从龙潭移至竹南改机，以应对CoWoS增加之工序。法人分析，光晶圆清洗步骤就是InFO的数倍，因此每1万片InFO产能，仅可转换为数千片CoWoS产能。法人推估，台积电将于年底开出优于市场原先预估之产能，约每月1.4万片;而英伟达也增加在非台积电之CoWoS供应链能量，如加入联电、日月光等支持。其中，由联电提供Interposer（中间层），台积电做TSV（硅穿孔）、日月光来处理后段封装，预计也会自本季开始投入。

H200助力新一代AI超算中心

云服务方面，除了英伟达自己投资的CoreWeave、Lambda和Vultr之外，亚马逊网络服务、Google Cloud、微软Azure和Oracle Cloud Infrastructure将成第一批部署基于H200执行个体的云服务供应商。此外，在新的H200加持之下，GH200超级芯片也将为全球各地的超级计算中心提供总计约200 Exaflops的AI算力，用以推动科学创新。

在SC23大会上，多家顶级超算中心纷纷宣布，即将使用GH200系统构建自己的超级计算机。德国尤里希超级计算中心将在超算JUPITER中使用GH200超级芯片。这台超级计算机将成为欧洲第一台超大规模超级计算机，是欧洲高性能计算联合项目（EuroHPC Joint Undertaking）的一部分。Jupiter超级计算机基于Eviden的BullSequana XH3000，采用全液冷架构。它总共拥有24000个英伟达GH200 Grace Hopper超级芯片，通过Quantum-2 Infiniband互联。每个Grace CPU包含288个Neoverse内核， Jupiter的CPU就有近700万个ARM核心。它能提供93 Exaflops的低精度AI算力和1 Exaflop的高精度（FP64）算力。这台超级计算机预计将于2024年安装完毕。

由筑波大学和东京大学共同成立的日本先进高性能计算联合中心，将在下一代超级计算机中采用英伟达GH200 Grace Hopper超级芯片构建。作为世界最大超算中心之一的德克萨斯高级计算中心，也将采用英伟达的GH200构建超级计算机Vista。伊利诺伊大学香槟分校的美国国家超级计算应用中心，将利用英伟达GH200超级芯片来构建他们的超算DeltaAI，把AI计算能力提高两倍。此外，布里斯托大学将在英国政府的资助下，负责建造英国最强大的超级计算机Isambard-AI——将配备5000多颗英伟达GH200超级芯片，提供21 Exaflops的AI计算能力。

特供版H20、L20和L2性能曝光

据最新泄露的文件和四位熟悉内情的人士透露，为了遵守美国的出口管制，英伟达已经推出了三款全新的“中国定制版”芯片——HGX H20、L20 PCle 和 L2 PCle GPU。其中，HGX H20配有高达96GB的HBM3显存，以及4TB/s的带宽，并且基于全新的Hopper架构。与H100的50MB二级缓存相比，H20还拥有更大的60MB二级缓存。然而在性能方面，HGX H20只能提供FP64精度1 TFLOPS（H100为34 TFLOPS）和FP16/BF16精度148 TFLOPS（H100为1，979 TFLOPS）的算力。

由此，功耗也从700W降到了400W。有趣的是，基于安培架构并配备24GB HBM2的入门级A30 GPU，在FP64和FP16/BF16精度下，都要比HGX H20快不少。至于L20和L2 PCIe GPU，则是基于阉割后的AD102和AD104核心，对应的是与L40和L40S相同的市场。更直观地，RTX 4090采用的便是AD102的变体，而4070和4070Ti则是基于AD104的变体。除此之外，为了遵守新规，HGX H20、L20 PCle和L2 PCle GPU不仅性能是残血的，而且还只配备了残血版的NVLink连接。

编辑：黄飞

打开APP阅读更多精彩内容