英伟达L40S GPU及A100、H100对比分析

BQ9V_AI_Archite 2023-08-20 9880

处理器/DSP

873人已加入

描述

在SIGGRAPH 2023上，NVIDIA宣布推出全新的NVIDIA L40S GPU以及搭载L40S的NVIDIA OVX服务器。L40S GPU和OVX服务器主要针对生成式人工智能模型的训练和推理环节，有望进一步提升生成式人工智能模型的训练和推理场景下的计算效率。来源参考“英伟达发布L40S GPU，中高速光模块或将受益”。

L40S基于Ada Lovelace架构，配备有48GB的GDDR6显存和 846GB/s 的带宽。在第四代 Tensor 核心和 FP8 Transformer 引擎的加持下，可以提供超过 1.45 PFLOPS 的张量处理能力。根据英伟达给出的数据，在微调（Fine-tune）和推理场景的测试用例下，L40S 的计算效率较 A100 均有所提高。

光模块

相比于 A100 GPU，L40S 在显存、算力等多方面有所差异：

（1）L40S采用较为成熟的GDDR6显存，相比A100与H100使用的 HBM 显存，在显存带宽上有所降低，但技术更成熟，市场供应较为充足。

（2）L40S 在 FP16 算力（智能算力）上较 A100 有所提高，在 FP32 算力（通用算力）上较 A100 提高明显，更适应科学计算等场景。

（3）L40S 在功率上较 A100 有所降低，有利于降低数据中心相关能耗。

（4）根据 Super Micro 的数据，L40S 在性价比上较 A100 更有优势。

光模块

与A100 类似，L40S 通过 16 通道的 PCIe Gen 4 接口与 CPU进行通信，最大双向传输速率为 64 GB/s。相比之下，NVIDIAGrace Hopper 通过 NVLink-C2C 技术将 Hopper 架构的 GPU 与Grace 架构的 CPU 相连，在 CPU 到 GPU、GPU 到 GPU 间实现900 GB/s 的总带宽，较 PCIe Gen 5 快 7 倍。

光模块

基于Ada Lovelace架构的L40S，配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下，可以提供超过1.45 PetaFLOPS的张量处理能力。

对于算力要求较高的任务，L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点（FP32）性能，从而加速复杂计算和数据密集型分析。

此外，为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作，英伟达还为L40S 还配备了142个第三代RT核心，可以提供212TFLOP的光线追踪性能。功耗同时也达到了350瓦。

对于具有数十亿参数和多种模态的生成式AI工作负载，L40S相较于A100可实现高达1.2倍的推理性能提升，以及高达1.7倍的训练性能提升。

在L40S GPU的加持下，英伟达还针对数据中心市场，推出了最多可搭载8张L40S的OVX服务器。英伟达方面宣布，对于拥有8.6亿token的GPT3-40B模型，OVX服务器只需7个小时就能完成微调；对于Stable Diffusion XL模型，则可实现每分钟80张的图像生成。

L40S = 两个L40 用准先进封装（非CoWoS），利好国内先进封装，毕竟高端2.5D~3D不行，给国内2.2D封装指了一条明路，面对日益高涨的AI需求，分析与判断如下：（1）由于PCIe Gen4接口的限制，L40S在GPU网络计算上的应用有所限制，因此对目前800G光模块的需求量影响有限。（2）相较于A100，L40S在部分面向生成式人工智能模型的应用场景下有计算效率上的优势，且更具性价比。（3）相较于A100，L40S使用GDDR6等相对成熟技术，有助于确保上游供应的稳定。（4）L40S的前述优势可能促使下游云厂商加大采购，或将为以200G和400G光模块为代表的中高速光模块带来新的增长空间。

编辑：黄飞

打开APP阅读更多精彩内容