异构计算的初步创新

AIOT大数据 2023-06-19 469

电子说

1.2w人已加入

描述

1. 网络的价值在于延续了集群算力摩尔定律

芯片层面网络：chip-to-chip场景，从PCIe到高速连接

（一）通用/传统场景：PCIe是服务器内部通信的总线标准，制约了电口通信速率的提升。经典的通用服务器内，CPU、图形卡、硬盘驱动器、SSD、Wi-Fi 、以太网设备等主要基于PCIe（PCI express）协议相互连接。相较于4.0版本，PCIe 5.0传输速度更高，x16带宽（双向）从64 GB/s提升到了128 GB/s；目前规范制定已迭代至6.0版本，带宽再翻倍。

异构计算的初步创新：在PCIe物理架构和电气接口的基础上，英特尔等牵头成立CXL联盟并最新推出 CXL 2.0-3.0规范，用于AI、高性能计算等场景中CPU与GPU等的互联，通过“内存池化”等方式优化内存调用，进而提升系统整体性能。

（二）Nvidia代表，已对标PCIe推出NVLink解决异构计算与AI算力网络瓶颈。 NVLink是Nvidia专门设计用于点对点链路高速互联的网络方案（例如GPU to GPU连接）。据Nvidia白皮书，NVLink的开销比传统网络更低。传统网络中复杂网络功能（例如端到端重试、自适应路由、数据包重新排序等），在NVLink体系下可以在增加端口数的情况下进行权衡。此外，基于NVLink的网络接口更加简单，允许将应用程序层、表示层和会话层功能直接嵌入到 CUDA本身中，从而进一步减少通信开销。

此外Nvidia发布适用于超算服务器内部的NVSwitch芯片（最早2018 GTC大会发布第一代，作用类似于交换机ASIC），进一步通过上述NVLink协议接口将多个GPU高速互联到一起。据技术文档，在H100芯片+NVLink gen4协议这一代，Nvidia配套了NVSwitch gen3芯片方案，采用台积电4N工艺，满足GPU间的点对点连接，内嵌ALU使NVSwitch提供FP32 的400GFLOPS计算吞吐，每个芯片64个NVLink 4接口。依据技术文档，NVSwitch3芯片大小50mm*50mm，包括一个 SHARP 控制器，可并行管理多达 128 个 SHARP 组；内嵌ALU可帮助NVSwitch提供FP32的400GFLOPS计算吞吐，并且支持FP16、 FP32、FP64和BF16等精度计算。 NVSwitch3芯片提供64个NVLink4接口，每个NVLink4通道x2即200Gbps单向带宽，单个芯片可提供64 x 200Gbps=12.8Tbps（1.6TB/s）单向带宽、或3.2TB/s双工带宽。

设备层面网络：InfiniBand、NVLink等正迭代通用算力下的以太网需求

结合实际情况，我们认为：单SoC性能提升，不意味着算力集群整体性能的提升；单纯“堆砌”集群芯片数量，而不优化网络连接，集群性能提升很快就会遇到瓶颈。传统云计算场景下，算力设备以同构计算和简单的异构计算为主，通用的以太网很难满足大规模GPU集群的连接需求。

英伟达解决集群性能瓶颈的方式是引入 InfiniBand 网络，并将 C2C场景下应用的NVLink延伸至设备间互联。据Nvidia，2020年公司以69亿美元的价格收购网络芯片厂商 Mellanox，后者致力于数据中心 InfiniBand和以太网互联产品的研发。 2022-2023 年 DGX H100 SuperPOD集群完善，重要变化体现在NVLink从板上/片间互联走向不同Server或板卡的互联，同时Nvidia也相应发布了NVLink 交换机（Hot chip等公开资料）。

据Nvidia设计，每套SuperPOD集群32台服务器折合256个H100 GPU，AI性能高达 1EFlops；每套系统配18台NVLink交换机，系统双向带宽57.6TB/s；（网络需求增加）。依照技术文档推荐方案，每套系统的32台DGX H100服务器中的400Gb/s ConnectX-7网卡对外与IB交换机连接，用于连接多套SuperPOD系统。两层NVSwitch芯片设计：一层交换芯片位于服务器内，二层交换芯片位于交换机内。128个L1层芯片（32台服务器，每台4个）+36个L2层芯片（18台NVLink交换机，每台2个）。一个集群内所有256个GPU的互联，都通过NVLink和NVLink交换机单独完成，不经过CX-7 PCIe网络。我们认为，从通信网络角度看， DGX H100 SuperPOD高算力、高吞吐升级的精髓，在于：将过去A100及之前用于服务器内部GPU高效连接的NVLink，外化到整个集群，借助新的 NVLink交换机，搭建L1、L2两层网络，实现跨服务器、跨机柜的GPU to GPU连接。

IDC层面网络：AI与通用云计算架构核心差异在于组网

依据实际情况，数据中心中，拥有较大外部客户群、提供XaaS的数据中心更可能由南北向的流量主导；另一方面，对计算和存储有大量内部需求时，在服务器之间看到更多的东西向流量，可以将他们的数据中心运营成具有较高径向的巨大集群。两种主要的典型数据中心架构类型： 1）超大规模数据中心。这些架构相对庞大，层与层之间有一定的收敛性，例如3:1，并且在spine层以上依靠相干ZR光模块互连（DCI）。800G网络的一个重要边界约束是，在服务器到TOR层使用 200G互连。而TOR-leaf/spine层通常使用PSA；spine层通常依靠PSM4 4x200G。（层层汇聚，类似毛细血管到主静脉，带宽汇聚、连接数减少、网络架构金字塔形。）

2）AI的数据中心网络以胖树fat-tree架构为主。比超大规模网络的层数少、在各层之间几乎无收敛。 fat-tree是业界普遍认可的实现无阻塞网络的技术，对于任意的通信模式，总有路径让他们的通信带宽达到网卡带宽，且用到的所有交换机都是相同的；fat-tree无带宽收敛：传统的树形网络拓扑中，带宽是逐层收敛的，树根处的网络带宽要远小于各个叶子处所有带宽的总和。而fat-tree则更像是真实的树，越到树根，枝干越粗，即：从叶子到树根，网络带宽不收敛。尤其在训练侧，数据、算力以内部流转为主，较多依赖内部径向流量的统一高带宽。高速网络设备/器件的需求量更大。

2. Nvidia：H100到GH200，网络价值陡增

AIGC“前夜”，Nvidia A100的网络架构与设备需求以 200G为基础。

Nvidia的A100体系是典型的200G网络结构。 DGX A100的核心网卡Mellanox ConnectX-6主要基于200Gb/s HDR InfiniBand网络。因此底层网络带宽即200G。DGX A100服务器背板明确拥有8个用于Compute的200G QSFP56接口。另外拥有2个用于Storage的接口。据技术文档，A100的DGX SuperPOD集群，服务器与交换设备数量之比大致在1 : 1左右。 A100 SuperPOD设计单集群20台DGX A100，搭配12台用于Compute的IB交换机以及6 台用于Storage的IB交换机（IB交换机QM8790为40 ports x 200 Gb规格）。

当前“算力之巅”：英伟达H100的网络架构与设备需求提升至400G/800G基准

在Chapter 1中我们已经讨论过，H100网络架构基础是 InfiniBand NDR 400Gb 网络 + NVLink 800Gb网络。一个标准的DGX H100 SuperPOD由32台DGX H100、8个机柜组成。同时搭配8个Leaf交换机和 4个Spine交换机，均为IB NDR 400。另外搭配若干Storage交换机、Management、 UFM、In-Band、Out-of-Band设备。与A100相比，H100主板接口明显减少，尤其Compute接口由8个减少为4个，但单口总带宽提升4倍至800Gb （服务器厂商定制版本也有8×400G选择）。同理于A100之测算，一个128 DGX H100服务器集群（4x SuperPOD，实际127台服务器，预留 1台空位替换UFM）为例，搭载1016个GPU、32 个Leaf交换机、26台Spine交换机（InfiniBand 网络需求）；线缆数超2000条。1个SuperPOD对应8 Leaf、4 Spine；线缆数超500条。此外In-Band、Out-ofBand交换机主要需要100G、400G网络。

GH200的设计精髓：最大化利用NVLink和InfiniBand 网络，光连接更优先

GH200体系的交换机需求，以256 片Grace CPU+H100 GPU为例： 96+36 = 132台 NVLink交换机（800G）；24台 InfiniBand交换机（预计 400G/800G）；42台以太网交换机（预计 100G/200G，用于存储、管理等）；相比“256 GPUs的DGX SuperPOD集群，交换机用量不超过50台”，GH200系统的交换机需求大幅提升。

因此我们预计，Nvidia未来将越来越重视在AI体系中引入NVLink网络，通过网络连接来降低系统成本、提升整体性能： DGX H100服务器的架构设计，仍可见传统PC与通用服务器一路沿袭的思路，例如 motherboard、gpu tray等结构；而GH200则基于NVLink和AI需求对“芯片-设备IDC”的网络架构做了重新设计。从系统复杂度、投资强度、整体性能提升三方面看，网络设备与器件（包括交换机、光模块等）在系统中的重要性显著提升。

3. 谷歌：TPU v4背后，是OCS与更激进的光网络设计

谷歌TPU：迭代至v4，ASIC 3D组网适配AI需求

谷歌自研TPU可追溯至2014年；据谷歌论文（TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings），最新TPU v4集群采用激进的全光组网方案。据历代发布数据： TPU v1主要用于推理场景，单向架构，发布于2015年； TPU v2则定位于训练场景，单板4颗芯片，64G HBM替代DDR3，Interconnect Router提供4个 ICI Link做芯片互联、分别496Gbps带宽（类似NVLink），发布于2017年； TPU v3同样单板4颗芯片，128G HBM，ICI Link带宽提升至656Gbps，发布于2018年； TPU v4的128G HBM带宽升级至1200GBps，ICI Link则迭代为6路448Gbps。

谷歌OCS：全光交换、WDM等光通信技术，算力与网络同行

OCS即Optical circuit switches，是谷歌TPU v4网络连接的核心交换机。通常数据中心内数据交换是光电混合网络，设备之间的主要互联通过光缆/铜缆/光电转换器件、以及交换机ASIC/Serdes/PCIE/NVLink等链路实现。与过去在网络层之间多次将信号“从电转换为光再到电”不同，OCS是一种全光学的连接方案，通过MEMS阵列结合光环路器、波分复用光模块实现光路的灵活切换、以达到直接通过光信号组建交换网络的目的。

4. AMD、Amazon等：芯片亦持续迭代

AMD：MI300系列2.5D-3D封装，板上带宽显著增加

据AMD发布会，MI300系列方案内存容量与带宽显著提升：MI300X拥有192GB的HBM3、 5.2TBps的带宽和896GBps的Infinity Fabric带宽； AMD Infinity 架构将 8 个MI300X 加速器连接在一个系统中，提供合计1.5 TB的HBM3内存。

Amazon：自研Trainium芯片支撑Trn1等训练云服务

Amazon发布由自研芯片 Trainuim支持的AWS EC2 Trn1：每台Trn1最多可搭配16颗 Trainium芯片，芯片内Neuron Link专用连接并搭配HBM内存，调用800 Gbps的Elastic Fabric Adapter网络接口，可横向拓展至1万颗以上的Trainium芯片。进阶版本Trn1n的EFA带宽将达到 1600 Gbps。

5. 结论

结合上文： 1）系统复杂度、投资强度、整体性能提升效果三方面看，网络设备与器件（包括交换机、光模块等）在 AI系统中的重要性显著提升：Nvidia H100到GH200系统，官方标准配置下800G光模块用量可提升 30%-275%，同样256GPU集群的交换机需求从不足50台提升至150台以上。 2）谷歌自研TPU v4背后，是矩阵计算、OCS光交换与更激进的光网络设计。3D组网是TPU v4系统最大亮点，网络起重要作用，导入全光交换、WDM等光通信技术后，算力与网络需求同步提升。 3）AMD最新MI300体系和AWS自研Trn训练芯片，同样重视带宽、拓展性的价值。

我们认为：在AI领域，网络的价值在于延续了集群算力的摩尔定律。 1）吞吐带宽与连接架构是算力性能不可忽视的决定因素。 2）芯片层面，高速c2c连接方案（如NVLink、CXL等）的推广，是宏观设备/数据中心层高速网络、光网络等需求爆发的底层逻辑。 3）设备层面，单SoC性能提升+芯片“堆量”，不意味着算力集群整体性能的线性提升；而Nvidia、 Google、AMD、AWS等算力大厂正应用InfiniBand、OCS等新架构替代通用算力下的以太网，带来增量网络需求。

报告节选：

服务器

服务器
责任编辑：彭菁

打开APP阅读更多精彩内容