
在大模型时代,AI智算网络(AI Computing Network)的角色发生了颠覆性的变化。过去在传统数据中心,网络的核心功能仅仅是将服务器连接起来。然而,在百亿、千亿甚至万亿参数大模型涌现的今天,网络已经直接决定了GPU的利用率和模型的训练效率。
在AI集群中,GPU服务器是最昂贵的硬件资源,但在实际训练中,由于数据同步频繁,GPU往往不是在等待计算,而是在等待网络传输。统计数据显示,网络通信虽然仅占AI集群部署成本的8%~10%,但它却决定了高达90%的GPU训练效率 。一旦网络发生拥塞,昂贵的GPU就会陷入空转状态,造成惊人的集群算力浪费。
AI大模型训练本质上属于网络密集型负载,GPU之间需要进行高频的信息同步,最典型的通信模式是All-Reduce/All-Gather(所有GPU互相交换并统一同步计算结果)。这是一个典型的“木桶模型”:只要有一条链路变慢或一个GPU延迟,整个集群都必须停下来等待。因此,AI智算网络面临着三大核心挑战:
为了避免不同类型的业务流量相互干扰,一个标准的AI智算数据中心通常会划分为四个独立的网络平面:
| 网络平面 | 核心职责 | 特性要求 |
| 计算网 | 负责GPU之间高性能的同步通信,是集群最核心的网络。 | 必须无损、低时延。 |
| 存储后端网 | 负责从存储服务器加载数据集,为训练提供源源不断的数据“材料”。 | 必须无损、高吞吐、能处理Incast流量。 |
| 前端业务网 | 负责用户访问、API调用或推理服务的租用。 | 允许有损,强调Overlay多租户与灵活管理。 |
| 带外管理网 | 提供设备管理与故障时的Backup(备用)管理手段。 | 基础管理要求,不参与业务流量。 |
其中,计算网和存储网作为算力底座,必须满足无损网络的要求,并通过物理隔离避免受到普通业务流量的冲击 。
传统数据中心网络主要处理南北向流量(用户到服务器),数据包较小且呈现随机性。此时,网络设计允许2:1甚至更高的超配收敛比。
相反,AI智算网络则是典型的东西向流量(服务器之间)。它表现为持续时间长、吞吐量巨大的“大象流”(Elephant Flow)。在这种流量模型下,传统网络常用的五元组哈希(Hash)和ECMP(等价多路径路由)极易导致链路负载不均和哈希极化。因此,智算网络采用1:1的无收敛设计。
在设计计算网络时,“无阻塞”是第一原则 。这意味着Leaf层设备的上行带宽与下行带宽必须严格对等(1:1)。网络拓扑不能因为设计本身的缺陷,而在网络内部引入任何潜在的拥塞节点。
为了最大化跨节点通信效率,业界引入了大模型训练策略(LLM并行动作),通过数据并行、张量并行和流水线并行,让大部分通信集中在节点内(利用高速NVLink通道)或同轨道内。 因此,形成了两种主流的组网架构:
将相同编号的网卡连接到相同的Leaf交换机上。例如,所有GPU服务器的1号网卡均连至Leaf 1,2号网卡连至Leaf 2 。同号网卡通信只需在单台Leaf交换机内实现“单跳直达”,物理上完全隔离跨轨流量。这种单层组网没有Spine层,硬件与光模块成本极低,能最大程度减少拥塞扩散,非常适合32卡到1024卡的中小规模集群。

为了支持万卡以上的超大规模集群,通过引入Spine层,将多台Leaf交换机和服务器组合成一个“Group”单元,并进行水平堆叠扩展 。流量默认优先走本轨道,在需要跨轨通信时允许通过Leaf-Spine-Leaf进行多跳转发 。虽然这带来了微小的时延不确定性,但其在扩展性、资源利用率和整体规模之间取得了极佳的平衡,是当前主流大厂(如英伟达)更倾向采用的横向扩展方案 。

由于RoCEv2(RDMA over Converged Ethernet)基于无连接的UDP协议,无法像TCP那样自我控制拥塞。因此,无损智算网络必须依赖端到端的拥塞控制机制:PFC(基于优先级的流控)和ECN(显示拥塞通知)。

在实际运行(如DCTQCN算法协同)中,两者的触发逻辑有着严格的先后顺序:
传统网络中PFC与ECN的参数调优极其复杂。现在,行业先进方案(如EasyRoCE)支持在交换机上通过极简命令,针对不同RoCE场景自动生成匹配的RoCE参数,大幅提升了智算网络的工程可用性。
针对大象流引起的链路不均问题,负载均衡技术的粒度决定了网络的高效性:

在构建高吞吐AI集群时,网络设备的密度与端口速率是核心。以下为基于行业主流机型的部署速查指南 :
以使用864高密交换机与英伟达H100(8卡服务器)对接,构建 8K GPU(8192卡) 的两层Clos架构为例 :

每台服务器拥有8张网卡,一个Group内包含8台Leaf交换机。由于864支持128个400G端口,采用1:1无阻塞设计,单台Leaf向上连接64个400G至Spine,向下连接64个400G至服务器 。因此,单个Group最大可接入64台服务器(512卡) 。通过横向水平堆叠16个Group,共计128台Leaf与64台Spine,即可完美支撑 16 × 64 = 1024台服务器(共8192个GPU)的宏大算力集群 。
工程落地三大关键配置
在大模型技术狂飙突进的当下,AI智算网络已经跨越了“传统互联”的旧范式,成为了释放GPU极致算力的绝对核心。无论是选择高性价比、单跳直达的单层轨道化架构(Rail-Only),还是选择面向未来、横向无限扩展的轨道优化架构(Rail-Optimized),无损与智能负载均衡都是不可动摇的技术支柱。通过合理规划网络平面,引入ARS、BGP Unnumbered等前沿工程化技术,企业才能在万卡时代的算力军备竞赛中,真正实现效率跨越。
全部0条评论
快来发表一下你的评论吧 !