Rail-Only拓扑与PCI Switch:GPU集群间高效通信的核心逻辑

电子说

1.4w人已加入

描述

当前AI推理面临两大核心矛盾

算力需求激增:大模型应用爆发(如实时交互、多模态生成),企业亟需更低延迟、更高吞吐的推理能力;

资源浪费严重:传统架构下,GPU算力闲置率超30%,长文本处理场景首Token延迟飙升至秒级,用户体验流失率增加40%。

DeepSeek-V3/R1的给我们的启示:混合专家模型(MoE)虽需320卡起步,却为超大规模云计算厂商提供了差异化竞争力——吞吐效率提升50%,单用户推理成本降低20%。而对中小客户,“高性价比”仍是刚需,Dense模型凭借灵活部署稳占80%市场份额。

组网架构的“黄金分割”

行业需求驱动架构革新

分离架构:适合头部云厂商(如AWS、阿里云),通过独立优化Prefill(算力密集型)和Decode(带宽密集型)集群,实现超大规模并发下的极致性能,客户可溢价30%提供“高端推理服务”。

统一架构:中小厂商的“降本利器”——单网络支持智能流量调度,硬件投资减少25%,运维成本降低40%,兼容80%现有基础设施,快速抢占中端市场。

采用星融元CX-N系列交换机+RoCEv2技术,单设备支持400G/800G带宽,满足“既要大吞吐又要低延迟”的矛盾需求。

从实验室到生产线:组网设计的成本与效益平衡

Rail-Only拓扑:4 GPU/组共享PCIe链路,服务器内直连减少跳数,适合百卡以下集群,硬件成本降低30%。

PCI

GPU服务器内部:每四个GPU作为一组,共享一个并行推理网卡,连接到同一个PCI Switch,两组GPU之间的通信通过两个PCI Switch之间的直连通道完成;

GPU服务器之间:同一组号的GPU之间的通信通过交换机直接完成;不同组号的GPU之间的通信,先通过PCI Swtitch将流量路由到另一组的网卡,然后通过交换机完成;

小规模场景:低成本敏捷部署

PCI

每台推理服务器有8张GPU,2张400G网卡,双归连接到两台CX732Q-N

16个推理服务器(128张GPU)和2个CX732Q-N组成一个PoD。Prefill和Decode服务器可能属于不同PoD

可横向扩展至64个PoD

中大规模场景:性能与扩展性优先

模块化PoD设计:以512 GPU为单元构建独立集群,Prefill与Decode服务器同PoD内一跳互联,时延控制在10μs以内。

横向扩展能力:可横向扩展至64个PoD,支持万卡级集群无缝扩容,满足云计算平台弹性需求。

PCI

未来展望:开放生态与硬件迭代的双重助力

尽管DeepSeek尚未开源,但其PD分离架构为行业提供了关键思路。未来趋势将围绕两大方向:

软硬件协同优化:如DPU卸载KV缓存传输任务,进一步释放GPU算力;

边缘AI轻量化:通过模型剪枝与专用推理芯片,在10卡以下环境中实现MoE模型部署。

【参考文献】

https://asterfusion.com/a20250306-scale-out/


审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分