摩尔线程支持DeepSeek开源通信库DeepEP和并行算法DualPipe

摩尔线程 2025-02-28 1254

描述

DeepSeek开源周第四日，摩尔线程宣布已成功支持DeepSeek开源通信库DeepEP和并行算法DualPipe，并发布相关开源代码仓库：MT-DeepEP和MT-DualPipe。

DeepEP是一个用于MoE（混合专家）模型训练和推理的开源EP（expert parallelism，专家并行）通信库，主要适用于大模型训练，特别是需要EP的集群训练。它通过优化通信信道的使用率，显著提升了训练效率。摩尔线程基于MUSA Compute Capability 3.1全功能GPU，第一时间适配了DeepEP，支持以下特性：

高效优化的 All-to-All 通信，支持 dispatch & combine

支持 MTLink + GPU（MUSA Compute Capability 3.1）节点内通信

训练及推理预填充阶段的高吞吐量计算核心

推理解码阶段的低延迟计算核心

原生支持 FP8 数据分发

灵活控制 GPU 资源，实现计算与通信的高效重叠

DualPipe是DeepSeek-V3提出的双向流水线并行算法，通过前向计算与后向计算阶段的计算与通信完全重叠，显著减少了“流水线气泡”（设备空闲等待）。与传统流水线并行相比，DualPipe 采用双向数据流设计，使数据从两端相向处理，大幅提升了资源利用率与训练效率。

摩尔线程依托深度学习框架Torch-MUSA（已开源）和MUSA软件栈全方位的兼容性，实现了对DualPipe这一算法的高效支持。MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架（即将开源），实现DeepSeek V3训练流程的完整复现。

此外，MT-DualPipe结合MT-Megatron可以实现完整DeepSeek V3模型的MLP-FFN分离以及DW-DG分离，进一步降低气泡占比，优化通信效率。同时，MT-DualPipe与MT-TranformerEngine和MT-DeepEP的结合，可以利用MT-DeepEP和异步通信引擎实现更高效的通信掩盖，大大降低对计算资源的损耗。

DeepEP和DualPipe的第一时间适配，充分验证了摩尔线程MUSA架构和全功能GPU在生态兼容与快速适配上的强大优势。我们诚挚欢迎广大开发者下载体验，并期待您的反馈与建议。

关于摩尔线程

摩尔线程成立于2020年10月，以全功能GPU为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业，为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

打开APP阅读更多精彩内容