摩尔线程完成DeepSeek开源库FlashMLA和DeepGEMM适配

摩尔线程 2025-02-27 1246

描述

自DeepSeek启动“开源周”以来，已陆续开源三个代码库。摩尔线程基于全新MUSA Compute Capability 3.1计算架构，可提供原生FP8计算能力，同时升级了高性能线性代数模板库MUTLASS，快速支持了FlashMLA。不仅如此，摩尔线程还基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法，支持DeepGEMM的相应功能，充分展示了摩尔线程MUSA架构和全功能GPU在生态兼容与快速适配上的强大优势。

FlashMLA是一款高效的MLA（Multi-Head Latent Attention）推理内核开源仓库，旨在加速MLA机制的计算，特别适用于DeepSeek系列模型（如DeepSeek-V2、V3和R1）。DeepGEMM是一个支持密集矩阵与混合专家（MoE）矩阵乘法的FP8 GEMM库，为 V3/R1的训练与推理提供强大动力。这两个重要的开源仓库均基于高性能通用矩阵乘法（GEMM）的C++模板库进行开发。

摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU，具备全新的Tensor计算引擎及数据搬运引擎，能够提供原生FP8计算能力。升级的MUTLASS高性能线性代数模板库支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的优化参考实现，包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子，特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。得益于全新的Tensor计算引擎，FP8计算具有足够高的累加精度，无需额外的二次精度修正，为前沿算法的探索打下了坚实基础。

借助MUTLASS 0.2.0，摩尔线程发布开源仓库MT-FlashMLA，能够快速对DeepSeek FlashMLA进行兼容部署。同时摩尔线程MUTLASS提供了一个全新的参考实现，充分汲取FlashAttention3的先进算法思想，针对摩尔线程GPU设计了全新的计算流水线。这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销，充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。

作为国内率先原生支持FP8计算精度的国产GPU企业，摩尔线程迅速响应，并快速适配DeepSeek的各个开源仓库，旨在为更多GPU开发者赋能。摩尔线程始终致力于推动开源生态的发展，通过技术开放与生态共建，加速国产全功能GPU在AI计算领域的规模化应用，为更多用户提供更智能、高效的解决方案。

关于摩尔线程

摩尔线程成立于2020年10月，以全功能GPU为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业，为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

打开APP阅读更多精彩内容