摩尔线程发布MusaCoder：首个基于国产GPU全栈训练的开源代码大模型

科技绿洲 2026-06-12 230

描述

近日，摩尔线程（688795）正式发布并开源面向GPU底层算子生成的专用代码大模型 MusaCoder ，包含9B和27B两个参数规模。这是 业内首个基于国产GPU算力底座完成全链路训练与验证的开源代码大模型 ，完整后训练流程全部在基于MTT S5000构建的夸娥智算集群上完成。

MusaCoder的目标非常明确——从PyTorch标准算子自动生成高性能 CUDA/MUSA原生Kernel代码 。传统代码大模型能写Python，但写GPU Kernel是另一回事：并行计算、线程组织、内存访问、索引映射、硬件执行特性，每一项都是硬门槛。更关键的是，生成的代码不仅要语法正确，还必须能编译通过、数值正确、合法无作弊，并且在真实执行中真正带来加速。

MusaCoder就是冲着这个痛点来的。

关键技术：三大模块打通全栈后训练

第一，三阶段数据构造。 不是简单灌通用代码数据，而是从开源PyTorch-to-Kernel数据、GitHub项目、NNSmith自动生成计算图等多源构建，注入张量形状、步长、内存连续性等元信息，并引入六阶段结构化推理格式，让模型在生成Kernel前就理解算子语义、形状变化、索引映射和边界条件。

第二，MooreEval执行式验证系统。 这是整套方案的核心基础设施。它能对模型生成的代码自动完成编译、执行、正确性验证、反作弊检测和性能测试，并将结果转化为训练反馈信号。关键一点：它能检测 forbidden PyTorch/ATen fallback ，防止模型偷懒调用高层算子绕过任务，确保模型真正学会写底层Kernel。

第三，三大强化学习稳定化机制。

PrimeEcho ：首轮锚定的多轮奖励机制，避免模型完全依赖后续修复，提升首轮生成质量
Buffered Dynamic Retry（BDR） ：把全部失败样本转化为带执行反馈的修复任务，缓解奖励稀疏
MirrorPop ：过滤高风险样本，减少异常策略漂移对训练的干扰

MusaCoder的SFT、RFT、RL、异步rollout、在线编译执行验证及reward计算，全部跑在MTT S5000集群上。这意味着国产全功能GPU不仅能撑推理和常规微调，还能扛住 代码大模型后训练全周期 ——这类任务需要频繁进行代码生成、编译、执行、验证和反馈计算，对硬件、编译栈、运行时和评测基础设施的要求极高。

此前市场的核心疑虑是"国产GPU能不能训练大模型"。MusaCoder用一次完整的工程实践给出了答案：能，而且不只是能跑通，是能跑出SOTA结果。

打开APP阅读更多精彩内容