摩尔线程发布MusaCoder:首个基于国产GPU全栈训练的开源代码大模型

描述

近日,摩尔线程(688795)正式发布并开源面向GPU底层算子生成的专用代码大模型 MusaCoder ,包含9B和27B两个参数规模。这是 业内首个基于国产GPU算力底座完成全链路训练与验证的开源代码大模型 ,完整后训练流程全部在基于MTT S5000构建的夸娥智算集群上完成。

MusaCoder的目标非常明确——从PyTorch标准算子自动生成高性能 CUDA/MUSA原生Kernel代码 。传统代码大模型能写Python,但写GPU Kernel是另一回事:并行计算、线程组织、内存访问、索引映射、硬件执行特性,每一项都是硬门槛。更关键的是,生成的代码不仅要语法正确,还必须能编译通过、数值正确、合法无作弊,并且在真实执行中真正带来加速。

MusaCoder就是冲着这个痛点来的。

关键技术:三大模块打通全栈后训练

第一,三阶段数据构造。 不是简单灌通用代码数据,而是从开源PyTorch-to-Kernel数据、GitHub项目、NNSmith自动生成计算图等多源构建,注入张量形状、步长、内存连续性等元信息,并引入六阶段结构化推理格式,让模型在生成Kernel前就理解算子语义、形状变化、索引映射和边界条件。

第二,MooreEval执行式验证系统。 这是整套方案的核心基础设施。它能对模型生成的代码自动完成编译、执行、正确性验证、反作弊检测和性能测试,并将结果转化为训练反馈信号。关键一点:它能检测 forbidden PyTorch/ATen fallback ,防止模型偷懒调用高层算子绕过任务,确保模型真正学会写底层Kernel。

第三,三大强化学习稳定化机制。

  • PrimeEcho :首轮锚定的多轮奖励机制,避免模型完全依赖后续修复,提升首轮生成质量
  • Buffered Dynamic Retry(BDR) :把全部失败样本转化为带执行反馈的修复任务,缓解奖励稀疏
  • MirrorPop :过滤高风险样本,减少异常策略漂移对训练的干扰

MusaCoder的SFT、RFT、RL、异步rollout、在线编译执行验证及reward计算,全部跑在MTT S5000集群上。这意味着国产全功能GPU不仅能撑推理和常规微调,还能扛住 代码大模型后训练全周期 ——这类任务需要频繁进行代码生成、编译、执行、验证和反馈计算,对硬件、编译栈、运行时和评测基础设施的要求极高。

此前市场的核心疑虑是"国产GPU能不能训练大模型"。MusaCoder用一次完整的工程实践给出了答案:能,而且不只是能跑通,是能跑出SOTA结果。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分