近日,摩尔线程(688795)正式发布并开源面向GPU底层算子生成的专用代码大模型 MusaCoder ,包含9B和27B两个参数规模。这是 业内首个基于国产GPU算力底座完成全链路训练与验证的开源代码大模型 ,完整后训练流程全部在基于MTT S5000构建的夸娥智算集群上完成。
MusaCoder的目标非常明确——从PyTorch标准算子自动生成高性能 CUDA/MUSA原生Kernel代码 。传统代码大模型能写Python,但写GPU Kernel是另一回事:并行计算、线程组织、内存访问、索引映射、硬件执行特性,每一项都是硬门槛。更关键的是,生成的代码不仅要语法正确,还必须能编译通过、数值正确、合法无作弊,并且在真实执行中真正带来加速。
MusaCoder就是冲着这个痛点来的。
第一,三阶段数据构造。 不是简单灌通用代码数据,而是从开源PyTorch-to-Kernel数据、GitHub项目、NNSmith自动生成计算图等多源构建,注入张量形状、步长、内存连续性等元信息,并引入六阶段结构化推理格式,让模型在生成Kernel前就理解算子语义、形状变化、索引映射和边界条件。
第二,MooreEval执行式验证系统。 这是整套方案的核心基础设施。它能对模型生成的代码自动完成编译、执行、正确性验证、反作弊检测和性能测试,并将结果转化为训练反馈信号。关键一点:它能检测 forbidden PyTorch/ATen fallback ,防止模型偷懒调用高层算子绕过任务,确保模型真正学会写底层Kernel。
第三,三大强化学习稳定化机制。
MusaCoder的SFT、RFT、RL、异步rollout、在线编译执行验证及reward计算,全部跑在MTT S5000集群上。这意味着国产全功能GPU不仅能撑推理和常规微调,还能扛住 代码大模型后训练全周期 ——这类任务需要频繁进行代码生成、编译、执行、验证和反馈计算,对硬件、编译栈、运行时和评测基础设施的要求极高。
此前市场的核心疑虑是"国产GPU能不能训练大模型"。MusaCoder用一次完整的工程实践给出了答案:能,而且不只是能跑通,是能跑出SOTA结果。
全部0条评论
快来发表一下你的评论吧 !