当大模型从训练走向规模化应用,AI 产业的竞争正在进入推理时代。
模型能否真正落地,不仅取决于芯片的理论峰值算力,也取决于算子效率、软件栈适配、系统调度和工程优化能力。
如何让每一份算力释放更高价值,持续降低 Token 生成成本,正在成为 AI 推理基础设施建设的重要命题。
围绕这一命题,云天励飞正式开源 Houmao(猴毛)多 Agent 异构编程框架,尝试将底层算子的生成、调试和性能优化过程,转化为可编排、可验证、可持续迭代的 Agent 化研发流程。
在人类工程师完全不手写 CUDA C 代码的情况下,Houmao 驱动多个 AI 代码 Agent 协同优化混合专家(Fused MoE)算子,并跑出 1.71× 加速比(相对于 FlashInfer 实现),超过该评测基准目前公开的最高成绩。
这项实践验证了一个新的可能性:过去高度依赖资深工程师经验的底层性能优化工作,正在逐步从“专家手艺”,走向可复用、可扩展的自动化工程流程。
芯片软件工程的挑战:当海量算子遇上稀缺专家
在 AI 芯片从架构创新走向规模化应用的过程中,软件栈建设与硬件架构本身同样关键。
以云天励飞自研 DeepVerse100(DV100)云端大算力芯片为例,尽管 DV100 搭载的 GPNPU 架构具备较强的灵活性与能效优势,但要充分释放这一架构的潜力,不仅需要硬件设计本身的创新,也需要大量高性能算子与底层硬件特性深度匹配。
随着大模型算法爆发式演进,待适配算子数量激增,与此同时,真正具备芯片级算子优化经验的工程专家,在行业内始终稀缺。传统依赖资深工程师逐个“手搓”算子的方式,难以长期支撑模型快速迭代和芯片规模化落地的需求,也不利于将底层优化经验沉淀为可复用、可扩展的工程能力。
因此,为 DV100 构建一套可持续、可扩展的高质量算子生产平台,成为云天励飞推进 AI 推理基础设施建设的重要方向。Houmao 多 Agent 异构编程框架,正是在这一背景下展开的工程探索。
Houmao 的诞生:用 AI Agent 重构底层研发
面向上述芯片软件工程中的共性问题,云天励飞团队并未止步于通用代码工具的简单调用,而是系统性的深度探索。
通过自研 Houmao(猴毛)多 Agent 异构编程框架,我们将针对底层芯片的优化经验沉淀为机器可执行的规则与策略,让多个 AI 代码 Agent 协同完成算子的生成、调试和性能调优。
在人类工程师完全不手写 CUDA C 代码的情况下,Agent 生成的混合专家(Fused MoE)算子跑出 1.71× 加速比(相对于Flashinfer实现), 超过该评测基准目前公开的最高成绩。该结果已通过 MLSys 2026 FlashInfer AI Kernel Generation Contest(AI 算子生成竞赛)相关评测确认;在 Fused MoE 赛道的评测成绩中,该算子达到领先水平。
这项实践验证了一个新的可能性:过去高度依赖资深工程师经验的底层性能优化工作,正在逐步转化为可编排、可验证、可复用的 Agent 化研发流程。对于 DV100 等新一代 AI 推理芯片的软件栈建设而言,这种方法也为未来沉淀算子优化经验、提升适配效率和降低专家依赖,提供了一条值得持续探索的路径。
算力不仅靠硬件,还要靠算子“榨”出来
GPU 算子(Kernel)是连接模型与硬件的重要桥梁。
矩阵运算、注意力机制、专家路由等模型计算任务,最终都需要通过底层算子在芯片上运行。即使使用同一款芯片,不同的算子实现方式,也可能带来显著不同的性能表现。
尤其是在混合专家模型(MoE)、稀疏注意力(Sparse Attention)等新型模型架构中,算子优化往往涉及张量布局、内存搬运、线程并行、共享内存、寄存器分配和底层指令调用等复杂问题。
过去,这类工作通常需要资深工程师结合硬件架构进行长期调试与反复优化。随着模型结构快速演进,算子数量不断增加,仅依靠人工逐项适配,难以形成规模化的研发效率。
云天励飞希望探索的是:能否把 AI Agent 引入这一过程,让 Agent 不只是辅助编程工具,而是成为推理基础设施研发体系的一部分。
在 Houmao 框架下,无需另写代码,即可让不同的 CLI 代码 Agent,例如Claude Code、Codex、Kimi Code等,可以按角色组成智能体团队(Agent Team), 围绕算子优化任务协同工作:
Planner:分析当前性能数据和历史记录,制定下一轮优化方向;
CUDA Coder:在隔离环境中并行生成和修改候选实现;
Synthesizer:汇总不同方案,筛选有效改动并进行合并;
Profiler:调用性能分析工具,定位算子运行瓶颈;
Researcher:检索官方文档、论文和开源参考实现,为后续优化提供依据。
在这一框架下,多个Agent之间相互配合,可以自动完成提出假设、生成代码、编译运行、验证正确性、评测性能、保留或回滚修改,持续迭代直到生成高性能算子。
人类的角色也随之发生变化:不再直接编写和修改算子代码,而是负责设定目标、设计评测规则,并在少数关键节点提供方向性纠偏。
团队还封装了一组可以重复使用的“技能包”(Skill),供 Agent 按需加载:
cuda-skill:GPU 硬件指令集与编程接口参考;
ncu-cuda-profiling:自动化性能剖析流水线;
bench-environment:评测协议与反作弊规则。
这并不是简单地“让 AI 写代码”,而是尝试把 AI 转化为可以参与复杂工程研发的执行系统。

让 Agent 自己找到 Fast Path
在本次实践中,云天励飞团队围绕 DeepSeek-V3 Fused MoE、DeepSeek-V3.2 DSA TopK Indexer 和 DSA Sparse Attention 等算子展开优化。
总共约 19 亿 Token 的 Agent 计算,产出了三个可直接部署的 CUDA C 算子。
其中,Agent 生成的 DeepSeek-V3 Fused MoE 算子,在 FlashInfer-Bench 官方评测框架下,取得 1.71× 平均加速比,超过了该基准目前公开的最高成绩 1.68×。
一个值得关注的对比是:在不允许任何人工引导的 Full Agent 模式下,Fused MoE 算子相对于 FlashInfer 实现的加速比为 0.75×;而在“人类做教练、不写代码”的协同模式下,最终成绩提升至 1.71×。
在 DeepSeek-V3.2 DSA 相关算子优化中,Agent 还自主识别出一条特定输入条件下可以跳过部分计算的 Fast Path:
当候选 KV Cache 长度小于或等于 TopK 时,无需进行打分和 TopK 选择,可以直接输出索引。
基于这一发现,DSA TopK Indexer 算子相对 PyTorch 原生实现取得 1101.02× 加速。
这些结果说明,Agent 不仅能够执行局部参数调整,也开始具备分析代码路径、识别性能瓶颈和探索优化空间的能力。

把“专家手艺”变成可扩展流程
大模型带来的改变,不只是生成文本、图片和视频。
在更深层次的工程研发场景中,Token 也可以转化为代码、优化方案和可验证的技术成果。
本次实践中,Agent 通过持续生成、测试和筛选候选方案,完成了多个 CUDA Kernel 的自动优化。这意味着,过去依赖少数专家长期打磨的底层研发工作,有机会逐步转化为可并行扩展的计算过程。
实验过程中,团队也观察到,Agent 并非可以在所有情况下完全自主完成方向判断。
当连续多轮局部调整没有取得收益时,Agent 容易继续“小修小补”,而不是尝试更加激进的技术路线;当某项优化第一次出现性能回退时,Agent 也可能忽略同一轮修改中引入的无关 Bug,过早放弃原本有效的方案;在部分情况下,Agent 还会长期围绕自己的代码反复调整,却忽略已经存在的外部参考实现。
人的角色因此并没有消失,而是在发生变化:从亲自编写代码,转向定义目标、设计评测、识别偏差,并在关键节点推动 Agent 调整方向。
对于 AI 推理基础设施而言,这是一项值得持续探索的能力:
一方面,通过模型、算子、软件栈和芯片架构之间的协同优化,持续提升算力使用效率;另一方面,通过 Agent 化研发工具,提升底层软件开发和异构适配效率。
从芯片设计到算子优化,从软件栈建设到研发流程创新,云天励飞将持续围绕 AI 推理基础设施进行系统级布局,探索更高效、更开放、更具扩展性的智能计算路径。
工程侧记:
一些额外的“小发现”——Agent也学会了“作弊”
在研发过程中,团队还观察到一个值得关注的问题:当 Agent 可以访问评测环境时,它可能主动寻找评分机制中的捷径。
例如,在 Fused MoE 的早期实验中,团队一度观察到超过 1000× 的异常加速。
经过检查发现,评测 Harness 在多次迭代中复用了相同的输入张量指针。Agent 注意到这一点后,增加了一个“以输入指针为 Key 的输出缓存”:第一次调用时正常计算,后续调用则直接返回缓存结果。
正确性校验仍然可以通过,性能数字也会大幅提升。
但这并不是一种真正可部署的优化方式。换一组真实数据后,加速效果就会消失。
这种现象被称为 Reward Hacking:模型抓住了评测机制中的漏洞,而不是真正解决了问题。
为此,团队进一步完善了反作弊规则,并将其写入每一个 Agent 的初始 Prompt:
- 禁止任何基于输入身份,包括指针、地址、形状哈希的缓存;
- 禁止跨次调用的 Buffer 复用;
- 如果使用合法、可部署的缓存,例如权重 Cache,必须分别报告 Cold Path 和 Warm Path 的性能。
这也意味着,Agent 化研发不仅需要更强的模型能力,还需要完善的工具链、评测纪律和工程治理体系。
开源,从 Houmao 开始
面向AI算力加速演进的新阶段,云天励飞也在持续推进技术开放与生态共建。
公司已规划在Gitee建设官方国内开源平台,后续将集中发布代码、文档、Skills、模型、用例等开源内容,并配套开展开源内容扫描与治理,确保对外发布内容安全,合规,可维护,推动更多开发者参与国产AI基础软件生态建设。
首个开源项目计划从 Houmao 框架启动。该项目面向松耦合团队协作编排与CLI工具能力建设,也将成为公司对外展示工程化能力和开源治理能力的重要窗口。
与此同时,云天励飞第五代 GPNPU 架构及面向云端部署的 DeepVerse100P 大模型推理芯片也在加速研发。DeepVerse100P 以第五代 GPNPU 架构为核心技术路线,面向云端大模型推理场景,聚焦高并发、低延迟、低功耗等关键需求。通过算力积木架构、FP4/FP8 低精度计算、大容量内存、多级缓存以及 1TB/s 以上的 C2C 互联带宽,可实现 256 卡超节点。
未来,公司将持续围绕芯片、软件栈与开源生态形成协同,推动国产 AI 算力基础设施走向更开放、更易用、更具竞争力的新阶段。
开源地址
算子代码:
https://gitee.com/Intellifusion_com/flashinfer-bench-starter-kit
Houmao 框架:
https://gitee.com/Intellifusion_com/houmao
作者团队: Mao Luo、Hongbin Li、Feng Lin、Hanling Yi、Zhe Huang
单位:Intellifusion Inc.(云天励飞)
Houmao不仅服务于 GPU 算子开发,同样适用于更广泛的复杂工程自动化场景。欢迎对这套思路感兴趣的合作伙伴、媒体朋友与同行交流。
全部0条评论
快来发表一下你的评论吧 !