澎峰科技亮相2026 TritonNext技术大会

描述

算力已成为 AI 时代的“石油”,但如何高效挖掘异构算力的潜能,打破单一硬件架构的软件壁垒,是全行业面临的共同考题。

过去二十年,CUDA 几乎定义了 GPU 编程的主流路径。但在 2026 年,随着更多国内AI芯片算力崛起与异构计算的普及,Triton 正从一个学术界的编程语言,演变为工业界打破 CUDA 垄断、连接上层算法与底层芯片的关键“通用语”。然而,语言的繁荣也带来了新的挑战:算子开发如何平衡易用性与极致性能?如何解决碎片化的硬件适配难题?

1 月 9 日,由众智 FlagOS 开源社区、北京智源人工智能研究院与 CSDN 联合主办的「2026 TritonNext 技术大会」在北京海淀区中关村国家自主创新示范区展示中心盛大开幕。

作为国内首个聚焦 Triton 生态、下一代算子编程和编译器的硬核技术盛会,本次大会以“聚焦下一代算子编程语言与真实落地实践”为核心,汇聚了来自北京智源人工智能研究院、中科院计算所、华为、蚂蚁集团、字节跳动、百度、摩尔线程等顶尖机构与企业的 AI 系统专家。从 FlagOS 的统一生态构建到大厂的落地实战,从 AI 辅助编程到 RISC-V 的前沿探索,与会专家共同探讨了 AI 编译器、高性能算子开发及异构硬件适配的最新解法,吹响了 AI 系统软件栈向“好用”、“通用”进军的号角。澎峰科技作为 FlagOS 生态伙伴参加会议并作了《基于 FlagGems Triton 的运行时调优与算子优化》分享。

张先轶:基于 FlagGems Triton 的运行时调优与算子优化

作为 OpenBLAS 的发起人,北京澎峰科技创始人兼 CEO 张先轶以 FlagGems C++ Wrapper 的底层依赖——轻量级 C++ 运行时库 libtriton_jit 为例,分享了团队在高性能算子库上的核心优化实践。他表示,重构 libtriton_jit 有两个核心目标:一是降低开销,消除纯 Python 运行时中不可避免的解释器开销和调度延迟;二是实现多后端统一,提供统一 C++ 接口,支持多硬件后端,并屏蔽底层 API 差异。

在技术实现上,他选择了 Policy-Based Design(编译时多态),利用 C++ 模板在编译期静态确定行为,从而消除抽象层开销,同时兼顾灵活性。虽然这种做法会增加二进制体积,但经过优化,wrapper 延迟显著下降,整体性能提升 2.5~4 倍;在小算子场景下,平均延迟仅为 11.69 μs,比重构前快 43%。此外,他进一步分享了算子层面的优化实践,包括在 mm 算子加入 TMA 优化,同时提升 TensorDescriptor 稳定性,并扩大 Triton Autotuning 搜索空间;对 Kron、argmin、resolve_conj、gelu_backward、glu_backward 等算子,则通过针对算法特性的 Block_size 调整,实现了更高加速比。整体而言,这些优化不仅大幅降低了延迟,也实现了算子层面的极致解耦,为构建高性能算子库提供了一套高效、灵活且可维护的解决方案。

一场技术盛会的价值,不仅在于前沿思想的碰撞,更在于生态力量的凝聚。大会举行了 “众智 FlagOS v1.6 研发致谢单位授予仪式”。澎峰科技代表与北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS v1.6 版本研发中做出卓越贡献的单位代表上台,接受了这份代表社区认可的荣誉。

这一环节不仅是对过去一年多来所有贡献者辛勤付出的肯定,更展现了 FlagOS 社区“众智”的力量——正是这些来自产学研各界的核心力量,共同推动着国产 AI 系统软件栈从愿景走向现实。

TritonNext:始于一行代码,成于众人之智

从上午场深度的技术趋势及架构剖析,到下午场热烈的技术实践与代码实战操练,2026 TritonNext 技术大会不仅呈现了一场关于 Triton 与 AI 系统软件的技术盛宴,更生动诠释了“众智”的力量。

当“一次编写,处处运行”不再是遥远的理想,当 AI 开始自动生成并验证算子,当开发者们能够通过统一的开源社区协同攻克异构硬件的壁垒——我们看到的,是一个正在加速繁荣的、由开发者驱动的开源新生态。这场大会是起点,更是集结号,真正的变革将在每一行被贡献的代码、每一次社区的讨论中发生。

对于奋战在一线的开发者而言,“异构适配”与“性能优化”或许是过去几年中最令人头疼的工程难题。而贯穿 2026 TritonNext 技术大会始终的,正是对这些难题的正面回应。

从 KernelGen 将算子开发门槛降至“分钟级”,到 FlagTree 让跨芯迁移成本缩短至“天级”,再到 Triton-Distributed 将分布式编程化繁为简——大会传递出一个明确的信号:工具的进化,正在将开发者从繁琐的底层适配工作中解放出来,能够重新聚焦于最具创造力的算法与应用创新。AI 系统软件的未来,正由每一位被赋能的开发者亲手构建。澎峰科技将持续深度参与 FlagOS 生态构建,与产业伙伴共同推动 Triton 在技术攻坚、应用落地与社区生态的协同发展与繁荣。

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分