腾讯混元提出Stem稀疏注意力算法

描述

近日,腾讯混元正式宣布其自主研发的Stem稀疏注意力算法被国际顶级机器学习会议ICML-26收录。这项成果的核心价值在于:在128K超长上下文场景下,首字延迟(TTFT)降低了 3.6倍 (部分来源标注为3.7倍),同时仅消耗25%的算力预算就能逼近稠密注意力的精度。这意味着大模型在处理长文本、长对话、长视频等场景时,用户几乎感受不到等待。

Transformer架构的核心是自注意力机制,但它的计算复杂度随序列长度呈 二次方增长 。当上下文从4K扩展到128K,计算量不是线性增加,而是暴增上千倍。这就是为什么大模型处理长文本时响应变慢、显存爆炸的根本原因。

稀疏注意力的思路并不新鲜——跳过部分Token之间的计算,只保留"重要"的注意力连接。但现有方案的痛点在于:要么稀疏后精度损失严重,要么理论上省了计算但实际跑起来并没有快多少,因为稀疏模式本身在硬件上并不友好。

Stem算法要解决的,恰恰是这两个问题。

腾讯混元团队没有沿用传统的"哪些Token重要就保留哪些"的思路,而是从因果信息流的角度重新审视块级稀疏。一个Token的重要性,不应该只看它本身,而应该看它在信息传递链条中的位置和作用。

基于这个洞察,Stem提出了两大核心技术:

Token位置衰减(TPD,Token Position Decay)

在因果语言模型中,越靠前的Token对后续生成的影响越大,越靠后的Token影响越小——这是因果关系决定的。TPD利用这一特性,对不同位置的Token施加差异化的衰减权重,让算法自动判断哪些位置的注意力连接可以安全地被稀疏掉,而不需要额外的学习参数。

输出感知度量(OAM,Output-Aware Metric)

传统稀疏注意力往往只看输入端的相似性来决定保留哪些连接,但真正决定一个注意力连接是否重要的,是它对最终输出的贡献。OAM从输出端反向衡量每个注意力连接的实际贡献度,让稀疏决策更加精准。

两者结合的结果是:在仅保留25%注意力连接的情况下,模型精度几乎无损。这不是靠暴力调参硬挤出来的,而是从信息论的底层逻辑出发得出的稀疏方案。

算法层面省下了75%的计算,但如果算子实现跟不上,这些节省就只是纸面上的数字。这也是很多稀疏注意力方案"理论很美、落地很惨"的原因。

腾讯混元配套开源了 Stem+BSA算子 (BSA即Block Sparse Attention),这是一套专门针对稀疏注意力模式优化的HPC(高性能计算)算子库。它做的事情很直接:让GPU真正知道哪些计算可以跳过,而不是依然按稠密方式调度。

3.6倍的首字延迟降低意味着什么?当用户输入一段超长文档让模型总结,或者在Agent场景中需要模型先读取大量上下文再回答时,等待时间从原来的数秒压缩到亚秒级。这对实时交互场景(如智能客服、语音助手、在线编程助手)的体验提升是质的飞跃。

稀疏注意力是当前大模型工程优化的核心赛道之一。DeepSeek此前也提出了DSA(DeepSeek Sparse Attention),在token维度进行压缩。而腾讯混元的Stem走了一条不同的路——不是在token维度压缩,而是在块级别基于因果信息流做稀疏,思路更底层,也更通用。

更关键的是,Stem不是一个纯理论贡献。它从算法到算子再到推理框架(Hy3 Preview)形成了完整闭环。算法决定"省哪些计算",算子决定"省下的计算能快多少",两者缺一不可。这种从论文到部署的全栈打通能力,才是真正的工程壁垒。

目前Stem已集成至腾讯混元Hy3 Preview推理框架中,这意味着它不会停留在学术论文里,而是已经开始在腾讯云的实际推理服务中发挥作用。对于整个行业来说,当稀疏注意力从"能用"走向"好用且快",大模型的长上下文能力才算真正迈入了实用阶段。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分