近日,腾讯混元正式宣布其自主研发的Stem稀疏注意力算法被国际顶级机器学习会议ICML-26收录。这项成果的核心价值在于:在128K超长上下文场景下,首字延迟(TTFT)降低了 3.6倍 (部分来源标注为3.7倍),同时仅消耗25%的算力预算就能逼近稠密注意力的精度。这意味着大模型在处理长文本、长对话、长视频等场景时,用户几乎感受不到等待。
Transformer架构的核心是自注意力机制,但它的计算复杂度随序列长度呈 二次方增长 。当上下文从4K扩展到128K,计算量不是线性增加,而是暴增上千倍。这就是为什么大模型处理长文本时响应变慢、显存爆炸的根本原因。
稀疏注意力的思路并不新鲜——跳过部分Token之间的计算,只保留"重要"的注意力连接。但现有方案的痛点在于:要么稀疏后精度损失严重,要么理论上省了计算但实际跑起来并没有快多少,因为稀疏模式本身在硬件上并不友好。
Stem算法要解决的,恰恰是这两个问题。
腾讯混元团队没有沿用传统的"哪些Token重要就保留哪些"的思路,而是从因果信息流的角度重新审视块级稀疏。一个Token的重要性,不应该只看它本身,而应该看它在信息传递链条中的位置和作用。
基于这个洞察,Stem提出了两大核心技术:
Token位置衰减(TPD,Token Position Decay)
在因果语言模型中,越靠前的Token对后续生成的影响越大,越靠后的Token影响越小——这是因果关系决定的。TPD利用这一特性,对不同位置的Token施加差异化的衰减权重,让算法自动判断哪些位置的注意力连接可以安全地被稀疏掉,而不需要额外的学习参数。
输出感知度量(OAM,Output-Aware Metric)
传统稀疏注意力往往只看输入端的相似性来决定保留哪些连接,但真正决定一个注意力连接是否重要的,是它对最终输出的贡献。OAM从输出端反向衡量每个注意力连接的实际贡献度,让稀疏决策更加精准。
两者结合的结果是:在仅保留25%注意力连接的情况下,模型精度几乎无损。这不是靠暴力调参硬挤出来的,而是从信息论的底层逻辑出发得出的稀疏方案。
算法层面省下了75%的计算,但如果算子实现跟不上,这些节省就只是纸面上的数字。这也是很多稀疏注意力方案"理论很美、落地很惨"的原因。
腾讯混元配套开源了 Stem+BSA算子 (BSA即Block Sparse Attention),这是一套专门针对稀疏注意力模式优化的HPC(高性能计算)算子库。它做的事情很直接:让GPU真正知道哪些计算可以跳过,而不是依然按稠密方式调度。
3.6倍的首字延迟降低意味着什么?当用户输入一段超长文档让模型总结,或者在Agent场景中需要模型先读取大量上下文再回答时,等待时间从原来的数秒压缩到亚秒级。这对实时交互场景(如智能客服、语音助手、在线编程助手)的体验提升是质的飞跃。
稀疏注意力是当前大模型工程优化的核心赛道之一。DeepSeek此前也提出了DSA(DeepSeek Sparse Attention),在token维度进行压缩。而腾讯混元的Stem走了一条不同的路——不是在token维度压缩,而是在块级别基于因果信息流做稀疏,思路更底层,也更通用。
更关键的是,Stem不是一个纯理论贡献。它从算法到算子再到推理框架(Hy3 Preview)形成了完整闭环。算法决定"省哪些计算",算子决定"省下的计算能快多少",两者缺一不可。这种从论文到部署的全栈打通能力,才是真正的工程壁垒。
目前Stem已集成至腾讯混元Hy3 Preview推理框架中,这意味着它不会停留在学术论文里,而是已经开始在腾讯云的实际推理服务中发挥作用。对于整个行业来说,当稀疏注意力从"能用"走向"好用且快",大模型的长上下文能力才算真正迈入了实用阶段。
全部0条评论
快来发表一下你的评论吧 !