腾讯混元提出Stem稀疏注意力算法

科技绿洲 2026-06-09 384

描述

近日，腾讯混元正式宣布其自主研发的Stem稀疏注意力算法被国际顶级机器学习会议ICML-26收录。这项成果的核心价值在于：在128K超长上下文场景下，首字延迟（TTFT）降低了 3.6倍 （部分来源标注为3.7倍），同时仅消耗25%的算力预算就能逼近稠密注意力的精度。这意味着大模型在处理长文本、长对话、长视频等场景时，用户几乎感受不到等待。

Transformer架构的核心是自注意力机制，但它的计算复杂度随序列长度呈 二次方增长 。当上下文从4K扩展到128K，计算量不是线性增加，而是暴增上千倍。这就是为什么大模型处理长文本时响应变慢、显存爆炸的根本原因。

稀疏注意力的思路并不新鲜——跳过部分Token之间的计算，只保留"重要"的注意力连接。但现有方案的痛点在于：要么稀疏后精度损失严重，要么理论上省了计算但实际跑起来并没有快多少，因为稀疏模式本身在硬件上并不友好。

Stem算法要解决的，恰恰是这两个问题。

腾讯混元团队没有沿用传统的"哪些Token重要就保留哪些"的思路，而是从因果信息流的角度重新审视块级稀疏。一个Token的重要性，不应该只看它本身，而应该看它在信息传递链条中的位置和作用。

基于这个洞察，Stem提出了两大核心技术：

Token位置衰减（TPD，Token Position Decay）

在因果语言模型中，越靠前的Token对后续生成的影响越大，越靠后的Token影响越小——这是因果关系决定的。TPD利用这一特性，对不同位置的Token施加差异化的衰减权重，让算法自动判断哪些位置的注意力连接可以安全地被稀疏掉，而不需要额外的学习参数。

输出感知度量（OAM，Output-Aware Metric）

传统稀疏注意力往往只看输入端的相似性来决定保留哪些连接，但真正决定一个注意力连接是否重要的，是它对最终输出的贡献。OAM从输出端反向衡量每个注意力连接的实际贡献度，让稀疏决策更加精准。

两者结合的结果是：在仅保留25%注意力连接的情况下，模型精度几乎无损。这不是靠暴力调参硬挤出来的，而是从信息论的底层逻辑出发得出的稀疏方案。

算法层面省下了75%的计算，但如果算子实现跟不上，这些节省就只是纸面上的数字。这也是很多稀疏注意力方案"理论很美、落地很惨"的原因。

腾讯混元配套开源了 Stem+BSA算子 （BSA即Block Sparse Attention），这是一套专门针对稀疏注意力模式优化的HPC（高性能计算）算子库。它做的事情很直接：让GPU真正知道哪些计算可以跳过，而不是依然按稠密方式调度。

3.6倍的首字延迟降低意味着什么？当用户输入一段超长文档让模型总结，或者在Agent场景中需要模型先读取大量上下文再回答时，等待时间从原来的数秒压缩到亚秒级。这对实时交互场景（如智能客服、语音助手、在线编程助手）的体验提升是质的飞跃。

稀疏注意力是当前大模型工程优化的核心赛道之一。DeepSeek此前也提出了DSA（DeepSeek Sparse Attention），在token维度进行压缩。而腾讯混元的Stem走了一条不同的路——不是在token维度压缩，而是在块级别基于因果信息流做稀疏，思路更底层，也更通用。

更关键的是，Stem不是一个纯理论贡献。它从算法到算子再到推理框架（Hy3 Preview）形成了完整闭环。算法决定"省哪些计算"，算子决定"省下的计算能快多少"，两者缺一不可。这种从论文到部署的全栈打通能力，才是真正的工程壁垒。

目前Stem已集成至腾讯混元Hy3 Preview推理框架中，这意味着它不会停留在学术论文里，而是已经开始在腾讯云的实际推理服务中发挥作用。对于整个行业来说，当稀疏注意力从"能用"走向"好用且快"，大模型的长上下文能力才算真正迈入了实用阶段。

打开APP阅读更多精彩内容