描述
电子发烧友网报道 DeepSeek团队发布了一篇由创始人梁文锋署名的新论文,主题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(直译为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》)。这篇论文不仅揭示了当前大语言模型在知识检索方面的低效问题,还通过创新的Engram架构,将模型的“条件记忆”与“计算”分离,从而大幅降低错误率并节省算力。
条件记忆与Engram架构
论文的核心创新点在于提出了“条件记忆”这一概念,旨在解决当前大语言模型在知识检索方面的低效和算力消耗问题。梁文锋团队指出,语言建模本质上包含两类子任务:一类是组合式推理,需要依赖深层、动态计算完成;另一类是知识检索,面向命名实体等相对静态的内容,理论上可以通过简单查找更高效地处理。然而,现有Transformer架构缺乏原生的查找组件,遇到静态信息时往往仍需反复调用深层网络进行重建,加剧了算力浪费并推高了推理成本。
为了解决这一问题,DeepSeek团队提出了Engram架构(记忆痕迹架构),通过将静态知识存储与动态计算分离,实现了静态模式的常数时间O(1)查找。具体而言,条件记忆通过Engram模块实现,模型能够基于输入中的局部上下文模式,从大规模参数化记忆中快速检索并融合静态知识表示,从而避免在推理过程中反复通过深层计算重建高频、模板化信息。
突破GPU内存限制
在GPU内存限制方面,DeepSeek的新论文同样带来了革命性的突破。传统上,GPU内存容量有限,处理大规模数据集时往往需要频繁的数据传输和复杂的数据管理策略。而Engram架构通过稀疏存储模式,支持更大规模的知识存入,突破了传统注意力窗口的物理限制。当大约20%至25%的稀疏参数预算分配给Engram,剩余部分留给混合专家模型(MoE)时,模型性能达到最佳。
此外,DeepSeek团队还通过优化数据流动和调度机制,进一步降低了GPU内存的压力。例如,采用预取策略预测后续计算所需数据,提前从低速层加载至高速层;通过淘汰策略根据访问频率与重要性,将不活跃数据逐出至低速层;以及利用压缩策略对暂存于内存或磁盘的数据进行无损或有损压缩,减少I/O开销。这些技术手段的结合,使得GPU在处理大规模数据集时能够更加高效地利用内存资源。
当前,全球高端GPU资源90%集中于美国企业,且美国政府通过《芯片与科学法案》对中国实施高端GPU限售,直接导致中国AI企业面临“硬件卡脖子”困境。以训练千亿参数模型为例,传统架构需配置数万块H100 GPU,单次训练成本超1亿美元,而内存瓶颈更使模型规模受限于物理显存容量。
DeepSeek的Engram架构通过稀疏存储与动态计算分离技术,使模型在同等硬件条件下可处理3-5倍规模的参数。实验数据显示,其27B参数模型在32k上下文任务中,内存占用仅增加25%却实现13%的准确率提升。这种技术突破不仅降低中国AI企业对进口芯片的依赖度,更通过内存效率优化使现有硬件产能释放3倍以上算力。
结语
DeepSeek团队此次发布的新论文,不仅揭示了当前大语言模型在知识检索方面的低效问题,还通过创新的Engram架构和条件记忆概念,实现了GPU内存限制的革命性突破。这一技术突破不仅提高了模型运行效率,还为中国AI发展提供了战略支撑。在全球AI竞争日益激烈的背景下,DeepSeek的探索为中国AI企业开辟了一条自主创新、突破封锁的发展道路。
打开APP阅读更多精彩内容