DeepSeek推出NSA机制，加速长上下文训练与推理

科技绿洲 2025-02-19 1233

　　近日，DeepSeek公司宣布推出一种全新的稀疏注意力机制——NSA(Native Sparse Attention)。据DeepSeek介绍，NSA旨在与现代硬件实现高度一致，并且具备本机可训练的特性，专为超快速的长上下文训练和推理而设计。

　　NSA通过针对现代硬件的优化设计，显著加快了推理速度，并大幅度降低了预训练成本，同时保持了卓越的性能表现。这一机制在确保效率的同时，并未牺牲模型的准确性或功能。

　　在广泛的基准测试、涉及长上下文的任务以及基于指令的推理场景中，NSA的表现与采用完全注意力机制的模型相当，甚至在部分测试中展现出更优的性能。这一成果不仅验证了NSA机制的有效性和实用性，也展示了DeepSeek在人工智能领域的深厚技术积累和创新能力。

　　DeepSeek推出的NSA机制，不仅为长上下文训练和推理提供了全新的解决方案，也为人工智能领域的发展注入了新的活力。

打开APP阅读更多精彩内容