@ekkooo
DeepSeek发表纯技术论文报告《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》
DeepSeek团队近日发布了一种名为NSA(Natively Sparse Attention)的新型稀疏注意力机制,提高了长文本处理的效率,同时保持甚至超越传统全注意力(Full Attention)模型的性能。
NSA采用动态分层稀疏策略,将粗粒度的令牌压缩与细粒度的令牌选择相结合,以保留全局上下文信息和局部精度。其核心创新包括:(1)优化计算强度以提高现代硬件的计算效率,并通过专门的实现最大化利用计算资源;(2)支持端到端训练,有效减少预训练计算成本,同时保持模型性能。
实验结果表明,基于NSA预训练的模型在通用基准测试、长文本任务及指令推理方面均表现出色,并在64k长度的序列处理中,实现了在解码、前向传播和反向传播各阶段的显著加速。NSA的推出有望推动下一代大语言模型...