NSA 原生稀疏注意力
核心结论
DeepSeek 提出 NSA(Native Sparse Attention),一种硬件对齐且可原生训练的稀疏注意力机制。NSA 采用动态层级稀疏策略:粗粒度 token 压缩 + 细粒度 token 选择,既保留全局上下文感知又保持局部精度。关键创新:(1) 算术强度均衡的算法设计,实现与现代硬件的良好对齐;(2) 支持端到端原生训练,无需预定义稀疏模式。
关键事实
- 作者:Jingyang Yuan 等(DeepSeek-AI & PKU),2025
- 核心设计:动态层级稀疏 = 粗粒度压缩(block-level)+ 细粒度选择(token-level)
- 长上下文 → 高效:标准注意力的计算量随序列长度平方增长,NSA 通过稀疏化降低
- 硬件对齐:算法设计考虑 GPU 算术强度平衡,避免稀疏计算引入的额外开销超过节省
- 可原生训练:与需要预计算稀疏模式的方法不同,NSA 在训练中端到端学习稀疏选择
方法或论证路径
- 粗粒度压缩:将长序列分块,每块压缩为代表性 token,用于全局注意力
- 细粒度选择:基于门控分数在 token 级别选择最重要的 token 进行精确注意力
- 层级组合:粗粒度全局 + 细粒度局部 + 滑动窗口(确保最近邻不被遗漏)
- 在长上下文语言建模和检索任务上验证效果和效率
与现有 Wiki 的关系
- 关联:NSA 原生稀疏注意力、DeepSeek 系列模型
- 补充:DSA(DeepSeek Sparse Attention,V3.2 引入)与 NSA 可能有关联或演进关系,需进一步核实
- 与 Transformer 原始注意力、FlashAttention 等形成注意力机制的演进链条
可能的矛盾或待核实点
- NSA 与 DSA(DeepSeek-V3.2)的关系:是同一技术还是不同方案?需对照 V3.2 报告确认
- 稀疏注意力在推理 vs 训练中的计算收益是否一致
后续问题
- NSA 在极长上下文(1M+ token)下的 scaling 表现
- 与其他稀疏注意力(如 sliding window、Longformer)的定量对比