Blog1

❯

❯

❯

Native Sparse Attention: Hardware Aligned and Natively Trainable Sparse Attention

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

2026年4月30日3分钟阅读

NSA
稀疏注意力
DeepSeek
长上下文
硬件对齐

NSA 原生稀疏注意力

核心结论

DeepSeek 提出 NSA（Native Sparse Attention），一种硬件对齐且可原生训练的稀疏注意力机制。NSA 采用动态层级稀疏策略：粗粒度 token 压缩 + 细粒度 token 选择，既保留全局上下文感知又保持局部精度。关键创新：(1) 算术强度均衡的算法设计，实现与现代硬件的良好对齐；(2) 支持端到端原生训练，无需预定义稀疏模式。

关键事实

作者：Jingyang Yuan 等（DeepSeek-AI & PKU），2025
核心设计：动态层级稀疏 = 粗粒度压缩（block-level）+ 细粒度选择（token-level）
长上下文 → 高效：标准注意力的计算量随序列长度平方增长，NSA 通过稀疏化降低
硬件对齐：算法设计考虑 GPU 算术强度平衡，避免稀疏计算引入的额外开销超过节省
可原生训练：与需要预计算稀疏模式的方法不同，NSA 在训练中端到端学习稀疏选择

方法或论证路径

粗粒度压缩：将长序列分块，每块压缩为代表性 token，用于全局注意力
细粒度选择：基于门控分数在 token 级别选择最重要的 token 进行精确注意力
层级组合：粗粒度全局 + 细粒度局部 + 滑动窗口（确保最近邻不被遗漏）
在长上下文语言建模和检索任务上验证效果和效率

与现有 Wiki 的关系

关联：NSA 原生稀疏注意力、DeepSeek 系列模型
补充：DSA（DeepSeek Sparse Attention，V3.2 引入）与 NSA 可能有关联或演进关系，需进一步核实
与 Transformer 原始注意力、FlashAttention 等形成注意力机制的演进链条

可能的矛盾或待核实点

NSA 与 DSA（DeepSeek-V3.2）的关系：是同一技术还是不同方案？需对照 V3.2 报告确认
稀疏注意力在推理 vs 训练中的计算收益是否一致

后续问题

NSA 在极长上下文（1M+ token）下的 scaling 表现
与其他稀疏注意力（如 sliding window、Longformer）的定量对比

关系图谱

NSA 原生稀疏注意力
核心结论
关键事实
方法或论证路径
与现有 Wiki 的关系
可能的矛盾或待核实点
后续问题

反向链接

NSA 原生稀疏注意力
index
log

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community