DeepSeek V4: Towards Highly Efficient Million-Token Context Intelligence

基本信息

标题: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
作者: DeepSeek-AI
机构: DeepSeek
年份: 2025（Preview 版本）
模型: DeepSeek-V4-Pro（1.6T 参数，49B 激活）和 DeepSeek-V4-Flash（284B 参数，13B 激活），均支持 100 万 token 上下文
开源: 模型权重发布于 HuggingFace

核心论点

长上下文效率突破: 通过混合注意力架构（CSA + HCA），在 100 万 token 上下文场景下，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，KV 缓存仅为 10%，从根本上突破了超长上下文的效率瓶颈。
开源模型新 SOTA: DeepSeek-V4-Pro-Max（最大推理努力模式）在知识、推理、编码、长上下文和智能体等任务上全面超越此前所有开源模型，在部分基准上接近甚至匹配闭源前沿模型。
测试时计算扩展的基础设施: 高效的百万级上下文支持为推理时扩展（test-time scaling）、长周期任务和在线学习等新范式奠定了基础。
小模型高效推理: DeepSeek-V4-Flash-Max 以 13B 激活参数在推理任务上达到与 GPT-5.2、Gemini-3.0-Pro 相当的水平，展示了极高性价比架构的可行性。
两阶段后训练范式: 采用”领域专家独立培养 + 统一模型整合”的后训练流程，以 On-Policy Distillation（OPD）替代混合 RL，实现多领域能力的高效融合。

关键技术方法（相比 V3/V3.2 的改进）

架构创新

混合注意力架构（CSA + HCA）：
- Compressed Sparse Attention（CSA）：将每 m 个 token 的 KV 缓存压缩为 1 个条目，再通过 Lightning Indexer 做 top-k 稀疏选择 + MQA 注意力
- Heavily Compressed Attention（HCA）：以更大压缩率（m’ >> m）压缩 KV 缓存，保持密集注意力
- 两者交替配置，配合滑动窗口注意力分支和 Attention Sink 技术
- 相比 V3/V3.2 的 DeepSeek Sparse Attention（DSA），大幅降低了长上下文的计算和存储开销
流形约束超连接（mHC）：替代传统残差连接，将残差映射矩阵约束到双随机矩阵流形上（Birkhoff 多面体），确保谱范数不超过 1，增强深层网络的数值稳定性。通过 Sinkhorn-Knopp 迭代实现约束投影，开销仅约 6.7%
MoE 微调：继承 DeepSeekMoE 框架，但将亲和力计算从 Sigmoid 改为 Sqrt(Softplus)，移除路由目标节点数约束，前 3 层使用 Hash 路由替代密集 FFN

优化器

Muon 优化器：替代 AdamW 用于大部分参数（嵌入层、预测头、RMSNorm 等仍用 AdamW），通过混合 Newton-Schulz 迭代实现矩阵正交化，带来更快收敛和更好训练稳定性。采用混合 ZeRO 策略适配 Muon 的全梯度矩阵需求

训练稳定性

Anticipatory Routing：解耦主干网络和路由网络的同步更新，使用历史参数计算路由索引，避免 loss spike 的恶性循环
SwiGLU Clamping：将 SwiGLU 的线性部分限制在 [-10, 10]，门控部分上限为 10，有效消除异常值

基础设施

FP4 量化感知训练（QAT）：对 MoE 专家权重和 CSA 索引器的 QK 路径应用 MXFP4 量化，推理时直接使用 FP4 权重；FP4→FP8 反量化无损，可复用现有 FP8 训练框架
细粒度 EP 融合核：将 MoE 层的通信和计算融合为单一流水线化 kernel，专家按波次调度，实现 1.50~1.73x 加速（RL rollout 场景最高 1.96x）
TileLang DSL：用于灵活高效地开发融合 kernel，集成 Z3 SMT 求解器做形式化整数分析，支持按位可复现性
批不变且确定性的 kernel 库：端到端确保训练和推理的按位可复现性，包括注意力、矩阵乘法、mHC 等模块
扩展自动微分：实现张量级激活检查点，支持细粒度重计算控制
磁盘 KV 缓存：支持共享前缀复用，避免重复 prefill

后训练流程

专家训练：对数学、编码、智能体、指令遵循等独立训练专家模型，SFT + GRPO 强化学习
三种推理模式：Non-think（快速）、Think High（深入推理）、Think Max（最大推理努力）
生成式奖励模型（GRM）：actor 网络本身兼任 GRM，统一优化生成和评估能力
On-Policy Distillation（OPD）：用十余个教师模型通过全词汇表 KL 散度蒸馏合并为一个学生模型，替代 V3.2 的混合 RL 阶段
交错思考（Interleaved Thinking）：工具调用场景下完整保留推理历史；一般对话场景下新用户消息到达时清除推理痕迹
Quick Instruction：通过专用特殊 token 在输入序列末尾并行执行辅助任务（搜索判断、意图识别等），避免额外小模型的重复 prefill
XML 工具调用格式：使用 |DSML| 特殊 token 和 XML 格式，减少转义失败和工具调用错误

主要结果

基座模型

DeepSeek-V4-Flash-Base（13B 激活）在多数基准上超越 DeepSeek-V3.2-Base（37B 激活），体现架构和数据改进带来的效率收益
DeepSeek-V4-Pro-Base 在知识、推理、编码和长上下文能力上全面领先，成为 DeepSeek 系列最强基座模型

后训练模型

知识: V4-Pro-Max 在 SimpleQA 上比此前最佳开源模型高出 20 个百分点，但仍在 Gemini-3.1-Pro 之后
推理: 在 LiveCodeBench 和 Codeforces 上与 GPT-5.4 相当，Codeforces 排名人类选手第 23 位；形式数学推理在 agentic 设置下达到 SOTA
智能体: 代码智能体性能接近 Claude Opus 4.5 水平；在 MCPAtlas 和 Toolathlon 上表现优异
长上下文: 在 MRCR 和 CorpusQA 100 万 token 基准上超越 Gemini-3.1-Pro
中文写作: 功能写作和创意写作均优于 Gemini-3.1-Pro
白色领任务: 在 30 项中文企业生产力任务上超越 Opus-4.6-Max

效率对比（100 万 token 上下文）

模型	单 token FLOPs（vs V3.2）	KV 缓存大小（vs V3.2）
DeepSeek-V4-Pro	27%	10%
DeepSeek-V4-Flash	10%	7%

局限性

架构复杂性: 为追求极端长上下文效率，采用了大胆且相对复杂的架构设计，保留了大量初步验证的组件和技巧，不够简洁优雅
训练稳定性机理不明确: Anticipatory Routing 和 SwiGLU Clamping 虽然有效，但底层原理理解不足，缺乏原则性的预测方法
与前沿闭源模型仍有差距: 在部分知识基准上落后 Gemini-3.1-Pro，在高难度推理任务上落后 GPT-5.4 和 Gemini-3.1-Pro 约 3-6 个月
格式美学不足: 在 PPT 等展示类任务的视觉排版方面仍有较大改进空间
指令遵循偶有疏漏: 偶尔忽略特定格式约束
尚无多模态能力: 论文明确表示正在开发多模态能力，当前版本仅支持文本
Flash 模型在复杂任务上的局限: DeepSeek-V4-Flash-Max 在高难度智能体任务和知识密集型任务上仍落后于 V4-Pro

与 DeepSeek 系列模型的关系

继承: 沿用 DeepSeekMoE 框架和 Multi-Token Prediction（MTP）策略，训练数据在 V3 基础上扩展至 32T+ token，tokenizer 词汇表保持 128K
演进路径: DeepSeek-V2（MoE 架构）→ DeepSeek-V3（MTP、辅助损失-free 负载均衡）→ DeepSeek-V3.2（推理能力增强）→ DeepSeek-V4（百万级上下文效率突破）
关键差异: V4 相比 V3/V3.2 最核心的变化是注意力机制（CSA+HCA 替代 DSA）、残差连接（mHC 替代标准残差）和优化器（Muon 替代 AdamW），以及引入 FP4 量化感知训练
后训练范式转变: 从 V3.2 的混合 RL 阶段转变为 OPD 为主，用十余个领域专家教师模型蒸馏统一学生模型
基础设施积累: 在 V3 的 DualPipe、3FS 等基础上，新增 TileLang、MegaMoE 融合核、DSec 沙箱平台等基础设施

Blog1

探索

DeepSeek V4

DeepSeek V4: Towards Highly Efficient Million-Token Context Intelligence

基本信息

核心论点

关键技术方法（相比 V3/V3.2 的改进）

架构创新

优化器

训练稳定性

基础设施

后训练流程

主要结果

基座模型

后训练模型

效率对比（100 万 token 上下文）

局限性

与 DeepSeek 系列模型的关系

关系图谱

目录

反向链接