一句话总结:DeepSeek-V3 是 671B MoE 模型(37B 激活),在继承 V2 的 MLA + DeepSeekMoE 架构基础上,首次引入 auxiliary-loss-free 负载均衡、Multi-Token Prediction (MTP) 训练目标、FP8 混合精度训练和 DualPipe 流水线并行,仅用 2.788M H800 GPU 小时(约 $5.6M)完成 14.8T tokens 预训练,性能比肩 GPT-4o 和 Claude-3.5-Sonnet。

Figure 1: DeepSeek-V3 与各模型的 benchmark 性能对比。
Intro
Motivation
在 DeepSeek-V2 已验证 MLA + DeepSeekMoE 的基础上,进一步扩大模型规模(671B/37B 激活),同时需要解决三个关键问题:负载均衡的辅助损失会损害性能、MoE 跨节点通信瓶颈、以及如何进一步提升训练效率。
贡献
- Auxiliary-loss-free 负载均衡:通过动态 bias 调整替代辅助损失,消除负载均衡对模型性能的负面影响
- Multi-Token Prediction (MTP):序列预测多个 future tokens,增强模型性能并支持 speculative decoding 加速推理
- FP8 混合精度训练:首次在大规模模型上验证 FP8 训练的可行性
- DualPipe 算法:实现计算-通信近乎完全重叠
- 极低训练成本:14.8T tokens 预训练仅需 2.664M H800 GPU 小时($5.3M)
Method 核心方法

Figure 2: DeepSeek-V3 基础架构。继承 V2 的 MLA + DeepSeekMoE 设计,新增 auxiliary-loss-free 负载均衡策略。
1. 架构创新
DeepSeek-V3 基于 V2 的 MLA + DeepSeekMoE,核心新增两项改进:
架构对比:
| 组件 | 标准 Transformer | DeepSeek-V2 | DeepSeek-V3 |
|---|---|---|---|
| 注意力 | MHA | MLA (低秩 KV 压缩) | MLA (继承) |
| FFN | Dense FFN | DeepSeekMoE (细粒度专家) | DeepSeekMoE + aux-loss-free 负载均衡 |
| 训练精度 | BF16 | BF16 | FP8 混合精度 |
| 并行策略 | DP/TP | ZeRO-1 DP | DualPipe (计算-通信重叠) |
| 预测 | 单 token | 单 token | Multi-Token Prediction (MTP) |
Auxiliary-loss-free 负载均衡
核心思想:为每个 expert 引入一个 bias 项 ,仅影响路由(Top-K 选择),不影响 gating value(乘以 FFN 输出的权重)。
- 训练过程中动态监控每个 expert 的负载
- 超载则 ,欠载则
- 同时保留一个极小的序列级平衡损失( 非常小)防止极端不平衡
- 结果:负载均衡的同时性能优于纯辅助损失方案
- 配合 node-limited routing(每个 token 最多发往 M 个节点)实现近乎完全的计算-通信重叠
Multi-Token Prediction (MTP)
与 [Gloeckle et al.] 的并行预测不同,DeepSeek-V3 的 MTP 是序列化预测:
- 使用 个顺序 MTP 模块,每个包含一个 Transformer block 和一个投影矩阵
- 第 个模块组合第 深度的表示和 位置 token 的 embedding
- 保持完整因果链,每个深度共享 embedding 层和 output head
- 同时可作 speculative decoding 加速推理

Figure 3: Multi-Token Prediction (MTP) 实现。顺序预测多个 future tokens,保持完整因果链,与并行预测方案不同。
2. 训练基础设施
FP8 混合精度训练:
- 首次在大规模模型上验证 FP8 训练
- 大部分计算密集型操作(GEMM)使用 FP8
- 对精度敏感的操作保留 BF16/FP32
DualPipe 流水线并行:
- 相比 1F1B 有更少的 pipeline bubble
- 通过计算-通信重叠隐藏大部分通信开销
- 配合高效跨节点 all-to-all 通信 kernel,充分利用 IB 和 NVLink
内存优化:
- 无需使用昂贵的 Tensor Parallelism
- ZeRO-1 数据并行
3. 训练策略
- 预训练:14.8T tokens
- 两阶段上下文扩展:32K → 128K
- 后训练:SFT + RL,从 DeepSeek-R1 蒸馏推理能力
- 整个训练过程零不可恢复的 loss spike,零回滚
实验/评估/结果
关键数据
| 阶段 | H800 GPU 小时 | 成本($2/GPU/h) |
|---|---|---|
| 预训练 | 2,664K | $5.328M |
| 上下文扩展 | 119K | $0.238M |
| 后训练 | 5K | $0.01M |
| 总计 | 2,788K | $5.576M |
性能
- MMLU:88.5,超过所有开源模型,比肩 GPT-4o
- MATH-500:超过 o1-preview
- LiveCodeBench:代码竞赛 benchmark 上排名第一
- 中文 SimpleQA:超过 GPT-4o 和 Claude-3.5-Sonnet
- 训练稳定性:完整训练过程零不可恢复 loss spike
结论
DeepSeek-V3 证明,通过算法-框架-硬件的协同设计,可以用极低的成本($5.6M)训练出比肩顶级闭源模型的开源模型。Auxiliary-loss-free 负载均衡和 MTP 是轻量但有效的架构改进,FP8 训练和 DualPipe 是工程效率的关键。
思考
优点
- 极致的经济性:$5.6M 训练 671B 模型是行业标杆级效率,证明了 MoE + FP8 + DualPipe 路线的可行性
- Auxiliary-loss-free 负载均衡简洁优雅:用动态 bias 替代辅助损失,既简单又有效,是 MoE 训练的重要方法论贡献
- 训练稳定性令人惊叹:零不可恢复 loss spike,在如此大规模的 MoE 训练中极为罕见
- 从 R1 蒸馏推理能力的策略聪明:避免了在 V3 上直接做长 CoT RL 的成本
缺点
- MTP 的性能增益不够显著:论文没有给出 MTP 具体的 ablation 数据,其贡献相对有限
- 后训练部分的描述较简略:从 R1 蒸馏的具体方法、SFT/RL 的细节披露不足
- 与 GPT-4o 在事实性上的差距:英文 SimpleQA 上仍有明显差距
- 推理部署成本的完整分析缺失:虽然训练成本极低,但 671B 模型的推理部署(需要多节点)的实际成本未充分讨论
- 模型目前仅支持文本:不具备多模态能力