一句话总结:DeepSeek LLM 是 DeepSeek 系列的开篇之作,通过系统研究 scaling laws(缩放定律)指导 7B 和 67B 模型训练,在使用 2T tokens 预训练后超越了 LLaMA-2 70B,尤其在代码、数学和推理领域表现突出,Chat 版本在中文和英文开放式评估中超过 GPT-3.5。
Intro
Motivation
2024 年初,开源社区主要关注固定规模(7B/13B/34B/70B)模型的训练,对 scaling laws 的研究探索不足。而早期工作(OpenAI 和 Chinchilla)在模型/数据的最优分配策略上得出了矛盾结论,给是否继续扩大模型规模带来了不确定性。DeepSeek 团队从”长期主义”视角出发,系统研究了缩放行为,为后续持续扩展奠定基础。
贡献
- 缩放定律系统研究:建立了超参数(batch size / learning rate)与计算预算 的幂律关系
- 提出新的模型规模度量:用 non-embedding FLOPs/token 替代传统的模型参数量 ,得到更精确的最优模型/数据分配策略
- 发现数据质量影响缩放策略:数据质量越高,增加的计算预算越应分配给模型规模而非数据规模
- 开源模型:发布 DeepSeek LLM 7B 和 67B,性能超过 LLaMA-2 70B
Method 核心方法
1. 模型架构
基本遵循 LLaMA 设计(Pre-Norm + RMSNorm + SwiGLU + RoPE),但有以下差异:
- 67B 使用 GQA(Grouped-Query Attention)降低推理成本
- 层级调整:7B=30 层、67B=95 层,与 LLaMA 的宽 FFN 策略不同,选择加深网络深度
- 多步学习率调度器:替代余弦调度器,便于持续训练时重用第一阶段训练。三个阶段分别处理 80% / 10% / 10% 的训练 tokens
2. Scaling Laws 研究(核心贡献)
超参数缩放定律:
- 最优 batch size (随计算预算增大而增大)
- 最优 learning rate (随计算预算增大而减小)
模型/数据最优分配: 用 IsoFLOP 方法在 8 个计算预算(1e17~3e20)上拟合:
- 模型缩放指数 a = 0.524,数据缩放指数 b = 0.476
- 用 non-embedding FLOPs/token 替代参数 ,消除小模型上高达 50% 的近似误差

Figure 4: IsoFLOP 曲线与模型/数据缩放曲线。展示了不同计算预算下的最优模型规模与数据量分配策略,是论文的核心缩放定律贡献。
数据质量影响:
| 数据集 | 模型缩放指数 a | 数据缩放指数 b |
|---|---|---|
| 早期内部数据 | 0.450 | 0.550 |
| 当前内部数据 | 0.524 | 0.476 |
| OpenWebText2 | 0.578 | 0.422 |
数据质量越高, 越大——增加的计算资源应更多分配给模型规模。
3. 预训练数据
- 2T tokens,中英文为主
- 激进去重(跨 91 个 Common Crawl dump 去重率达 89.8%)
- BBPE tokenizer,词汇量 100,000(+15 特殊 token = 100,015)
4. 对齐(Alignment)
- SFT:约 150 万条指令数据(有用性 120 万 + 安全性 30 万),7B 训 4 epochs,67B 训 2 epochs
- DPO:进一步对齐人类偏好
实验/评估/结果
- Base 模型:DeepSeek LLM 67B 在代码、数学和推理任务上全面超越 LLaMA-2 70B
- Chat 模型:DeepSeek 67B Chat 在中英文开放式评估中超过 GPT-3.5
- 缩放定律预测准确:小规模实验(1e17)能准确预测 1000x 计算预算下模型的泛化误差
结论
DeepSeek LLM 为开源 LLM 的长期发展奠定了基础。通过系统的缩放定律研究,证明了用科学方法指导模型训练是可行的。其多步学习率调度器设计为后续持续训练提供了便利,而数据质量对缩放策略影响的发现也具有方法论意义。
思考
优点
- 缩放定律研究系统性:从超参数到模型/数据分配,层层递进,实验设计严谨
- 指标的提出有实际价值:消除了小模型上参数计数带来的重大近似误差
- 数据质量影响缩放策略的发现:间接提供了一种评估数据质量的方法
- 工程细节诚实:多步学习率调度器相比余弦调度器的 reuse 优势、去重策略等细节对社区有参考价值
缺点
- 架构创新有限:基本遵循 LLaMA 设计,主要贡献在训练方法论而非架构
- 缩放定律的数据依赖性问题:论文自己指出不同数据集导致不同的最优分配策略,暗示缩放定律的普适性有限
- 训练成本未披露:未报告 GPU 小时数
- 实验验证仅在 7B/67B:缩放定律的预测在更大规模上的验证留给了后续工作