一句话总结:DeepSeek LLM 是 DeepSeek 系列的开篇之作,通过系统研究 scaling laws(缩放定律)指导 7B 和 67B 模型训练,在使用 2T tokens 预训练后超越了 LLaMA-2 70B,尤其在代码、数学和推理领域表现突出,Chat 版本在中文和英文开放式评估中超过 GPT-3.5。


Intro

Motivation

2024 年初,开源社区主要关注固定规模(7B/13B/34B/70B)模型的训练,对 scaling laws 的研究探索不足。而早期工作(OpenAI 和 Chinchilla)在模型/数据的最优分配策略上得出了矛盾结论,给是否继续扩大模型规模带来了不确定性。DeepSeek 团队从”长期主义”视角出发,系统研究了缩放行为,为后续持续扩展奠定基础。

贡献

  1. 缩放定律系统研究:建立了超参数(batch size / learning rate)与计算预算 的幂律关系
  2. 提出新的模型规模度量:用 non-embedding FLOPs/token 替代传统的模型参数量 ,得到更精确的最优模型/数据分配策略
  3. 发现数据质量影响缩放策略:数据质量越高,增加的计算预算越应分配给模型规模而非数据规模
  4. 开源模型:发布 DeepSeek LLM 7B 和 67B,性能超过 LLaMA-2 70B

Method 核心方法

1. 模型架构

基本遵循 LLaMA 设计(Pre-Norm + RMSNorm + SwiGLU + RoPE),但有以下差异:

  • 67B 使用 GQA(Grouped-Query Attention)降低推理成本
  • 层级调整:7B=30 层、67B=95 层,与 LLaMA 的宽 FFN 策略不同,选择加深网络深度
  • 多步学习率调度器:替代余弦调度器,便于持续训练时重用第一阶段训练。三个阶段分别处理 80% / 10% / 10% 的训练 tokens

2. Scaling Laws 研究(核心贡献)

超参数缩放定律

  • 最优 batch size (随计算预算增大而增大)
  • 最优 learning rate (随计算预算增大而减小)

模型/数据最优分配: 用 IsoFLOP 方法在 8 个计算预算(1e17~3e20)上拟合:

  • 模型缩放指数 a = 0.524,数据缩放指数 b = 0.476
  • 用 non-embedding FLOPs/token 替代参数 ,消除小模型上高达 50% 的近似误差

Figure 4: IsoFLOP 曲线与模型/数据缩放曲线。展示了不同计算预算下的最优模型规模与数据量分配策略,是论文的核心缩放定律贡献。

数据质量影响

数据集模型缩放指数 a数据缩放指数 b
早期内部数据0.4500.550
当前内部数据0.5240.476
OpenWebText20.5780.422

数据质量越高, 越大——增加的计算资源应更多分配给模型规模。

3. 预训练数据

  • 2T tokens,中英文为主
  • 激进去重(跨 91 个 Common Crawl dump 去重率达 89.8%)
  • BBPE tokenizer,词汇量 100,000(+15 特殊 token = 100,015)

4. 对齐(Alignment)

  • SFT:约 150 万条指令数据(有用性 120 万 + 安全性 30 万),7B 训 4 epochs,67B 训 2 epochs
  • DPO:进一步对齐人类偏好

实验/评估/结果

  • Base 模型:DeepSeek LLM 67B 在代码、数学和推理任务上全面超越 LLaMA-2 70B
  • Chat 模型:DeepSeek 67B Chat 在中英文开放式评估中超过 GPT-3.5
  • 缩放定律预测准确:小规模实验(1e17)能准确预测 1000x 计算预算下模型的泛化误差

结论

DeepSeek LLM 为开源 LLM 的长期发展奠定了基础。通过系统的缩放定律研究,证明了用科学方法指导模型训练是可行的。其多步学习率调度器设计为后续持续训练提供了便利,而数据质量对缩放策略影响的发现也具有方法论意义。


思考

优点

  1. 缩放定律研究系统性:从超参数到模型/数据分配,层层递进,实验设计严谨
  2. 指标的提出有实际价值:消除了小模型上参数计数带来的重大近似误差
  3. 数据质量影响缩放策略的发现:间接提供了一种评估数据质量的方法
  4. 工程细节诚实:多步学习率调度器相比余弦调度器的 reuse 优势、去重策略等细节对社区有参考价值

缺点

  1. 架构创新有限:基本遵循 LLaMA 设计,主要贡献在训练方法论而非架构
  2. 缩放定律的数据依赖性问题:论文自己指出不同数据集导致不同的最优分配策略,暗示缩放定律的普适性有限
  3. 训练成本未披露:未报告 GPU 小时数
  4. 实验验证仅在 7B/67B:缩放定律的预测在更大规模上的验证留给了后续工作