DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

一句话总结：DeepSeek LLM 是 DeepSeek 系列的开篇之作，通过系统研究 scaling laws（缩放定律）指导 7B 和 67B 模型训练，在使用 2T tokens 预训练后超越了 LLaMA-2 70B，尤其在代码、数学和推理领域表现突出，Chat 版本在中文和英文开放式评估中超过 GPT-3.5。

Intro

Motivation

2024 年初，开源社区主要关注固定规模（7B/13B/34B/70B）模型的训练，对 scaling laws 的研究探索不足。而早期工作（OpenAI 和 Chinchilla）在模型/数据的最优分配策略上得出了矛盾结论，给是否继续扩大模型规模带来了不确定性。DeepSeek 团队从”长期主义”视角出发，系统研究了缩放行为，为后续持续扩展奠定基础。

贡献

缩放定律系统研究：建立了超参数（batch size / learning rate）与计算预算 $C$ 的幂律关系
提出新的模型规模度量：用 non-embedding FLOPs/token $M$ 替代传统的模型参数量 $N$ ，得到更精确的最优模型/数据分配策略
发现数据质量影响缩放策略：数据质量越高，增加的计算预算越应分配给模型规模而非数据规模
开源模型：发布 DeepSeek LLM 7B 和 67B，性能超过 LLaMA-2 70B

Method 核心方法

1. 模型架构

基本遵循 LLaMA 设计（Pre-Norm + RMSNorm + SwiGLU + RoPE），但有以下差异：

67B 使用 GQA（Grouped-Query Attention）降低推理成本
层级调整：7B=30 层、67B=95 层，与 LLaMA 的宽 FFN 策略不同，选择加深网络深度
多步学习率调度器：替代余弦调度器，便于持续训练时重用第一阶段训练。三个阶段分别处理 80% / 10% / 10% 的训练 tokens

2. Scaling Laws 研究（核心贡献）

超参数缩放定律：

最优 batch size $B_{o pt} = 0.2920 \cdot C^{0.3271}$ （随计算预算增大而增大）
最优 learning rate $η_{o pt} = 0.3118 \cdot C^{- 0.1250}$ （随计算预算增大而减小）

模型/数据最优分配：用 IsoFLOP 方法在 8 个计算预算（1e17~3e20）上拟合：

模型缩放指数 a = 0.524，数据缩放指数 b = 0.476
用 non-embedding FLOPs/token $M$ 替代参数 $N$ ，消除小模型上高达 50% 的近似误差

Figure 4: IsoFLOP 曲线与模型/数据缩放曲线。展示了不同计算预算下的最优模型规模与数据量分配策略，是论文的核心缩放定律贡献。

数据质量影响：

数据集	模型缩放指数 a	数据缩放指数 b
早期内部数据	0.450	0.550
当前内部数据	0.524	0.476
OpenWebText2	0.578	0.422

数据质量越高， $a$ 越大——增加的计算资源应更多分配给模型规模。

3. 预训练数据

2T tokens，中英文为主
激进去重（跨 91 个 Common Crawl dump 去重率达 89.8%）
BBPE tokenizer，词汇量 100,000（+15 特殊 token = 100,015）

4. 对齐（Alignment）

SFT：约 150 万条指令数据（有用性 120 万 + 安全性 30 万），7B 训 4 epochs，67B 训 2 epochs
DPO：进一步对齐人类偏好

实验/评估/结果

Base 模型：DeepSeek LLM 67B 在代码、数学和推理任务上全面超越 LLaMA-2 70B
Chat 模型：DeepSeek 67B Chat 在中英文开放式评估中超过 GPT-3.5
缩放定律预测准确：小规模实验（1e17）能准确预测 1000x 计算预算下模型的泛化误差

结论

DeepSeek LLM 为开源 LLM 的长期发展奠定了基础。通过系统的缩放定律研究，证明了用科学方法指导模型训练是可行的。其多步学习率调度器设计为后续持续训练提供了便利，而数据质量对缩放策略影响的发现也具有方法论意义。

思考

优点

缩放定律研究系统性：从超参数到模型/数据分配，层层递进，实验设计严谨
$M$ 指标的提出有实际价值：消除了小模型上参数计数带来的重大近似误差
数据质量影响缩放策略的发现：间接提供了一种评估数据质量的方法
工程细节诚实：多步学习率调度器相比余弦调度器的 reuse 优势、去重策略等细节对社区有参考价值

缺点

架构创新有限：基本遵循 LLaMA 设计，主要贡献在训练方法论而非架构
缩放定律的数据依赖性问题：论文自己指出不同数据集导致不同的最优分配策略，暗示缩放定律的普适性有限
训练成本未披露：未报告 GPU 小时数
实验验证仅在 7B/67B：缩放定律的预测在更大规模上的验证留给了后续工作

Blog1

探索