LLM 缩放定律比较
为什么这个比较重要
Kaplan (2020) vs Chinchilla (2022) 不仅是两个研究组的分歧,更是对大模型资源分配这个核心问题的两种根本不同的思考方式。而”谁对谁错”的答案比表面看起来复杂得多——Chinchilla 纠正了 Kaplan 的方法论错误,但 Chinchilla 本身的结论也有其适用边界。更关键的是,2024 年的实践(Llama 3 的”过度训练”策略)已经在超越 Chinchilla。
一、为什么 Kaplan 错了:方法论的先天缺陷
这不仅是结论不同,而是方法本身就预定了各自的结论方向。
| 维度 | Kaplan (2020) | Chinchilla (2022) |
|---|---|---|
| 核心方法论 | 固定数据量,变化模型大小 | IsoFLOP 分析:固定 FLOPs 预算,变化参数和数据 |
| 参数-数据关系 | N_opt ∝ C^0.73(参数增长快于数据) | N_opt ∝ C^0.5(等比例增长) |
| 这意味着 | ”模型应该更大" | "模型和数据应该等比例增长” |
| 对 GPT-3 的判断 | 175B + 300B tokens 是合理的 | 175B 应该配 3T+ tokens,GPT-3 训练严重不足 |
| 训练 epoch | 允许多次重复 | 最多 4 epoch |
当你的方法本身就是”固定数据、调模型大小”时,你观察到的规律只能是”模型变大效果变好”——因为你根本没让数据和模型同时变大。Kaplan 的方法论天然地偏向”更大模型”的结论。这不是数据造假,而是实验设计的偏置决定了你能发现什么规律。
Chinchilla 的 IsoFLOP 分析修正了这个偏置。它把问题变成:给定一个固定的计算预算(FLOPs),我应该把这笔预算分多少给参数、分多少给数据?这个重新框架让最优比例自然浮现了出来——不再预设”模型应该更大”。
我的判断
Kaplan 的”错误”不是科学欺诈,而是实验设计水平的问题。2020 年之前,训练多个大模型的成本极高,Kaplan 团队用”固定数据、变模型”的方式是当时能负担的最好方法。Chinchilla 之所以能做出更优雅的 IsoFLOP 分析,部分原因是 2022 年算力和工程能力已经允许训练 400+ 个小模型做参数扫描。更好的方法论需要更强的计算资源支撑。
二、Chinchilla 的正确不是绝对的
Chinchilla 的结论基于一个关键假设:数据分布固定、数据质量固定。但这两个假设在真实世界中都不完全成立。
数据质量是最被低估的变量
Chinchilla 使用 MassiveText(一个质量经过筛选的数据集)。如果换用质量更高的数据(如教科书级别的合成数据),最优参数-数据比例是否会变化?我的直觉是:数据质量越高,等量的 token 能提供更多信息,因此在相同参数量下所需的数据量会更少。 这意味着 Chinchilla 的最优比例可能对”一般质量数据”成立,但对精心筛选的数据不成立。
这引出一个连锁推论:如果数据质量可以量化并纳入缩放定律,那”数据质量提升”可能比”数据量增加”更高效。但这正是缩放定律框架最薄弱的地方——数据质量难以量化。
MoE 模型的缩放定律可能不同
MoE 架构的工作方式与 Dense 模型根本不同:总参数巨大但每 token 激活的参数少。这是否意味着 MoE 的最优参数-数据比例与 Dense 不同?Kimi K2 的 sparsity scaling law 是解决这个问题的首次公开尝试——它研究了稀疏度和模型性能之间的关系,发现了最优稀疏度约为 48(实际部署中简化到 ~32)。这是把缩放定律从 Dense 扩展到 MoE 的关键一步。
但同时要注意:Kimi 的 sparsity scaling law 是在特定任务和架构下的结论。MoE 之间本身差异巨大(DeepSeek-V3 的 aux-loss-free 路由 vs 传统 top-k 路由),通用的 MoE 缩放定律尚未建立。
数据不可能独立于模型结构
所有缩放定律都隐式假设”数据和模型是独立的两个变量”。但实践中,数据混合策略与模型架构之间存在相互作用——什么样的架构从什么样的数据中受益最大?这层相互作用被所有现有缩放定律研究(包括 Chinchilla)忽略。
三、“过度训练”策略的崛起:Chinchilla 不够用了
这是当前缩放定律研究与工业实践之间最根本的张力。
Llama 3 的 8B 和 70B 模型都故意训练超过 Chinchilla 最优点——Chinchilla 说 8B 应该配 ~200B tokens,但 Llama 3 8B 用了 ~15T tokens。这看起来”违反”了 Chinchilla 定律,但 Meta 做了正确的工程决策,原因是:Chinchilla 只优化”训练效率”,不优化”推理效率”。
“训练效率”vs”推理效率”
| 关心的问题 | Chinchilla 的视角 | Llama 3 的视角 |
|---|---|---|
| 给定 FLOPs 预算,怎么分配参数和数据? | 让训练后的模型最强 | 让部署后的推理总成本最低 |
| 如果是大模型 | 需要惊人多的数据(70B → 1.4T) | 推理贵(每次调用都要激活 70B 参数) |
| 如果是小模型超过最优训练 | ”浪费了训练算力” | 推理便宜,多亏的算力被推理节省反超 |
一个 8B 的模型即使训练了”过多”数据,推理时仍然比 70B 模型便宜 8-10 倍。如果这个过度训练的 8B 能达到接近 70B Chinchilla-optimal 的性能,那从总成本(训练 + 推理)角度看,8B 是更优选择。
这意味着:在”总成本最优”的框架下,最优策略可能永远是”过度训练比 Chinchilla 建议更小的模型”。 Chinchilla 定律关心的是”给定算力,怎么让模型最强”,但产品关心的是”给定 SLA 和成本,怎么让服务最优”。这两个问题的答案不同。
四、跨主题连接:缩放定律在多个领域的回响
缩放定律的逻辑已经超出了 LLM 训练本身,渗透到了整个 AI 领域。
在 MoE 中
Kimi K2 的 sparsity scaling law 试图回答:“给定总参数和计算预算,稀疏度多少最优?” 这是一个额外的维度——Dense 模型只有”参数 vs 数据”两个变量,MoE 增加了”稀疏度”第三个变量。
在视觉模型中
ViT 的数据需求本质上也是缩放定律问题:ViT 在 JFT-300M 上超越 CNN,在 ImageNet-1K 上不如 ResNet。这不是架构缺陷,而是”标准化偏置 vs 数据规模”的缩放关系不同——CNN 在低数据区更高效,ViT 在高数据区更高效。有一条隐含的缩放定律在这里起作用。
在扩散模型中
扩散模型的推理步数与生成质量之间存在缩放关系——更多的采样步数提升质量,但边际递减。这与 LLM 中”参数 vs token”的缩放关系在数学结构上高度相似。
在推理模型中
R1 的实验暗示:更多的 RL 训练可能持续提升推理能力。但这里是否存在类似 Chinchilla 的”最优训练量”?目前没人知道。如果存在,那推理模型的缩放定律可能是下一个重大发现。
五、关键判断总结
- Kaplan 的方法论偏置大于 Chinchilla,但两者都是对特定架构和数据分布的近似。
- Chinchilla 定律的”正确”局限于”训练最优”场景。在”总成本(训练+推理)最优”的场景下,过度训练小模型可能更优。
- 数据质量是缩放定律最大的盲点。当数据质量差异巨大时,“token 数量”这个单一维度不足以预测模型性能。
- MoE 的缩放定律是下一个前沿。Kimi K2 开了个头,但通用理论远未建立。
- 缩放定律正在从”LLM 训练配方”扩展为 AI 的通用分析工具。视觉、扩散、推理、Agent 训练都可能有自己的缩放定律。
相关页面
- Scaling Laws — 缩放定律概览
- Chinchilla 缩放定律 — Chinchilla 原始论文摘要
- GPT-3 — Kaplan 缩放定律的原始应用
- MoE 混合专家模型 — MoE 的缩放特性
- 大语言模型基础 — LLM 基础全景
- Vision Transformer 架构比较 — 数据规模与架构偏置的缩放关系