LLM 缩放定律比较

为什么这个比较重要

Kaplan (2020) vs Chinchilla (2022) 不仅是两个研究组的分歧，更是对大模型资源分配这个核心问题的两种根本不同的思考方式。而”谁对谁错”的答案比表面看起来复杂得多——Chinchilla 纠正了 Kaplan 的方法论错误，但 Chinchilla 本身的结论也有其适用边界。更关键的是，2024 年的实践（Llama 3 的”过度训练”策略）已经在超越 Chinchilla。

一、为什么 Kaplan 错了：方法论的先天缺陷

这不仅是结论不同，而是方法本身就预定了各自的结论方向。

维度	Kaplan (2020)	Chinchilla (2022)
核心方法论	固定数据量，变化模型大小	IsoFLOP 分析：固定 FLOPs 预算，变化参数和数据
参数-数据关系	N_opt ∝ C^0.73（参数增长快于数据）	N_opt ∝ C^0.5（等比例增长）
这意味着	”模型应该更大"	"模型和数据应该等比例增长”
对 GPT-3 的判断	175B + 300B tokens 是合理的	175B 应该配 3T+ tokens，GPT-3 训练严重不足
训练 epoch	允许多次重复	最多 4 epoch

当你的方法本身就是”固定数据、调模型大小”时，你观察到的规律只能是”模型变大效果变好”——因为你根本没让数据和模型同时变大。Kaplan 的方法论天然地偏向”更大模型”的结论。这不是数据造假，而是实验设计的偏置决定了你能发现什么规律。

Chinchilla 的 IsoFLOP 分析修正了这个偏置。它把问题变成：给定一个固定的计算预算（FLOPs），我应该把这笔预算分多少给参数、分多少给数据？这个重新框架让最优比例自然浮现了出来——不再预设”模型应该更大”。

我的判断

Kaplan 的”错误”不是科学欺诈，而是实验设计水平的问题。2020 年之前，训练多个大模型的成本极高，Kaplan 团队用”固定数据、变模型”的方式是当时能负担的最好方法。Chinchilla 之所以能做出更优雅的 IsoFLOP 分析，部分原因是 2022 年算力和工程能力已经允许训练 400+ 个小模型做参数扫描。更好的方法论需要更强的计算资源支撑。

二、Chinchilla 的正确不是绝对的

Chinchilla 的结论基于一个关键假设：数据分布固定、数据质量固定。但这两个假设在真实世界中都不完全成立。

数据质量是最被低估的变量

Chinchilla 使用 MassiveText（一个质量经过筛选的数据集）。如果换用质量更高的数据（如教科书级别的合成数据），最优参数-数据比例是否会变化？我的直觉是：数据质量越高，等量的 token 能提供更多信息，因此在相同参数量下所需的数据量会更少。 这意味着 Chinchilla 的最优比例可能对”一般质量数据”成立，但对精心筛选的数据不成立。

这引出一个连锁推论：如果数据质量可以量化并纳入缩放定律，那”数据质量提升”可能比”数据量增加”更高效。但这正是缩放定律框架最薄弱的地方——数据质量难以量化。

MoE 模型的缩放定律可能不同

MoE 架构的工作方式与 Dense 模型根本不同：总参数巨大但每 token 激活的参数少。这是否意味着 MoE 的最优参数-数据比例与 Dense 不同？Kimi K2 的 sparsity scaling law 是解决这个问题的首次公开尝试——它研究了稀疏度和模型性能之间的关系，发现了最优稀疏度约为 48（实际部署中简化到 ~32）。这是把缩放定律从 Dense 扩展到 MoE 的关键一步。

但同时要注意：Kimi 的 sparsity scaling law 是在特定任务和架构下的结论。MoE 之间本身差异巨大（DeepSeek-V3 的 aux-loss-free 路由 vs 传统 top-k 路由），通用的 MoE 缩放定律尚未建立。

数据不可能独立于模型结构

所有缩放定律都隐式假设”数据和模型是独立的两个变量”。但实践中，数据混合策略与模型架构之间存在相互作用——什么样的架构从什么样的数据中受益最大？这层相互作用被所有现有缩放定律研究（包括 Chinchilla）忽略。

三、“过度训练”策略的崛起：Chinchilla 不够用了

这是当前缩放定律研究与工业实践之间最根本的张力。

Llama 3 的 8B 和 70B 模型都故意训练超过 Chinchilla 最优点——Chinchilla 说 8B 应该配 ~200B tokens，但 Llama 3 8B 用了 ~15T tokens。这看起来”违反”了 Chinchilla 定律，但 Meta 做了正确的工程决策，原因是：Chinchilla 只优化”训练效率”，不优化”推理效率”。

“训练效率”vs”推理效率”

关心的问题	Chinchilla 的视角	Llama 3 的视角
给定 FLOPs 预算，怎么分配参数和数据？	让训练后的模型最强	让部署后的推理总成本最低
如果是大模型	需要惊人多的数据（70B → 1.4T）	推理贵（每次调用都要激活 70B 参数）
如果是小模型超过最优训练	”浪费了训练算力”	推理便宜，多亏的算力被推理节省反超

一个 8B 的模型即使训练了”过多”数据，推理时仍然比 70B 模型便宜 8-10 倍。如果这个过度训练的 8B 能达到接近 70B Chinchilla-optimal 的性能，那从总成本（训练 + 推理）角度看，8B 是更优选择。

这意味着：在”总成本最优”的框架下，最优策略可能永远是”过度训练比 Chinchilla 建议更小的模型”。 Chinchilla 定律关心的是”给定算力，怎么让模型最强”，但产品关心的是”给定 SLA 和成本，怎么让服务最优”。这两个问题的答案不同。

四、跨主题连接：缩放定律在多个领域的回响

缩放定律的逻辑已经超出了 LLM 训练本身，渗透到了整个 AI 领域。

在 MoE 中

Kimi K2 的 sparsity scaling law 试图回答：“给定总参数和计算预算，稀疏度多少最优？” 这是一个额外的维度——Dense 模型只有”参数 vs 数据”两个变量，MoE 增加了”稀疏度”第三个变量。

在视觉模型中

ViT 的数据需求本质上也是缩放定律问题：ViT 在 JFT-300M 上超越 CNN，在 ImageNet-1K 上不如 ResNet。这不是架构缺陷，而是”标准化偏置 vs 数据规模”的缩放关系不同——CNN 在低数据区更高效，ViT 在高数据区更高效。有一条隐含的缩放定律在这里起作用。

在扩散模型中

扩散模型的推理步数与生成质量之间存在缩放关系——更多的采样步数提升质量，但边际递减。这与 LLM 中”参数 vs token”的缩放关系在数学结构上高度相似。

在推理模型中

R1 的实验暗示：更多的 RL 训练可能持续提升推理能力。但这里是否存在类似 Chinchilla 的”最优训练量”？目前没人知道。如果存在，那推理模型的缩放定律可能是下一个重大发现。

五、关键判断总结

Kaplan 的方法论偏置大于 Chinchilla，但两者都是对特定架构和数据分布的近似。
Chinchilla 定律的”正确”局限于”训练最优”场景。在”总成本（训练+推理）最优”的场景下，过度训练小模型可能更优。
数据质量是缩放定律最大的盲点。当数据质量差异巨大时，“token 数量”这个单一维度不足以预测模型性能。
MoE 的缩放定律是下一个前沿。Kimi K2 开了个头，但通用理论远未建立。
缩放定律正在从”LLM 训练配方”扩展为 AI 的通用分析工具。视觉、扩散、推理、Agent 训练都可能有自己的缩放定律。

Blog1

探索

LLM 缩放定律比较

LLM 缩放定律比较

为什么这个比较重要

一、为什么 Kaplan 错了：方法论的先天缺陷

我的判断

二、Chinchilla 的正确不是绝对的

数据质量是最被低估的变量

MoE 模型的缩放定律可能不同

数据不可能独立于模型结构

三、“过度训练”策略的崛起：Chinchilla 不够用了

“训练效率”vs”推理效率”

四、跨主题连接：缩放定律在多个领域的回响

在 MoE 中

在视觉模型中

在扩散模型中

在推理模型中

五、关键判断总结

相关页面

关系图谱

目录

反向链接