LLM 缩放定律比较

为什么这个比较重要

Kaplan (2020) vs Chinchilla (2022) 不仅是两个研究组的分歧,更是对大模型资源分配这个核心问题的两种根本不同的思考方式。而”谁对谁错”的答案比表面看起来复杂得多——Chinchilla 纠正了 Kaplan 的方法论错误,但 Chinchilla 本身的结论也有其适用边界。更关键的是,2024 年的实践(Llama 3 的”过度训练”策略)已经在超越 Chinchilla。


一、为什么 Kaplan 错了:方法论的先天缺陷

这不仅是结论不同,而是方法本身就预定了各自的结论方向。

维度Kaplan (2020)Chinchilla (2022)
核心方法论固定数据量,变化模型大小IsoFLOP 分析:固定 FLOPs 预算,变化参数和数据
参数-数据关系N_opt ∝ C^0.73(参数增长快于数据)N_opt ∝ C^0.5(等比例增长)
这意味着”模型应该更大""模型和数据应该等比例增长”
对 GPT-3 的判断175B + 300B tokens 是合理的175B 应该配 3T+ tokens,GPT-3 训练严重不足
训练 epoch允许多次重复最多 4 epoch

当你的方法本身就是”固定数据、调模型大小”时,你观察到的规律只能是”模型变大效果变好”——因为你根本没让数据和模型同时变大。Kaplan 的方法论天然地偏向”更大模型”的结论。这不是数据造假,而是实验设计的偏置决定了你能发现什么规律

Chinchilla 的 IsoFLOP 分析修正了这个偏置。它把问题变成:给定一个固定的计算预算(FLOPs),我应该把这笔预算分多少给参数、分多少给数据?这个重新框架让最优比例自然浮现了出来——不再预设”模型应该更大”。

我的判断

Kaplan 的”错误”不是科学欺诈,而是实验设计水平的问题。2020 年之前,训练多个大模型的成本极高,Kaplan 团队用”固定数据、变模型”的方式是当时能负担的最好方法。Chinchilla 之所以能做出更优雅的 IsoFLOP 分析,部分原因是 2022 年算力和工程能力已经允许训练 400+ 个小模型做参数扫描。更好的方法论需要更强的计算资源支撑。


二、Chinchilla 的正确不是绝对的

Chinchilla 的结论基于一个关键假设:数据分布固定、数据质量固定。但这两个假设在真实世界中都不完全成立。

数据质量是最被低估的变量

Chinchilla 使用 MassiveText(一个质量经过筛选的数据集)。如果换用质量更高的数据(如教科书级别的合成数据),最优参数-数据比例是否会变化?我的直觉是:数据质量越高,等量的 token 能提供更多信息,因此在相同参数量下所需的数据量会更少。 这意味着 Chinchilla 的最优比例可能对”一般质量数据”成立,但对精心筛选的数据不成立。

这引出一个连锁推论:如果数据质量可以量化并纳入缩放定律,那”数据质量提升”可能比”数据量增加”更高效。但这正是缩放定律框架最薄弱的地方——数据质量难以量化。

MoE 模型的缩放定律可能不同

MoE 架构的工作方式与 Dense 模型根本不同:总参数巨大但每 token 激活的参数少。这是否意味着 MoE 的最优参数-数据比例与 Dense 不同?Kimi K2 的 sparsity scaling law 是解决这个问题的首次公开尝试——它研究了稀疏度和模型性能之间的关系,发现了最优稀疏度约为 48(实际部署中简化到 ~32)。这是把缩放定律从 Dense 扩展到 MoE 的关键一步。

但同时要注意:Kimi 的 sparsity scaling law 是在特定任务和架构下的结论。MoE 之间本身差异巨大(DeepSeek-V3 的 aux-loss-free 路由 vs 传统 top-k 路由),通用的 MoE 缩放定律尚未建立。

数据不可能独立于模型结构

所有缩放定律都隐式假设”数据和模型是独立的两个变量”。但实践中,数据混合策略与模型架构之间存在相互作用——什么样的架构从什么样的数据中受益最大?这层相互作用被所有现有缩放定律研究(包括 Chinchilla)忽略。


三、“过度训练”策略的崛起:Chinchilla 不够用了

这是当前缩放定律研究与工业实践之间最根本的张力。

Llama 3 的 8B 和 70B 模型都故意训练超过 Chinchilla 最优点——Chinchilla 说 8B 应该配 ~200B tokens,但 Llama 3 8B 用了 ~15T tokens。这看起来”违反”了 Chinchilla 定律,但 Meta 做了正确的工程决策,原因是:Chinchilla 只优化”训练效率”,不优化”推理效率”。

“训练效率”vs”推理效率”

关心的问题Chinchilla 的视角Llama 3 的视角
给定 FLOPs 预算,怎么分配参数和数据?让训练后的模型最强让部署后的推理总成本最低
如果是大模型需要惊人多的数据(70B → 1.4T)推理贵(每次调用都要激活 70B 参数)
如果是小模型超过最优训练”浪费了训练算力”推理便宜,多亏的算力被推理节省反超

一个 8B 的模型即使训练了”过多”数据,推理时仍然比 70B 模型便宜 8-10 倍。如果这个过度训练的 8B 能达到接近 70B Chinchilla-optimal 的性能,那从总成本(训练 + 推理)角度看,8B 是更优选择。

这意味着:在”总成本最优”的框架下,最优策略可能永远是”过度训练比 Chinchilla 建议更小的模型”。 Chinchilla 定律关心的是”给定算力,怎么让模型最强”,但产品关心的是”给定 SLA 和成本,怎么让服务最优”。这两个问题的答案不同。


四、跨主题连接:缩放定律在多个领域的回响

缩放定律的逻辑已经超出了 LLM 训练本身,渗透到了整个 AI 领域。

在 MoE 中

Kimi K2 的 sparsity scaling law 试图回答:“给定总参数和计算预算,稀疏度多少最优?” 这是一个额外的维度——Dense 模型只有”参数 vs 数据”两个变量,MoE 增加了”稀疏度”第三个变量。

在视觉模型中

ViT 的数据需求本质上也是缩放定律问题:ViT 在 JFT-300M 上超越 CNN,在 ImageNet-1K 上不如 ResNet。这不是架构缺陷,而是”标准化偏置 vs 数据规模”的缩放关系不同——CNN 在低数据区更高效,ViT 在高数据区更高效。有一条隐含的缩放定律在这里起作用。

在扩散模型中

扩散模型的推理步数与生成质量之间存在缩放关系——更多的采样步数提升质量,但边际递减。这与 LLM 中”参数 vs token”的缩放关系在数学结构上高度相似。

在推理模型中

R1 的实验暗示:更多的 RL 训练可能持续提升推理能力。但这里是否存在类似 Chinchilla 的”最优训练量”?目前没人知道。如果存在,那推理模型的缩放定律可能是下一个重大发现。


五、关键判断总结

  1. Kaplan 的方法论偏置大于 Chinchilla,但两者都是对特定架构和数据分布的近似。
  2. Chinchilla 定律的”正确”局限于”训练最优”场景。在”总成本(训练+推理)最优”的场景下,过度训练小模型可能更优。
  3. 数据质量是缩放定律最大的盲点。当数据质量差异巨大时,“token 数量”这个单一维度不足以预测模型性能。
  4. MoE 的缩放定律是下一个前沿。Kimi K2 开了个头,但通用理论远未建立。
  5. 缩放定律正在从”LLM 训练配方”扩展为 AI 的通用分析工具。视觉、扩散、推理、Agent 训练都可能有自己的缩放定律。

相关页面