Scaling Laws（缩放定律）

定义

Scaling Laws（缩放定律）描述语言模型性能随模型规模、数据量和计算量增长而提升的定量规律。核心问题是：给定计算预算，如何分配模型参数和数据以获得最佳性能？

来源：Training Compute-Optimal Large Language Models (DeepMind)
训练了 400+ 模型（70M - 16B 参数，5B - 500B token）
核心发现：
- 以前的大模型（GPT-3 175B、Gopher 280B）都严重训练不足
- 计算最优时，模型参数量和训练 token 数应等比例增长
- 给定 FLOPs 预算 C，N_opt ∝ C^0.5，D_opt ∝ C^0.5
验证：Chinchilla（70B + 1.4T token）使用与 Gopher（280B）同样的预算但全面超越

维度	Kaplan et al. (2020)	Chinchilla (2022)
核心结论	参数增长应快于数据	参数和数据应等比例增长
最优关系	N ∝ C^0.73	N ∝ C^0.5
影响	促使做大模型（GPT-3 175B 只在 300B token 上训练）	促使用更多数据训练较小模型（LLaMA 65B + 1.4T token）
数据重复	允许较多 epoch	最多 4 epoch