Training Compute-Optimal Large Language Models (Chinchilla 缩放定律)

核心结论

训练了超过 400 个不同规模的 Transformer 语言模型，发现当前主流 LLM（GPT-3、Gopher、Megatron-Turing NLG 等）明显训练不足——模型太大但数据量不够。
计算最优缩放定律：模型参数量和训练 token 数应当等比例增长——模型翻倍，数据也应翻倍。给定 FLOPs 预算，最优模型应该比以前的实践更小、但训练更久。
验证实验：训练 Chinchilla（70B 参数，1.4T token），使用与 Gopher（280B）相当的计算预算，但数据多 4 倍。Chinchilla 在所有评估任务上大幅超越 Gopher、GPT-3（175B）和 Megatron-Turing NLG（530B）。
Chinchilla 在下游微调任务上也一致优于更大模型。

关联：Scaling Laws、大语言模型基础
Chinchilla 定律直接指导了后续模型训练：LLaMA（1.4T token on 65B）、Llama 3（15T token on 405B）都遵循「更多数据、更小模型」的思路。
与 Kaplan et al. (2020) 的早期缩放定律形成对比和修正。