Language Models are Few-Shot Learners (GPT-3)

核心结论

  • 提出 GPT-3,175B 参数的自回归语言模型,证明了扩大语言模型规模可以极大提升 task-agnostic 的 few-shot 性能,部分任务达到甚至超越此前微调方法的 SOTA。
  • 无需梯度更新或微调,仅通过上下文中的少量示例(few-shot)即可完成新任务,展示了 in-context learning 范式的威力。
  • 8 个不同大小的模型(125M 到 175B),系统和可预测的性能随规模提升,验证了 Scaling Laws 的早期观察。

关键方法或创新点

  • Few-shot / One-shot / Zero-shot 评估:不更新模型参数,仅在 prompt 中提供示例,模型直接推理。
  • 训练数据:Common Crawl(过滤后)、WebText2、Books、Wikipedia 等混合语料,约 300B token。
  • 模型架构与 GPT-2 基本相同(Transformer Decoder),主要改进:密集和稀疏注意力模式的交替使用。
  • 在 TriviaQA、LAMBADA 等任务上达到新的 few-shot SOTA;在部分翻译任务上与监督模型竞争;在 SuperGLUE 上与微调模型接近。

与现有 Wiki 的关系

局限或注意事项

  • 生成内容存在事实错误、社会偏见、有毒语言等问题。
  • few-shot 性能仍然弱于针对特定任务的微调模型(尤其是在自然语言推理等需要深层推理的任务上)。
  • 训练成本极高(估计数百万美元),推理成本也很大。
  • 文中未提供开源权重,限制了复现性。