Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

核心结论

提出了 Chain-of-Thought (CoT) 思维链提示：通过在小样本提示（few-shot prompting）中提供中间推理步骤示例，引导大语言模型生成逐步推理过程。
CoT 推理能力在足够大的模型（约 100B 参数以上）中自然涌现，小模型上 CoT 效果甚微甚至有害。
仅 8 个 CoT 示例提示 PaLM 540B，即在数学推理 benchmark GSM8K 上达到 SOTA，超越当时微调过的 GPT-3+验证器。

作者：Jason Wei, Xuezhi Wang, Dale Schuurmans 等（Google Research, Brain Team）。
发表于 NeurIPS 2022（arXiv:2201.11903）。
验证了三类推理任务：算术推理（GSM8K 等）、常识推理（CSQA、StrategyQA）、符号推理（last letter concatenation、coin flip）。
关键发现：CoT 是一种涌现能力（emergent ability），只在参数量突破某个阈值后才显著提升。
PaLM 540B + CoT 在 GSM8K 上达 58.0%（此前最佳为 55% 的微调 GPT-3 + 验证器）。