Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
核心结论
- 提出了 Chain-of-Thought (CoT) 思维链提示:通过在小样本提示(few-shot prompting)中提供中间推理步骤示例,引导大语言模型生成逐步推理过程。
- CoT 推理能力在足够大的模型(约 100B 参数以上)中自然涌现,小模型上 CoT 效果甚微甚至有害。
- 仅 8 个 CoT 示例提示 PaLM 540B,即在数学推理 benchmark GSM8K 上达到 SOTA,超越当时微调过的 GPT-3+验证器。
关键事实
- 作者:Jason Wei, Xuezhi Wang, Dale Schuurmans 等(Google Research, Brain Team)。
- 发表于 NeurIPS 2022(arXiv:2201.11903)。
- 验证了三类推理任务:算术推理(GSM8K 等)、常识推理(CSQA、StrategyQA)、符号推理(last letter concatenation、coin flip)。
- 关键发现:CoT 是一种涌现能力(emergent ability),只在参数量突破某个阈值后才显著提升。
- PaLM 540B + CoT 在 GSM8K 上达 58.0%(此前最佳为 55% 的微调 GPT-3 + 验证器)。
方法亮点
- 方法极其简单:无需微调、无需模型修改、无需额外训练,仅靠少量 prompt 示例即可显著提升复杂推理性能。
- CoT 的本质是让模型的”内部思考过程”外显化,通过逐步推理降低单步推理的问题复杂度。
- 开创了 prompting-based reasoning 范式,成为后续 ToT、GoT、self-consistency 等方法的基础。
与现有 Wiki 的关系
后续问题
- CoT 在视觉推理、多模态推理中的适用性如何?
- CoT 是否会导致幻觉推理(reasoning to wrong answer with convincing steps)?