推理增强方法
概述
大语言模型的推理能力增强经历了从提示工程到结构探索再到模型训练的演进路径:CoT(线性链)→ ToT(树状搜索)→ GoT(图结构)→ 推理模型(RL 训练)。
演进而貌
1. Chain-of-Thought(2022):推理的外化
- Chain-of-Thought 发现:在提示中提供推理步骤示例,可使大模型自动生成逐步推理过程,显著提升复杂推理任务性能。
- 这是”涌现能力”(emergent ability):仅在 ~100B 以上参数模型中有效。
- 方法极简(无需微调),效果显著(GSM8K 上 PaLM 540B + 8-shot CoT 达 SOTA)。
- 局限:仍为单路径线性推理,无法探索多种可能路径或纠正错误。
2. Tree of Thoughts(2023):推理的探索
- Tree of Thoughts 引入了树状思维搜索:每步生成多个候选思考,通过自我评估选择最优路径,支持前瞻(lookahead)和回溯(backtracking)。
- Game of 24 上 GPT-4 + CoT 仅 4% 成功率,ToT 达 74%。
- 让 LLM 从”快速直觉回答”升级为”审慎系统搜索”,更接近人类的”深思熟虑型”思维(System 2)。
- 代价:多次 LLM 调用,计算开销显著增加。
3. Graph of Thoughts(2023):推理的网络化
- Graph of Thoughts 将推理抽象为最一般的图结构:思考是节点,依赖是边。
- 新增了 CoT 和 ToT 不具备的核心操作:聚合多个思考(combine)、提炼核心(distill)、反馈增强(refine)。
- 在提升质量(排序任务 +62% vs ToT)的同时降低成本(-31% vs ToT),首次实现了”更好且更省”。
- 将 LLM 推理拉近人类大脑的”网络化思考”模式。
4. 推理模型(2025):推理的内化
- Competitive Programming LM 展示:通过大规模强化学习训练,模型可将推理能力”内化”为参数,不再依赖推理时的外部提示策略。
- o3 在无任何领域特化策略的情况下获 IOI 金牌 + CodeForces elite 评级,超越了手工设计的推理流水线(o1-ioi)。
- 从”prompt-based reasoning”到”training-based reasoning”:推理从一种外挂技术变成模型的核心能力。
关键洞察
- 从外到内:CoT → ToT → GoT 是外部提示策略的演进;推理模型将推理能力内化到训练中。两条路线并非互斥,可以结合。
- 结构提升上限:更丰富的推理结构(树 > 链,图 > 树)不断提升推理的复杂度上限,但也带来更大的计算开销。
- 任务适配性:不同任务适合不同的推理策略。简单算术推理 CoT 就够;需要探索的任务(规划、搜索)ToT 更优;可分解聚合的任务(排序、文档合并)GoT 最优。
- 推理的本质:无论是外部提示还是内部训练,推理增强都在做同一件事——增加模型在做出最终答案前的”有效思考量”。
关联
- 概念:Chain-of-Thought 思维链。
- 实体:GoT(注意:这与 ETH 的 Graph of Thoughts 不同——GoT (TU Dresden) 是 multimodal CoT 生成)。
- 该主题与图像编辑中的推理增强(扩散模型图像编辑与生成 中的推理 Agent 章节)形成交叉。