推理增强方法比较

为什么这个比较重要

CoT → ToT → GoT → 推理模型这条线,不是简单的”推理方法越来越好”的渐进故事。它里面藏着一个根本性的范式转移——推理从”外部策略”变成了”内部能力”。理解这个转移,才能真正理解当前 LLM 推理能力的来源、边界和未来方向。


一、核心洞见:从”外部提示”到”内部训练”的范式转移

这是我读这条线时最大的判断:CoT、ToT、GoT 和推理模型本质上在做同一件事——增加模型给出答案前的”有效计算量”,但它们在”哪里”增加计算量这件事上,选择了完全不同的层次。

方法计算发生的位置如何增加计算本质
CoT推理时的 prompt 空间线性延长输出序列外部:让模型多写几步
ToT推理时的探索空间树状分支评估外部:让模型多探索几条路
GoT推理时的图结构空间图结构多路聚合外部:让模型多组合几种思路
推理模型(R1/o3)训练时的参数空间RL 隐式多步优化内部:让模型学会如何思考

CoT/ToT/GoT 都是推理时的事后补救——模型本身没有”推理内功”,你只是在输出阶段给它搭脚手架。推理模型把这个过程倒了过来:通过 RL 训练,模型在参数中学会了怎样分解问题、怎样回溯、怎样自我纠正。这是”推理”这件事从”使用技巧”变成”模型属性”的范式转变。

一个类比:CoT 像是给一个不会游泳的人套上救生圈;推理模型像是训练他自己学会了游泳。救生圈只在特定场景有效,而游泳能力一旦内化,任何时候都能用。


二、“有效思考量”框架:统一四者的比较透镜

所有四个方法都可以在”有效思考量”这个框架下被统一理解——它们在最终答案之前,用不同方式增加了模型的计算投入。

CoT 是线性增加。每多一个推理步骤,计算量线性增长。问题是:如果第一步就推理偏了,后续步骤只是在错误方向上越走越远。它增加了”量”但没增加”广度”。

ToT 是带剪枝的树状探索。在每一步生成多个候选,用自我评估选出最好的,最差的剪掉。这让计算量被”定向投放”到更有前途的分支。Game of 24 上 4% → 74% 的提升就是这种定向投放的效果。但代价也很明显:多次 LLM 调用意味着延迟和成本翻倍。

GoT 是图结构的多路聚合。它不仅探索多条路径,还能将不同路径的结果合并(combine)、提炼(distill)、反馈增强(refine)。排序任务上 +62% vs ToT 同时成本 -31%,说明更智能的计算分配可以在”效果”和”成本”之间找到更好的 trade-off。

推理模型是 RL 训练中隐式的多步优化。这是四种方法中最难直观理解的,也是最本质不同的。RL 训练不显式地”探索多条推理路径”,而是通过奖励信号引导模型在参数空间中找到”更容易产生正确推理”的区域。R1-Zero 的 “aha moment”——模型在训练中途突然学会停下来重新检查——说明这种隐式优化可以产生超越显式策略的推理行为。

关键判断

推理模型不是 GoT 的”升级版”,而是根本不同的范式。 CoT→ToT→GoT 这条线在同一个层面(推理时)不断丰富计算结构。推理模型换了一个层面(训练时)解决问题。这也是为什么 ToT/GoT 没有被大规模采用——它们在推理时的计算开销让它不实用。而推理模型反而是更”工程友好”的方案:一次推理出结果,不需要多次 LLM 调用。


三、为什么 ToT/GoT 没有成为主流?

ToT(2023)和 GoT(2023)在论文中表现惊艳,但在实际应用中几乎销声匿迹。这不是因为它们”不够好”,而是因为它们”不够实用”。

  1. 延迟是不可接受的。ToT 的一次推理需要 O(B × D) 次 LLM 调用(B=分支数,D=深度)。GoT 更复杂。用户愿意等 5 秒看一个回答,但等 30 秒探索多条路径?这在产品上不成立。

  2. 成本是线性的。每次 LLM 调用都要付费。ToT 意味着 10-50 倍的 token 消耗。

  3. 收益不可预测。CoT 在大部分任务上已经够好。ToT/GoT 的优势集中在特定任务(搜索、规划、排序),而这些任务在用户日常使用中比例很小。你不能为了 5% 的 case 让 100% 的请求都承担责任。

  4. 推理模型反而更”工程友好”。R1/o3 虽然训练成本巨大,但推理时和普通 LLM 一样——一次调用,一次性出结果(含推理链)。推理模型把”复杂探索”的代价从推理时转移到了训练时,这恰好是工业界最能接受的 trade-off。

这是我的判断:ToT/GoT 是重要的学术贡献,但它们的真正价值不在于方法论本身,而在于指出了”推理需要更多计算”这个方向,间接推动了推理模型的诞生。 它们在历史中的角色类似于”航行中发现新大陆的那艘船”——船本身不再用,但发现的大陆改变了一切。


四、推理模型是否让 CoT 提示工程过时了?

对于大模型(推理模型),是的。对于小模型,不是。

R1、o3、k1.5 已经在内部学会了推理。你用不用 “let’s think step by step”,它们都会思考。事实上,对这些模型添加 CoT 提示可能适得其反——干扰模型自身的推理节奏。

但对于小模型(1B-7B 的非推理模型),CoT 提示仍然有用。小模型没有经过 RL 推理训练,不会”自动思考”。DeepSeek-R1 的蒸馏实验也证明了这一点:从 R1 蒸馏的 1.5B 小模型,效果优于直接在 1.5B 基座上做 RL。这说明:

  • 蒸馏比直接训练更能给小模型注入推理能力
  • 如果蒸馏不可用,CoT 提示仍是让小模型”看起来会推理”的最便宜方式

重要推论

推理模型的出现不是让 CoT 变得无用,而是让 CoT 的使用场景重新定位。 CoT 不再是”让大模型推理”的工具(大模型不需要),而是”让没有推理训练的小模型模拟推理”的权宜之计。这个角色变化意味着:如果未来推理模型覆盖所有规模(如 Qwen3 的全系列推理模式),CoT 作为独立技术的价值将趋近于零。


五、一个核心张力:推理的”广度”和”深度”之争

四种方法反映出对”什么算好的推理”这一问题的根本分歧:

  • CoT 认为:好的推理是的——沿一条路走到底
  • ToT 认为:好的推理是广的——多探索几条路再选
  • GoT 认为:好的推理是网络化的——多路径互相反馈
  • 推理模型(RL)认为:好的推理是自校正的——模型自己知道自己什么时候可能错了

RL 训练的推理模型自然地合成了前三种的优点:长(CoT)+ 回溯(ToT)+ 自我修正(GoT 的 refine),但这一切发生在同一段推理链中,无需多次调用。这是 RL 推理比 ToT/GoT 在工程上更优的根本原因。


相关页面