推理增强方法比较

为什么这个比较重要

CoT → ToT → GoT → 推理模型这条线，不是简单的”推理方法越来越好”的渐进故事。它里面藏着一个根本性的范式转移——推理从”外部策略”变成了”内部能力”。理解这个转移，才能真正理解当前 LLM 推理能力的来源、边界和未来方向。

一、核心洞见：从”外部提示”到”内部训练”的范式转移

这是我读这条线时最大的判断：CoT、ToT、GoT 和推理模型本质上在做同一件事——增加模型给出答案前的”有效计算量”，但它们在”哪里”增加计算量这件事上，选择了完全不同的层次。

方法	计算发生的位置	如何增加计算	本质
CoT	推理时的 prompt 空间	线性延长输出序列	外部：让模型多写几步
ToT	推理时的探索空间	树状分支评估	外部：让模型多探索几条路
GoT	推理时的图结构空间	图结构多路聚合	外部：让模型多组合几种思路
推理模型（R1/o3）	训练时的参数空间	RL 隐式多步优化	内部：让模型学会如何思考

CoT/ToT/GoT 都是推理时的事后补救——模型本身没有”推理内功”，你只是在输出阶段给它搭脚手架。推理模型把这个过程倒了过来：通过 RL 训练，模型在参数中学会了怎样分解问题、怎样回溯、怎样自我纠正。这是”推理”这件事从”使用技巧”变成”模型属性”的范式转变。

一个类比：CoT 像是给一个不会游泳的人套上救生圈；推理模型像是训练他自己学会了游泳。救生圈只在特定场景有效，而游泳能力一旦内化，任何时候都能用。

二、“有效思考量”框架：统一四者的比较透镜

所有四个方法都可以在”有效思考量”这个框架下被统一理解——它们在最终答案之前，用不同方式增加了模型的计算投入。

CoT 是线性增加。每多一个推理步骤，计算量线性增长。问题是：如果第一步就推理偏了，后续步骤只是在错误方向上越走越远。它增加了”量”但没增加”广度”。

ToT 是带剪枝的树状探索。在每一步生成多个候选，用自我评估选出最好的，最差的剪掉。这让计算量被”定向投放”到更有前途的分支。Game of 24 上 4% → 74% 的提升就是这种定向投放的效果。但代价也很明显：多次 LLM 调用意味着延迟和成本翻倍。

GoT 是图结构的多路聚合。它不仅探索多条路径，还能将不同路径的结果合并（combine）、提炼（distill）、反馈增强（refine）。排序任务上 +62% vs ToT 同时成本 -31%，说明更智能的计算分配可以在”效果”和”成本”之间找到更好的 trade-off。

推理模型是 RL 训练中隐式的多步优化。这是四种方法中最难直观理解的，也是最本质不同的。RL 训练不显式地”探索多条推理路径”，而是通过奖励信号引导模型在参数空间中找到”更容易产生正确推理”的区域。R1-Zero 的 “aha moment”——模型在训练中途突然学会停下来重新检查——说明这种隐式优化可以产生超越显式策略的推理行为。

关键判断

推理模型不是 GoT 的”升级版”，而是根本不同的范式。 CoT→ToT→GoT 这条线在同一个层面（推理时）不断丰富计算结构。推理模型换了一个层面（训练时）解决问题。这也是为什么 ToT/GoT 没有被大规模采用——它们在推理时的计算开销让它不实用。而推理模型反而是更”工程友好”的方案：一次推理出结果，不需要多次 LLM 调用。

三、为什么 ToT/GoT 没有成为主流？

ToT（2023）和 GoT（2023）在论文中表现惊艳，但在实际应用中几乎销声匿迹。这不是因为它们”不够好”，而是因为它们”不够实用”。

延迟是不可接受的。ToT 的一次推理需要 O(B × D) 次 LLM 调用（B=分支数，D=深度）。GoT 更复杂。用户愿意等 5 秒看一个回答，但等 30 秒探索多条路径？这在产品上不成立。
成本是线性的。每次 LLM 调用都要付费。ToT 意味着 10-50 倍的 token 消耗。
收益不可预测。CoT 在大部分任务上已经够好。ToT/GoT 的优势集中在特定任务（搜索、规划、排序），而这些任务在用户日常使用中比例很小。你不能为了 5% 的 case 让 100% 的请求都承担责任。
推理模型反而更”工程友好”。R1/o3 虽然训练成本巨大，但推理时和普通 LLM 一样——一次调用，一次性出结果（含推理链）。推理模型把”复杂探索”的代价从推理时转移到了训练时，这恰好是工业界最能接受的 trade-off。

这是我的判断：ToT/GoT 是重要的学术贡献，但它们的真正价值不在于方法论本身，而在于指出了”推理需要更多计算”这个方向，间接推动了推理模型的诞生。 它们在历史中的角色类似于”航行中发现新大陆的那艘船”——船本身不再用，但发现的大陆改变了一切。

四、推理模型是否让 CoT 提示工程过时了？

对于大模型（推理模型），是的。对于小模型，不是。

R1、o3、k1.5 已经在内部学会了推理。你用不用 “let’s think step by step”，它们都会思考。事实上，对这些模型添加 CoT 提示可能适得其反——干扰模型自身的推理节奏。

但对于小模型（1B-7B 的非推理模型），CoT 提示仍然有用。小模型没有经过 RL 推理训练，不会”自动思考”。DeepSeek-R1 的蒸馏实验也证明了这一点：从 R1 蒸馏的 1.5B 小模型，效果优于直接在 1.5B 基座上做 RL。这说明：

蒸馏比直接训练更能给小模型注入推理能力
如果蒸馏不可用，CoT 提示仍是让小模型”看起来会推理”的最便宜方式

重要推论

推理模型的出现不是让 CoT 变得无用，而是让 CoT 的使用场景重新定位。 CoT 不再是”让大模型推理”的工具（大模型不需要），而是”让没有推理训练的小模型模拟推理”的权宜之计。这个角色变化意味着：如果未来推理模型覆盖所有规模（如 Qwen3 的全系列推理模式），CoT 作为独立技术的价值将趋近于零。

五、一个核心张力：推理的”广度”和”深度”之争

四种方法反映出对”什么算好的推理”这一问题的根本分歧：

CoT 认为：好的推理是长的——沿一条路走到底
ToT 认为：好的推理是广的——多探索几条路再选
GoT 认为：好的推理是网络化的——多路径互相反馈
推理模型（RL）认为：好的推理是自校正的——模型自己知道自己什么时候可能错了

RL 训练的推理模型自然地合成了前三种的优点：长（CoT）+ 回溯（ToT）+ 自我修正（GoT 的 refine），但这一切发生在同一段推理链中，无需多次调用。这是 RL 推理比 ToT/GoT 在工程上更优的根本原因。

Blog1

探索

推理增强方法比较

推理增强方法比较

为什么这个比较重要

一、核心洞见：从”外部提示”到”内部训练”的范式转移

二、“有效思考量”框架：统一四者的比较透镜

关键判断

三、为什么 ToT/GoT 没有成为主流？

四、推理模型是否让 CoT 提示工程过时了？

重要推论

五、一个核心张力：推理的”广度”和”深度”之争

相关页面

关系图谱

目录

反向链接