推理模型与强化学习

定义

推理模型(Reasoning Model)指具备显式思维链(Chain-of-Thought)推理能力的语言模型。与标准 LLM 不同,推理模型在输出最终答案前会生成详细的多步推理过程。强化学习(RL)已成为训练推理模型的核心方法,取代了早期单纯依赖 SFT(监督微调)的范式。

核心方法对比:三家的 RL 推理方案

DeepSeek-R1:纯 RL 推理涌现

  • R1-Zero:完全无 SFT 的纯 RL 实验,仅用 GRPO(Group Relative Policy Optimization)+ 规则奖励。
  • 关键发现:模型在 RL 训练中自发涌现推理行为——“aha moment”,无需人工示范。
  • 奖励设计
    • 准确率奖励(数学结果是否正确)。
    • 格式奖励(是否遵循 think -> answer 格式)。
    • 不使用 neural reward model(避免 reward hacking)。
  • 完整 R1:四阶段管线——冷启动 SFT 推理 RL 拒绝采样 SFT 全场景 RL。
  • 蒸馏优于 RL:从 R1 蒸馏的小模型(1.5B-70B)效果优于直接在小型基座模型上做 RL,说明 R1 学到的高质量推理模式可以通过蒸馏传递。
  • 失败尝试
    • PRM(过程奖励模型):存在 reward hacking,每一步的奖励评估难以自动标注。
    • MCTS(蒙特卡洛树搜索):在 token 级别搜索空间过大,收敛困难。

来源:DeepSeek-R1 强化学习推理

Kimi k1.5:长上下文 RL + Long2short

  • 长上下文 RL(128K):将 RL 训练上下文从常规的几 K 扩展到 128K tokens,支持多轮长链推理轨迹。
  • 策略优化:采用 online mirror descent,相较于 PPO 更稳定。
  • Partial rollouts:只对部分轨迹进行 rollout,提高长上下文 RL 的效率。
  • Length penalty:直接对推理长度施加惩罚,控制输出长度。
  • Curriculum / prioritized sampling:从简单到困难逐步训练,优先采样高价值数据。
  • Long2short 蒸馏:四种方法将长链推理能力压缩到短输出模式:
    1. Model merging:合并长/短推理模型的权重。
    2. Shortest rejection sampling:从长推理结果中选取最短的正确推理。
    3. DPO(Direct Preference Optimization):在短推理和长推理之间进行偏好优化。
    4. Long2short RL:专门训练短推理的 RL 策略。

来源:Kimi k1.5 强化学习规模化

Qwen3:四阶段推理训练 + 统一模式

  • 四阶段管线
    1. Long-CoT 冷启动 SFT。
    2. 推理 RL(对推理能力进行强化学习)。
    3. Thinking mode fusion(将思考和非思考两种模式融合到同一模型)。
    4. 通用 RL(对有用性和无害性进行对齐)。
  • 统一思考/非思考模式:不同于 DeepSeek-R1 的专用推理模型路线,Qwen3 在同一模型中支持两种模式切换。
  • Thinking budget:用户可限制推理 tokens 数量,控制推理深度。
  • Strong-to-weak distillation:用大 teacher 蒸馏小 student,而非 RL 直接训练小模型,与 R1 的蒸馏结论一致。

来源:Qwen3 技术报告

关键对比

维度DeepSeek-R1Kimi k1.5Qwen3
RL 算法GRPOOnline mirror descent推理 RL(未公开细节)
是否需 SFTR1-Zero 纯 RL / R1 需冷启动需要需要(四阶段)
上下文长度未强调128K未强调
推理模式专用推理模型Long2short 蒸馏统一双模式
蒸馏策略R1 蒸馏 6 个模型Long2short 四种方法Strong-to-weak
奖励类型规则奖励未详述(含 length penalty)未详述
涌现现象aha moment(自发反思)未报告类似现象未报告

RL 推理训练的关键挑战

1. 奖励设计

  • 规则奖励(R1) 简单有效但覆盖场景有限。
  • Neural reward model 容易 reward hacking。
  • RLVR(Kimi K2):基于可验证结果的奖励 + self-critique,扩展了奖励覆盖范围。

2. 训练稳定性

  • GRPO 的 unbiased KL、off-policy sequence masking 等技巧(V3.2)。
  • Online mirror descent 比 PPO 更稳定(k1.5)。

3. 推理长度控制

  • Kimi: length penalty + long2short。
  • Qwen3: thinking budget。
  • R1: 依赖格式奖励间接控制。

4. 泛化性

  • R1-Zero 证明纯 RL 可激发推理(语言、数学等)。
  • Kimi k1.5 证明 RL 可扩展到多模态。
  • Qwen3 证明推理能力可以在 thinking/non-thinking 模式间切换。

共识与分歧

共识

  1. RL 比纯 SFT 更能提升推理能力(三家一致)。
  2. 推理由 RL 训练出的模型可以蒸馏到更小模型(R1 蒸馏、k1.5 long2short、Qwen3 strong-to-weak,三家一致)。
  3. 规则奖励优于 neural reward model(至少 R1 和 K2 的 RLVR 方向一致)。

分歧

  1. 是否需要冷启动 SFT:R1-Zero 不需要,R1 和 k1.5 需要。
  2. 专用推理模型 vs 统一模式:R1 走专用路线,Qwen3 走统一路线。
  3. RL 算法选择:GRPO vs online mirror descent vs 未公开具体算法。

开放问题

  1. 纯 RL 推理涌现(R1-Zero)是否可复现?k1.5 未报告类似现象。
  2. 哪种 RL 算法在推理任务上最优?目前缺乏横向比较。
  3. 推理能力是否可以无限扩展(更多 RL 训练),还是存在上限?

深度分析:推理模型是否让提示工程过时了?

1. 提示工程时代的终结(对前沿模型而言)

DeepSeek-R1 和 o3 证明了推理能力可以训练到模型内部,推理时不需要 CoT 提示。对于前沿模型(DeepSeek-R1, o3, Qwen3-235B),「let’s think step by step」确实过时了——模型自己会思考。但对小模型(<7B),提示工程仍然是唯一可行的推理增强手段——它们没有资源做大规模 RL 推理训练。提示工程不会完全消亡,只是从「前沿模型的必需品」变成了「小模型的补丁」。

2. 「aha moment」的本质被过度浪漫化了

R1-Zero 的涌现现象——模型在训练中自发学会反思和修正——被部分媒体和社区过度渲染。「模型突然有了自我意识」式的叙事忽略了更朴素的技术解释:GRPO 在训练中给「正确且推理充分的长输出」更高奖励,模型自然会学会多写几步来探索答案空间。从 RL 的角度看,模型学到的是一个搜索策略(多试几种路径再给答案),而非某种神秘的「觉醒」。aha moment 更多是 RL 训练的必然统计结果,而非神秘涌现。

3. 为什么三个团队都避开了 MCTS?

R1 明确记录了 MCTS 的失败——在 token 级别的搜索空间太大,无法有效收敛。但 MCTS 在围棋(AlphaGo)中极其成功。区别在于问题结构:围棋的状态-动作空间是有限且严格结构化的(棋盘格子、合法落子),语言 token 的搜索空间是无限且完全非结构化的。MCTS 依赖有效的 rollout 来估计节点价值,但在语言空间中,一个 token 选择的不同可能导致完全不同的后续轨迹,rollout 的方差大得不可用。MCTS 的失败不是「方法不好」,而是「问题特性不匹配」——这是一个被低估的方法论教训。

4. 蒸馏 vs 直接 RL:被三家独立验证的结论

R1(蒸馏 > 直接 RL)、k1.5(long2short)、Qwen3(strong-to-weak distillation)——三家独立团队、不同技术路线,得出完全相同的结论:大模型学到的推理模式可以有效传递给小模型,且效果优于小模型直接从零做 RL。这个三重验证的结论告诉我们一个重要事实:推理能力主要是一种「模式」(可以被蒸馏传递),而非一种「技巧」(需要每个模型自己练)。这类似于人类学习中「读优秀论文比从零摸索更高效」的道理。

5. 推理能力的上限在哪里?

如果给 R1-Zero 10 倍的 RL 训练量,推理能力是否继续提升?还是像预训练的 scaling law 一样存在递减?这个问题目前没有答案。Chinchilla 的 scaling law 花了 400+ 个模型实验才得到——推理的 scaling law 可能在下一个版本出现。但有一点可以预测:推理能力的提升不会无限。当模型已经能对大多数问题给出正确的推理路径时,额外 RL 训练的价值可能转向推理效率(同样正确但更短)而非推理正确率。

6. 推理模型的对齐挑战

推理模型的思维链完全在模型内部,用户看不到。这意味着传统的对齐方法(基于最终输出的奖励)无法触及推理过程。如果模型在不可见的推理链中使用了有偏见的推理方式(例如性别或种族刻板印象推理),现有的 RLHF/DPO 框架无法纠正。这是推理模型带来的全新安全挑战,目前任何一家的技术报告都未充分讨论。