推理模型与强化学习

定义

推理模型（Reasoning Model）指具备显式思维链（Chain-of-Thought）推理能力的语言模型。与标准 LLM 不同，推理模型在输出最终答案前会生成详细的多步推理过程。强化学习（RL）已成为训练推理模型的核心方法，取代了早期单纯依赖 SFT（监督微调）的范式。

核心方法对比：三家的 RL 推理方案

DeepSeek-R1：纯 RL 推理涌现

R1-Zero：完全无 SFT 的纯 RL 实验，仅用 GRPO（Group Relative Policy Optimization）+ 规则奖励。
关键发现：模型在 RL 训练中自发涌现推理行为——“aha moment”，无需人工示范。
奖励设计：
- 准确率奖励（数学结果是否正确）。
- 格式奖励（是否遵循 think -> answer 格式）。
- 不使用 neural reward model（避免 reward hacking）。
完整 R1：四阶段管线——冷启动 SFT → 推理 RL → 拒绝采样 SFT → 全场景 RL。
蒸馏优于 RL：从 R1 蒸馏的小模型（1.5B-70B）效果优于直接在小型基座模型上做 RL，说明 R1 学到的高质量推理模式可以通过蒸馏传递。
失败尝试：
- PRM（过程奖励模型）：存在 reward hacking，每一步的奖励评估难以自动标注。
- MCTS（蒙特卡洛树搜索）：在 token 级别搜索空间过大，收敛困难。

来源：DeepSeek-R1 强化学习推理

Kimi k1.5：长上下文 RL + Long2short

长上下文 RL（128K）：将 RL 训练上下文从常规的几 K 扩展到 128K tokens，支持多轮长链推理轨迹。
策略优化：采用 online mirror descent，相较于 PPO 更稳定。
Partial rollouts：只对部分轨迹进行 rollout，提高长上下文 RL 的效率。
Length penalty：直接对推理长度施加惩罚，控制输出长度。
Curriculum / prioritized sampling：从简单到困难逐步训练，优先采样高价值数据。
Long2short 蒸馏：四种方法将长链推理能力压缩到短输出模式：
1. Model merging：合并长/短推理模型的权重。
2. Shortest rejection sampling：从长推理结果中选取最短的正确推理。
3. DPO（Direct Preference Optimization）：在短推理和长推理之间进行偏好优化。
4. Long2short RL：专门训练短推理的 RL 策略。

来源：Kimi k1.5 强化学习规模化

Qwen3：四阶段推理训练 + 统一模式

四阶段管线：
1. Long-CoT 冷启动 SFT。
2. 推理 RL（对推理能力进行强化学习）。
3. Thinking mode fusion（将思考和非思考两种模式融合到同一模型）。
4. 通用 RL（对有用性和无害性进行对齐）。
统一思考/非思考模式：不同于 DeepSeek-R1 的专用推理模型路线，Qwen3 在同一模型中支持两种模式切换。
Thinking budget：用户可限制推理 tokens 数量，控制推理深度。
Strong-to-weak distillation：用大 teacher 蒸馏小 student，而非 RL 直接训练小模型，与 R1 的蒸馏结论一致。

来源：Qwen3 技术报告

关键对比

维度	DeepSeek-R1	Kimi k1.5	Qwen3
RL 算法	GRPO	Online mirror descent	推理 RL（未公开细节）
是否需 SFT	R1-Zero 纯 RL / R1 需冷启动	需要	需要（四阶段）
上下文长度	未强调	128K	未强调
推理模式	专用推理模型	Long2short 蒸馏	统一双模式
蒸馏策略	R1 蒸馏 6 个模型	Long2short 四种方法	Strong-to-weak
奖励类型	规则奖励	未详述（含 length penalty）	未详述
涌现现象	aha moment（自发反思）	未报告类似现象	未报告

RL 推理训练的关键挑战

1. 奖励设计

规则奖励（R1） 简单有效但覆盖场景有限。
Neural reward model 容易 reward hacking。
RLVR（Kimi K2）：基于可验证结果的奖励 + self-critique，扩展了奖励覆盖范围。

2. 训练稳定性

GRPO 的 unbiased KL、off-policy sequence masking 等技巧（V3.2）。
Online mirror descent 比 PPO 更稳定（k1.5）。

3. 推理长度控制

Kimi: length penalty + long2short。
Qwen3: thinking budget。
R1: 依赖格式奖励间接控制。

4. 泛化性

R1-Zero 证明纯 RL 可激发推理（语言、数学等）。
Kimi k1.5 证明 RL 可扩展到多模态。
Qwen3 证明推理能力可以在 thinking/non-thinking 模式间切换。

共识与分歧

共识

RL 比纯 SFT 更能提升推理能力（三家一致）。
推理由 RL 训练出的模型可以蒸馏到更小模型（R1 蒸馏、k1.5 long2short、Qwen3 strong-to-weak，三家一致）。
规则奖励优于 neural reward model（至少 R1 和 K2 的 RLVR 方向一致）。

分歧

是否需要冷启动 SFT：R1-Zero 不需要，R1 和 k1.5 需要。
专用推理模型 vs 统一模式：R1 走专用路线，Qwen3 走统一路线。
RL 算法选择：GRPO vs online mirror descent vs 未公开具体算法。

开放问题

纯 RL 推理涌现（R1-Zero）是否可复现？k1.5 未报告类似现象。
哪种 RL 算法在推理任务上最优？目前缺乏横向比较。
推理能力是否可以无限扩展（更多 RL 训练），还是存在上限？

深度分析：推理模型是否让提示工程过时了？

1. 提示工程时代的终结（对前沿模型而言）

DeepSeek-R1 和 o3 证明了推理能力可以训练到模型内部，推理时不需要 CoT 提示。对于前沿模型（DeepSeek-R1, o3, Qwen3-235B），「let’s think step by step」确实过时了——模型自己会思考。但对小模型（<7B），提示工程仍然是唯一可行的推理增强手段——它们没有资源做大规模 RL 推理训练。提示工程不会完全消亡，只是从「前沿模型的必需品」变成了「小模型的补丁」。

2. 「aha moment」的本质被过度浪漫化了

R1-Zero 的涌现现象——模型在训练中自发学会反思和修正——被部分媒体和社区过度渲染。「模型突然有了自我意识」式的叙事忽略了更朴素的技术解释：GRPO 在训练中给「正确且推理充分的长输出」更高奖励，模型自然会学会多写几步来探索答案空间。从 RL 的角度看，模型学到的是一个搜索策略（多试几种路径再给答案），而非某种神秘的「觉醒」。aha moment 更多是 RL 训练的必然统计结果，而非神秘涌现。

3. 为什么三个团队都避开了 MCTS？

R1 明确记录了 MCTS 的失败——在 token 级别的搜索空间太大，无法有效收敛。但 MCTS 在围棋（AlphaGo）中极其成功。区别在于问题结构：围棋的状态-动作空间是有限且严格结构化的（棋盘格子、合法落子），语言 token 的搜索空间是无限且完全非结构化的。MCTS 依赖有效的 rollout 来估计节点价值，但在语言空间中，一个 token 选择的不同可能导致完全不同的后续轨迹，rollout 的方差大得不可用。MCTS 的失败不是「方法不好」，而是「问题特性不匹配」——这是一个被低估的方法论教训。

4. 蒸馏 vs 直接 RL：被三家独立验证的结论

R1（蒸馏 > 直接 RL）、k1.5（long2short）、Qwen3（strong-to-weak distillation）——三家独立团队、不同技术路线，得出完全相同的结论：大模型学到的推理模式可以有效传递给小模型，且效果优于小模型直接从零做 RL。这个三重验证的结论告诉我们一个重要事实：推理能力主要是一种「模式」（可以被蒸馏传递），而非一种「技巧」（需要每个模型自己练）。这类似于人类学习中「读优秀论文比从零摸索更高效」的道理。

5. 推理能力的上限在哪里？

如果给 R1-Zero 10 倍的 RL 训练量，推理能力是否继续提升？还是像预训练的 scaling law 一样存在递减？这个问题目前没有答案。Chinchilla 的 scaling law 花了 400+ 个模型实验才得到——推理的 scaling law 可能在下一个版本出现。但有一点可以预测：推理能力的提升不会无限。当模型已经能对大多数问题给出正确的推理路径时，额外 RL 训练的价值可能转向推理效率（同样正确但更短）而非推理正确率。

6. 推理模型的对齐挑战

推理模型的思维链完全在模型内部，用户看不到。这意味着传统的对齐方法（基于最终输出的奖励）无法触及推理过程。如果模型在不可见的推理链中使用了有偏见的推理方式（例如性别或种族刻板印象推理），现有的 RLHF/DPO 框架无法纠正。这是推理模型带来的全新安全挑战，目前任何一家的技术报告都未充分讨论。

Blog1

探索

推理模型与强化学习

推理模型与强化学习

定义

核心方法对比：三家的 RL 推理方案

DeepSeek-R1：纯 RL 推理涌现

Kimi k1.5：长上下文 RL + Long2short

Qwen3：四阶段推理训练 + 统一模式

关键对比

RL 推理训练的关键挑战

1. 奖励设计

2. 训练稳定性

3. 推理长度控制

4. 泛化性

共识与分歧

共识

分歧

开放问题

深度分析：推理模型是否让提示工程过时了？

1. 提示工程时代的终结（对前沿模型而言）

2. 「aha moment」的本质被过度浪漫化了

3. 为什么三个团队都避开了 MCTS？

4. 蒸馏 vs 直接 RL：被三家独立验证的结论

5. 推理能力的上限在哪里？

6. 推理模型的对齐挑战

关系图谱

目录

反向链接