知识蒸馏 vs RL：哪种方式更能有效获得推理能力？

问题背景

DeepSeek-R1 技术报告中最引人注目的发现之一是：用 R1 的数据蒸馏小模型，在某些情况下比直接在小模型上做 RL 训练效果更好。

这引发了一个根本性问题：如果蒸馏更便宜且效果更好，为什么还要在小模型上做 RL？推理能力的获取路径到底是什么？

双方证据

蒸馏的优势（DeepSeek-R1 的证据）

直接效果更好：R1-Distill-Qwen-7B 在 AIME 2024 上达到 55.5%，超越了直接 RL 训练的 32B 级别模型
成本更低：蒸馏是 SFT pipeline（teacher 推理 + student SFT），不需要 RL 训练循环
更稳定：蒸馏没有 RL 训练的不稳定性（reward hacking, 分布坍缩等）
能传递隐性知识：teacher 的 CoT 推理链包含了许多隐性推理模式，直接被 student 学习

RL 的优势（推理模型的核心逻辑）

上限更高：RL 可以探索 teacher 没有的推理模式，蒸馏受限于 teacher 的能力天花板
可以自我改进：RL + self-play 可以持续提升（如 AlphaGo 的自我对弈）
不依赖 teacher：RL 完全从零获取推理能力（R1-Zero 没有 SFT，纯 RL 涌现推理）
可定制性：RL reward 设计可以引导特定风格的推理

深入分析

为什么蒸馏在 7B 规模上更好？

目前最合理的解释是：

RL 在小模型上的探索能力不足：7B 模型的能力本身有限，RL 提供的探索空间不够丰富，模型难以在巨大的动作空间中发现有效的推理策略
Teacher 已经做了探索：R1 的 671B RL 训练已经探索了有效的推理模式，蒸馏直接传递这些发现
隐性课程学习：Teacher 的 CoT 链天然形成了一个从简单到复杂的课程——先简单推理再逐步复杂，这比随机初始化的 RL 探索更高效

在什么情况下 RL 会超过蒸馏？

预测以下情况 RL 会占据优势：

Student 模型足够大（如 70B+）：有足够的探索能力，RL 可以发现 teacher 没有的推理策略
任务多样性极高：teacher 无法覆盖所有推理模式时，RL 探索的价值更大
多轮迭代训练：RL→蒸馏→RL→蒸馏的循环可以持续突破天花板
领域特定推理：如代码、医疗、法律等需要专用推理模式的领域

策略建议

当前最优方案：分层策略

第一层：在大模型上做 RL（671B GRPO）→ 获取能力上限
第二层：蒸馏到中等模型（32B-70B）→ 保留核心能力
第三层：在蒸馏模型上做轻量 RL → 适应性调优
第四层：蒸馏到小模型（1.5B-14B）→ 部署部署

这可以看作是一个”think big, distill smart, deploy small”的范式。

不要问”哪个更好”，问”在什么规模下哪个更好”

模型规模	推荐方法	理由
1B-8B	蒸馏	RL 探索空间不够
8B-32B	蒸馏 + 轻量 RL	蒸馏获取基础，RL 调优
32B-70B	RL + 蒸馏	RL 能力足够，蒸馏压缩
70B+	纯 RL	直接探索获取最强能力

悬而未决的问题

蒸馏传递的到底是什么？是推理模式、知识还是两者？目前缺乏细致的研究
蒸馏模型是否能继续 RL 提升？如果蒸馏已经到了 teacher 水平，RL 是否还能找到新的改进空间？
多次蒸馏的效果衰减？teacher→student1→student2 的链式蒸馏会不会累积错误？
跨模型家族的蒸馏？R1→Qwen→DeepSeek，不同架构之间蒸馏的鲁棒性如何？

与已有 Wiki 的连接

关联概念：知识蒸馏、GRPO 分组相对策略优化、推理模型与强化学习、Scaling Laws
关联实体：DeepSeek 系列模型
关联比较：推理增强方法比较