知识蒸馏 vs RL:哪种方式更能有效获得推理能力?
问题背景
DeepSeek-R1 技术报告中最引人注目的发现之一是:用 R1 的数据蒸馏小模型,在某些情况下比直接在小模型上做 RL 训练效果更好。
这引发了一个根本性问题:如果蒸馏更便宜且效果更好,为什么还要在小模型上做 RL?推理能力的获取路径到底是什么?
双方证据
蒸馏的优势(DeepSeek-R1 的证据)
- 直接效果更好:R1-Distill-Qwen-7B 在 AIME 2024 上达到 55.5%,超越了直接 RL 训练的 32B 级别模型
- 成本更低:蒸馏是 SFT pipeline(teacher 推理 + student SFT),不需要 RL 训练循环
- 更稳定:蒸馏没有 RL 训练的不稳定性(reward hacking, 分布坍缩等)
- 能传递隐性知识:teacher 的 CoT 推理链包含了许多隐性推理模式,直接被 student 学习
RL 的优势(推理模型的核心逻辑)
- 上限更高:RL 可以探索 teacher 没有的推理模式,蒸馏受限于 teacher 的能力天花板
- 可以自我改进:RL + self-play 可以持续提升(如 AlphaGo 的自我对弈)
- 不依赖 teacher:RL 完全从零获取推理能力(R1-Zero 没有 SFT,纯 RL 涌现推理)
- 可定制性:RL reward 设计可以引导特定风格的推理
深入分析
为什么蒸馏在 7B 规模上更好?
目前最合理的解释是:
- RL 在小模型上的探索能力不足:7B 模型的能力本身有限,RL 提供的探索空间不够丰富,模型难以在巨大的动作空间中发现有效的推理策略
- Teacher 已经做了探索:R1 的 671B RL 训练已经探索了有效的推理模式,蒸馏直接传递这些发现
- 隐性课程学习:Teacher 的 CoT 链天然形成了一个从简单到复杂的课程——先简单推理再逐步复杂,这比随机初始化的 RL 探索更高效
在什么情况下 RL 会超过蒸馏?
预测以下情况 RL 会占据优势:
- Student 模型足够大(如 70B+):有足够的探索能力,RL 可以发现 teacher 没有的推理策略
- 任务多样性极高:teacher 无法覆盖所有推理模式时,RL 探索的价值更大
- 多轮迭代训练:RL→蒸馏→RL→蒸馏 的循环可以持续突破天花板
- 领域特定推理:如代码、医疗、法律等需要专用推理模式的领域
策略建议
当前最优方案:分层策略
第一层:在大模型上做 RL(671B GRPO)→ 获取能力上限
第二层:蒸馏到中等模型(32B-70B)→ 保留核心能力
第三层:在蒸馏模型上做轻量 RL → 适应性调优
第四层:蒸馏到小模型(1.5B-14B)→ 部署部署
这可以看作是一个”think big, distill smart, deploy small”的范式。
不要问”哪个更好”,问”在什么规模下哪个更好”
| 模型规模 | 推荐方法 | 理由 |
|---|---|---|
| 1B-8B | 蒸馏 | RL 探索空间不够 |
| 8B-32B | 蒸馏 + 轻量 RL | 蒸馏获取基础,RL 调优 |
| 32B-70B | RL + 蒸馏 | RL 能力足够,蒸馏压缩 |
| 70B+ | 纯 RL | 直接探索获取最强能力 |
悬而未决的问题
- 蒸馏传递的到底是什么?是推理模式、知识还是两者?目前缺乏细致的研究
- 蒸馏模型是否能继续 RL 提升?如果蒸馏已经到了 teacher 水平,RL 是否还能找到新的改进空间?
- 多次蒸馏的效果衰减?teacher→student1→student2 的链式蒸馏会不会累积错误?
- 跨模型家族的蒸馏?R1→Qwen→DeepSeek,不同架构之间蒸馏的鲁棒性如何?
与已有 Wiki 的连接
- 关联概念:知识蒸馏、GRPO 分组相对策略优化、推理模型与强化学习、Scaling Laws
- 关联实体:DeepSeek 系列模型
- 关联比较:推理增强方法比较