知识蒸馏
定义
知识蒸馏(Knowledge Distillation) 是 Hinton et al. 于 2015 年提出的模型压缩技术,核心思想是用大模型(Teacher)的”软标签”或中间表示来训练小模型(Student),使小模型获得接近大模型的性能。
但在 LLM 时代(尤其是 2024-2025 推理模型时代),知识蒸馏的作用已经远超模型压缩的范畴——它成为了推理能力迁移、模型对齐和开源生态建设的核心工具。
基本原理
经典形式(Hinton 2015)
- Teacher(大模型)对输入 x 产生软标签(概率分布):
q = softmax(z_T / T) - Student(小模型)学习匹配这个软标签分布
- 温度 T 控制分布的”软度”:T 越大,分布越平滑,传递的信息越多(类别间相似性)
- Loss =
KL(q_T || p_S)(学生分布匹配教师分布的 KL 散度)
为什么软标签有效
- 硬标签(one-hot)只传递正确的类别信息
- 软标签传递了类别间的相似结构(如”猫”和”狗”比”猫”和”汽车”更相似)
- 这种结构信息携带了 teacher 模型的泛化知识
LLM 时代的知识蒸馏
SFT 蒸馏(输出层面)
- Teacher 对大量 prompt 生成回答
- Student 在这些 (prompt, answer) 对上做监督微调
- 本质是”行为克隆”——学的是”说什么”,不是”怎么想”
推理蒸馏(CoT 层面)—— 2024-2025 的关键创新
DeepSeek-R1 的蒸馏实践改变了行业对蒸馏的理解:
- 从 R1 蒸馏出推理模型:用 R1 的完整 CoT 推理链作为训练数据,蒸馏出 1.5B/7B/8B/14B/32B/70B 六个模型
- 关键发现:
- 蒸馏的 R1-Distill-Qwen-7B 在数学推理上超越了直接 RL 训练的更大模型
- 蒸馏比直接在小模型上做 RL 更有效(同样计算预算下)
- 蒸馏可以传递推理模式,而不仅仅是知识
Long2Short 蒸馏(Kimi k1.5)
Kimi k1.5 提出的四种蒸馏方法:
- Model Merging:长 CoT 模型和短 CoT 模型的权重融合
- 最短拒绝采样:从长 CoT 模型采样多条回答,选最短的正确回答作为训练数据
- DPO 蒸馏:用长 CoT 作为 preferred、短 CoT 作为 rejected 进行偏好优化
- 长度惩罚 RL:在 RL 训练中加入生成长度的惩罚项
蒸馏 vs 直接 RL 的对比
| 维度 | 蒸馏 | 直接 RL |
|---|---|---|
| 实现难度 | 低(SFT pipeline) | 高(RL 训练 + reward 设计) |
| 推理质量 | 高(吸收 teacher 的推理模式) | 上限更高(探索新推理模式) |
| 计算成本 | 中(teacher 推理 + student SFT) | 高(多轮在线训练) |
| 多样性 | 受限(受 teacher 行为约束) | 高(RL 探索) |
| 适用场景 | 快速获得推理能力 | 突破性能上限 |
蒸馏的战略意义
开源生态的推理能力分发
DeepSeek-R1 的蒸馏模型(1.5B-70B)让开源社区获得了:
- 强大的推理能力(不需要自己训练推理模型)
- 多样的规模选择(从移动端到服务器)
- 白盒模型(可以继续微调)
这改变了”推理能力=闭源+大模型”的格局。
“先做大再做小”的逆向效率
传统思路是”直接训练目标规模的模型”。但 DeepSeek 的经验表明:
- 做大模型(671B)获取推理能力(通过 RL)
- 蒸馏到小模型(7B/14B)保留推理能力
- 总成本(大 RL + 蒸馏) < 直接在小模型上 RL
这是对传统 scaling law 的一个有趣补充:模型能力获取和模型能力部署可以解耦。
蒸馏的局限和风险
- 天花板效应:蒸馏模型无法超越 teacher 的能力上限
- 模式坍缩:student 可能只学会 teacher 的常见推理模式,缺乏鲁棒性
- 错误传播:teacher 的系统性错误会通过蒸馏放大
- 推理长度不可控:蒸馏后模型可能继承了 teacher 的冗长推理风格
与已有 Wiki 的连接
- 关联概念:推理模型与强化学习、GRPO 分组相对策略优化、DPO 直接偏好优化、Scaling Laws
- 关联实体:DeepSeek 系列模型(R1 蒸馏实践)、Kimi 系列模型(long2short)
- 所在主题:大语言模型基础、推理增强方法
深度分析
蒸馏在推理时代的角色转换
传统知识蒸馏是”压缩”——在固定任务/数据集上,用更小的模型逼近更大的模型。但 LLM 推理时代的蒸馏变成了 “能力迁移”——将 teacher 在开放式任务(数学、编程、推理)上通过 RL 获得的 emergent 能力传递给学生。
这个角色转换的意义在于:蒸馏不再是”无可奈何的妥协”(因为部署不了大模型),而是”精明的策略选择”(因为蒸馏可能比直接训练更高效)。
“蒸馏 > RL”的悖论
DeepSeek-R1 技术报告中最反直觉的发现是:对 7B 级别的模型,用 R1 数据蒸馏得到的推理能力,优于在 7B 模型上直接做 GRPO RL。这个发现如果成立(需要更多独立验证),将彻底改变”大模型能力如何进入小模型”的策略:
- 传统路径:收集数据 → 训练小模型 → 不停改进
- 新路径:训练大模型(烧钱获取能力)→ 蒸馏(便宜部署能力)
它暗示了一个”能力集中化”的产业趋势:只有极少数团队有能力做推理 RL 训练,但所有人都能从蒸馏结果受益。