知识蒸馏

定义

知识蒸馏(Knowledge Distillation) 是 Hinton et al. 于 2015 年提出的模型压缩技术,核心思想是用大模型(Teacher)的”软标签”或中间表示来训练小模型(Student),使小模型获得接近大模型的性能。

但在 LLM 时代(尤其是 2024-2025 推理模型时代),知识蒸馏的作用已经远超模型压缩的范畴——它成为了推理能力迁移、模型对齐和开源生态建设的核心工具。

基本原理

经典形式(Hinton 2015)

  • Teacher(大模型)对输入 x 产生软标签(概率分布):q = softmax(z_T / T)
  • Student(小模型)学习匹配这个软标签分布
  • 温度 T 控制分布的”软度”:T 越大,分布越平滑,传递的信息越多(类别间相似性)
  • Loss = KL(q_T || p_S)(学生分布匹配教师分布的 KL 散度)

为什么软标签有效

  • 硬标签(one-hot)只传递正确的类别信息
  • 软标签传递了类别间的相似结构(如”猫”和”狗”比”猫”和”汽车”更相似)
  • 这种结构信息携带了 teacher 模型的泛化知识

LLM 时代的知识蒸馏

SFT 蒸馏(输出层面)

  • Teacher 对大量 prompt 生成回答
  • Student 在这些 (prompt, answer) 对上做监督微调
  • 本质是”行为克隆”——学的是”说什么”,不是”怎么想”

推理蒸馏(CoT 层面)—— 2024-2025 的关键创新

DeepSeek-R1 的蒸馏实践改变了行业对蒸馏的理解:

  1. 从 R1 蒸馏出推理模型:用 R1 的完整 CoT 推理链作为训练数据,蒸馏出 1.5B/7B/8B/14B/32B/70B 六个模型
  2. 关键发现
    • 蒸馏的 R1-Distill-Qwen-7B 在数学推理上超越了直接 RL 训练的更大模型
    • 蒸馏比直接在小模型上做 RL 更有效(同样计算预算下)
    • 蒸馏可以传递推理模式,而不仅仅是知识

Long2Short 蒸馏(Kimi k1.5)

Kimi k1.5 提出的四种蒸馏方法:

  1. Model Merging:长 CoT 模型和短 CoT 模型的权重融合
  2. 最短拒绝采样:从长 CoT 模型采样多条回答,选最短的正确回答作为训练数据
  3. DPO 蒸馏:用长 CoT 作为 preferred、短 CoT 作为 rejected 进行偏好优化
  4. 长度惩罚 RL:在 RL 训练中加入生成长度的惩罚项

蒸馏 vs 直接 RL 的对比

维度蒸馏直接 RL
实现难度低(SFT pipeline)高(RL 训练 + reward 设计)
推理质量高(吸收 teacher 的推理模式)上限更高(探索新推理模式)
计算成本中(teacher 推理 + student SFT)高(多轮在线训练)
多样性受限(受 teacher 行为约束)高(RL 探索)
适用场景快速获得推理能力突破性能上限

蒸馏的战略意义

开源生态的推理能力分发

DeepSeek-R1 的蒸馏模型(1.5B-70B)让开源社区获得了:

  • 强大的推理能力(不需要自己训练推理模型)
  • 多样的规模选择(从移动端到服务器)
  • 白盒模型(可以继续微调)

这改变了”推理能力=闭源+大模型”的格局。

“先做大再做小”的逆向效率

传统思路是”直接训练目标规模的模型”。但 DeepSeek 的经验表明:

  1. 做大模型(671B)获取推理能力(通过 RL)
  2. 蒸馏到小模型(7B/14B)保留推理能力
  3. 总成本(大 RL + 蒸馏) < 直接在小模型上 RL

这是对传统 scaling law 的一个有趣补充:模型能力获取和模型能力部署可以解耦

蒸馏的局限和风险

  1. 天花板效应:蒸馏模型无法超越 teacher 的能力上限
  2. 模式坍缩:student 可能只学会 teacher 的常见推理模式,缺乏鲁棒性
  3. 错误传播:teacher 的系统性错误会通过蒸馏放大
  4. 推理长度不可控:蒸馏后模型可能继承了 teacher 的冗长推理风格

与已有 Wiki 的连接

深度分析

蒸馏在推理时代的角色转换

传统知识蒸馏是”压缩”——在固定任务/数据集上,用更小的模型逼近更大的模型。但 LLM 推理时代的蒸馏变成了 “能力迁移”——将 teacher 在开放式任务(数学、编程、推理)上通过 RL 获得的 emergent 能力传递给学生。

这个角色转换的意义在于:蒸馏不再是”无可奈何的妥协”(因为部署不了大模型),而是”精明的策略选择”(因为蒸馏可能比直接训练更高效)。

“蒸馏 > RL”的悖论

DeepSeek-R1 技术报告中最反直觉的发现是:对 7B 级别的模型,用 R1 数据蒸馏得到的推理能力,优于在 7B 模型上直接做 GRPO RL。这个发现如果成立(需要更多独立验证),将彻底改变”大模型能力如何进入小模型”的策略:

  • 传统路径:收集数据 → 训练小模型 → 不停改进
  • 新路径:训练大模型(烧钱获取能力)→ 蒸馏(便宜部署能力)

它暗示了一个”能力集中化”的产业趋势:只有极少数团队有能力做推理 RL 训练,但所有人都能从蒸馏结果受益。