知识蒸馏

定义

知识蒸馏（Knowledge Distillation） 是 Hinton et al. 于 2015 年提出的模型压缩技术，核心思想是用大模型（Teacher）的”软标签”或中间表示来训练小模型（Student），使小模型获得接近大模型的性能。

但在 LLM 时代（尤其是 2024-2025 推理模型时代），知识蒸馏的作用已经远超模型压缩的范畴——它成为了推理能力迁移、模型对齐和开源生态建设的核心工具。

基本原理

经典形式（Hinton 2015）

Teacher（大模型）对输入 x 产生软标签（概率分布）：q = softmax(z_T / T)
Student（小模型）学习匹配这个软标签分布
温度 T 控制分布的”软度”：T 越大，分布越平滑，传递的信息越多（类别间相似性）
Loss = KL(q_T || p_S)（学生分布匹配教师分布的 KL 散度）

为什么软标签有效

硬标签（one-hot）只传递正确的类别信息
软标签传递了类别间的相似结构（如”猫”和”狗”比”猫”和”汽车”更相似）
这种结构信息携带了 teacher 模型的泛化知识

LLM 时代的知识蒸馏

SFT 蒸馏（输出层面）

Teacher 对大量 prompt 生成回答
Student 在这些 (prompt, answer) 对上做监督微调
本质是”行为克隆”——学的是”说什么”，不是”怎么想”

推理蒸馏（CoT 层面）—— 2024-2025 的关键创新

DeepSeek-R1 的蒸馏实践改变了行业对蒸馏的理解：

从 R1 蒸馏出推理模型：用 R1 的完整 CoT 推理链作为训练数据，蒸馏出 1.5B/7B/8B/14B/32B/70B 六个模型
关键发现：
- 蒸馏的 R1-Distill-Qwen-7B 在数学推理上超越了直接 RL 训练的更大模型
- 蒸馏比直接在小模型上做 RL 更有效（同样计算预算下）
- 蒸馏可以传递推理模式，而不仅仅是知识

Long2Short 蒸馏（Kimi k1.5）

Kimi k1.5 提出的四种蒸馏方法：

Model Merging：长 CoT 模型和短 CoT 模型的权重融合
最短拒绝采样：从长 CoT 模型采样多条回答，选最短的正确回答作为训练数据
DPO 蒸馏：用长 CoT 作为 preferred、短 CoT 作为 rejected 进行偏好优化
长度惩罚 RL：在 RL 训练中加入生成长度的惩罚项

蒸馏 vs 直接 RL 的对比

维度	蒸馏	直接 RL
实现难度	低（SFT pipeline）	高（RL 训练 + reward 设计）
推理质量	高（吸收 teacher 的推理模式）	上限更高（探索新推理模式）
计算成本	中（teacher 推理 + student SFT）	高（多轮在线训练）
多样性	受限（受 teacher 行为约束）	高（RL 探索）
适用场景	快速获得推理能力	突破性能上限

蒸馏的战略意义

开源生态的推理能力分发

DeepSeek-R1 的蒸馏模型（1.5B-70B）让开源社区获得了：

强大的推理能力（不需要自己训练推理模型）
多样的规模选择（从移动端到服务器）
白盒模型（可以继续微调）

这改变了”推理能力=闭源+大模型”的格局。

“先做大再做小”的逆向效率

传统思路是”直接训练目标规模的模型”。但 DeepSeek 的经验表明：

做大模型（671B）获取推理能力（通过 RL）
蒸馏到小模型（7B/14B）保留推理能力
总成本（大 RL + 蒸馏） < 直接在小模型上 RL

这是对传统 scaling law 的一个有趣补充：模型能力获取和模型能力部署可以解耦。

蒸馏的局限和风险

天花板效应：蒸馏模型无法超越 teacher 的能力上限
模式坍缩：student 可能只学会 teacher 的常见推理模式，缺乏鲁棒性
错误传播：teacher 的系统性错误会通过蒸馏放大
推理长度不可控：蒸馏后模型可能继承了 teacher 的冗长推理风格

与已有 Wiki 的连接

关联概念：推理模型与强化学习、GRPO 分组相对策略优化、DPO 直接偏好优化、Scaling Laws
关联实体：DeepSeek 系列模型（R1 蒸馏实践）、Kimi 系列模型（long2short）
所在主题：大语言模型基础、推理增强方法

深度分析

蒸馏在推理时代的角色转换

传统知识蒸馏是”压缩”——在固定任务/数据集上，用更小的模型逼近更大的模型。但 LLM 推理时代的蒸馏变成了 “能力迁移”——将 teacher 在开放式任务（数学、编程、推理）上通过 RL 获得的 emergent 能力传递给学生。

这个角色转换的意义在于：蒸馏不再是”无可奈何的妥协”（因为部署不了大模型），而是”精明的策略选择”（因为蒸馏可能比直接训练更高效）。

“蒸馏 > RL”的悖论

DeepSeek-R1 技术报告中最反直觉的发现是：对 7B 级别的模型，用 R1 数据蒸馏得到的推理能力，优于在 7B 模型上直接做 GRPO RL。这个发现如果成立（需要更多独立验证），将彻底改变”大模型能力如何进入小模型”的策略：

传统路径：收集数据 → 训练小模型 → 不停改进
新路径：训练大模型（烧钱获取能力）→ 蒸馏（便宜部署能力）

它暗示了一个”能力集中化”的产业趋势：只有极少数团队有能力做推理 RL 训练，但所有人都能从蒸馏结果受益。

Blog1

探索

知识蒸馏

知识蒸馏

定义

基本原理

经典形式（Hinton 2015）

为什么软标签有效

LLM 时代的知识蒸馏

SFT 蒸馏（输出层面）

推理蒸馏（CoT 层面）—— 2024-2025 的关键创新

Long2Short 蒸馏（Kimi k1.5）

蒸馏 vs 直接 RL 的对比

蒸馏的战略意义

开源生态的推理能力分发

“先做大再做小”的逆向效率

蒸馏的局限和风险

与已有 Wiki 的连接

深度分析

蒸馏在推理时代的角色转换

“蒸馏 > RL”的悖论

关系图谱

目录

反向链接