RLHF(Reinforcement Learning from Human Feedback)
定义
RLHF(人类反馈强化学习)是一种通过人类偏好反馈来训练语言模型的方法,使模型输出更符合人类意图——更有用、更真实、更安全。来源:InstructGPT (OpenAI, 2022)
为什么需要 RLHF?
- 更大的语言模型并不会自动更「有用」——GPT-3 175B 可能输出不真实、有害或不符合用户意图的内容
- 预训练目标(next-token prediction)与「有用、真实、安全」的人类期望之间存在不对齐(misalignment)
- RLHF 提供了一种系统性的方式将人类偏好注入模型行为
核心流程(经典三阶段)
阶段 1:Supervised Fine-Tuning (SFT)
- 收集人类标注者撰写的 prompt-response 对(高质量示范数据)
- 在预训练模型上做监督微调
- 产出 SFT 模型,初步具备遵循指令的能力
阶段 2:Reward Model (RM) 训练
- 对同一个 prompt 生成 K 个不同的模型输出
- 人类标注者对这些输出进行排序(更容易和可靠)而非打分
- 训练一个奖励模型(通常 6B 左右)来预测人类偏好排序
- RM 将输出映射为一个标量奖励值
阶段 3:RL 微调(PPO)
- 使用 Proximal Policy Optimization (PPO) 算法
- 优化目标:最大化 RM 给予的奖励 + KL 散度惩罚(防止偏离 SFT 模型太远)
- 最终得到 RLHF 对齐的模型(如 InstructGPT)
InstructGPT 的关键发现
- 1.3B 的 InstructGPT 在人类评估中优于 175B 的原始 GPT-3
- 有害输出减少约 25%(在 RealToxicityPrompts 上)
- 在 TruthfulQA 上事实性显著提升
- 但 RLHF 本身不是「事实性」的来源——更大模型基线已经更真实,PPO 主要改善对齐
RLHF 的演进与变体
DPO (Direct Preference Optimization, 2023)
- 来源:Llama 3
- 直接使用偏好数据优化策略,跳过奖励模型和 PPO 阶段
- 更简单、更稳定,Llama 3 采用了 DPO 而非 RLHF
- 优势:不需要显式训练和维护奖励模型
RLAIF (RL from AI Feedback)
- 使用另一个 LLM 代替人类标注者提供偏好信号(如 Constitutional AI)
- 降低人工标注成本,但可能引入 AI 自身的偏见
其他变体
- Rejection Sampling(Llama 3):从多个生成结果中选择奖励最高者
- RAPO(Aes-R1):相对-绝对策略优化,用于审美推理
RLHF 的挑战
- 奖励 hacking:模型学会利用 RM 的弱点获取高奖励,而非真正改善质量
- 谄媚倾向(sycophancy):模型偏好给标注者喜欢的答案,而非正确的
- 标注偏差:不同文化背景的标注者偏好不同
- 可扩展性:高质量人工偏好标注昂贵且难以规模扩大
- 过度对齐:模型可能变得过于保守,拒绝回答合法问题
相关页面
深度分析:RLHF 的时代正在过去?
1. DPO 正在取代 PPO——不是因为效果更好,而是因为够简单
Llama 3 选择了 DPO 而非经典 RLHF(PPO)。这个选择背后的逻辑不是 DPO 效果更好(两者的最终效果接近),而是 DPO 更简单——不需要训练和维护一个 Reward Model,不需要 PPO 的复杂调参(KL 系数、clipping 范围、value function 的学习率等)。在工业界,「够好 + 简单」几乎总是胜过「更好一点 + 极其复杂」。RLHF 的工程复杂度是它被 DPO 取代的首要原因。
2. RLHF 解决的是「对齐」问题,不是「能力」问题
InstructGPT 的 1.3B 超过 GPT-3 175B——这是一个惊人的结果,但需要仔细解读。这不意味着 RLHF 让模型变聪明了(知识、推理能力),而是让它不再胡说八道——输出更有用、更安全、更符合人类期望。RLHF 是「安全帽」,不是「引擎」。把 RLHF 看作是能力的来源是常见误解。
3. 推理时代的对齐挑战是全新的
DeepSeek-R1 的推理链完全在模型内部,用户看不到。这意味着传统的 RLHF(基于最终输出的奖励)无法触及推理过程。如果模型在不可见的推理链中学到了有偏见的推理方式(例如用种族刻板印象推理犯罪率),RLHF 无法纠正——因为它只看到最终答案。这是推理模型带来的全新对齐难题,目前任何团队都没有给出系统性解决方案。
4. RLHF 的隐式代价:过度对齐
InstructGPT 使有害输出减少约 25%,但同时模型也变得更「谄媚」(sycophancy)——愿意顺着用户的预设走,即使问题本身有误。过度对齐(over-alignment)正在成为一个真实问题:模型变得「太安全」,拒绝回答完全合法的问题(如医学、法律、安全研究相关查询)。Llama 3 在安全训练上选择「轻度处理」正是对此的回应——宁愿保留一些风险,也不让模型变得过度保守。过度对齐可能比对齐不足更难解决,因为一旦模型学会了「拒绝」,就很难让它重新学会「判断」。
5. 下一个范式是什么?
DPO 简化了 RLHF 的工程复杂度,但没有解决根本问题——基于人类偏好的优化本质上是教模型「讨好人」而非「求真」。无论是人类标注者的偏好(RLHF)、AI 的偏好(RLAIF)、还是宪法规则(Constitutional AI),都只是把「讨好谁」换成了「遵守谁的规则」。「真正求真」的对齐——让模型的输出与客观事实而非主观偏好对齐——可能是一个与 RLHF 框架完全不同的方向。推理模型的自验证能力(self-verification, self-critique)或许指向了这条路:用模型自己的推理能力来验证自己的输出,而非依赖外部偏好信号。