Training Language Models to Follow Instructions with Human Feedback (InstructGPT)

核心结论

更大的语言模型并不会自动更好地遵循用户意图；可能输出不真实、有害或无帮助的内容——即模型未与用户 对齐（aligned）。
提出了使用 RLHF（Reinforcement Learning from Human Feedback） 的方法来对齐 GPT-3，得到了 InstructGPT。
标注者明显偏好 InstructGPT 的输出（相较于 GPT-3），即使在 1.3B 小模型版本上也优于 175B 的 GPT-3。
InstructGPT 在实际性上有所提升，有害输出生成减少了约 25%（在 RealToxicityPrompts 上评估）。

三阶段对齐流程：
1. Supervised Fine-Tuning (SFT)：收集标注者撰写的高质量回答，微调 GPT-3。
2. Reward Model (RM) 训练：收集同一 prompt 的多条模型输出的人工排序，训练一个 6B 的奖励模型来预测人类偏好。
3. PPO 强化学习：用奖励模型作为奖励信号，通过 Proximal Policy Optimization（PPO）继续优化 SFT 模型。
训练数据来源：标注者编写的 prompts + OpenAI API 用户提交的真实 prompts。
在 TruthfulQA 上事实性显著提升，在 harmful 输出生成方面明显减少。