Training language models to follow instructions (InstructGPT)
Ouyang et al.
RLHF 的奠基工作——SFT + Reward Model + PPO 的三阶段对齐框架,直接催生了 ChatGPT。
arXiv:2203.02155#rlhf#alignment#sft#ppo#foundational
核心贡献
- 01三阶段 RLHF:SFT → Reward Model 训练 → PPO 强化学习
- 02人类标注偏好数据作为对齐信号
- 031.3B 的 InstructGPT 在人类评估中胜过 175B 的 GPT-3
- 04首次系统讨论 LLM 对齐的 Alignment Tax(性能权衡)
- 05ChatGPT 的技术前身
三阶段框架
阶段 1:SFT(Supervised Fine-Tuning)
用高质量的人类演示数据(prompt + 理想回答)微调基础模型。这让模型学会基本的指令跟随格式。
阶段 2:Reward Model 训练
- 同一个 prompt 让模型生成 K 个回答(K=4~9)
- 标注员对 K 个回答按偏好排序
- 训练一个 Reward Model(通常从
SFT模型初始化,改分类头) - 损失函数:
即 Bradley-Terry 偏好模型
阶段 3:PPO 强化学习
用 RM 作为 reward signal,用 PPO 优化 SFT 模型:
KL 惩罚项防止模型偏离 SFT 初始策略太远(避免 reward hacking)。
关键结果
1.3B 的 InstructGPT 在 "helpful" 和 "harmless" 维度上都胜过 175B 的原版 GPT-3。对齐带来的价值远超单纯扩大参数。
面试考点
三阶段里每一阶段的目标和挑战:
SFT:teach format(能听指令)- RM:learn preference(什么是好回答)
PPO:optimize towards preference(持续改进)
为什么 PPO 需要 KL 惩罚? 没有 KL,模型会 exploit RM 漏洞(reward hacking)——生成看似高分但实际低质的回答。KL 把行为锚定在 SFT 附近。
RM 如何训练? Bradley-Terry 偏好对损失;为什么不直接训练 regression 输出分数?因为绝对评分主观不稳定,相对偏好更可靠。
Alignment Tax:RLHF 后模型在某些公开 benchmark(如 MMLU)上会略降。权衡:helpfulness vs capability。
后续演进:
- Anthropic Constitutional AI(用 AI 替代部分人工反馈)
DPO(跳过 RM,直接从偏好数据优化)GRPO(DeepSeek,去掉 critic 的 online RL)