LLM2022· NeurIPS 2022· CLASSIC

Training language models to follow instructions (InstructGPT)

Ouyang et al.

RLHF 的奠基工作——SFT + Reward Model + PPO 的三阶段对齐框架,直接催生了 ChatGPT。

arXiv:2203.02155
#rlhf#alignment#sft#ppo#foundational

核心贡献

  • 01三阶段 RLHF:SFT → Reward Model 训练 → PPO 强化学习
  • 02人类标注偏好数据作为对齐信号
  • 031.3B 的 InstructGPT 在人类评估中胜过 175B 的 GPT-3
  • 04首次系统讨论 LLM 对齐的 Alignment Tax(性能权衡)
  • 05ChatGPT 的技术前身

三阶段框架

阶段 1:SFT(Supervised Fine-Tuning)

用高质量的人类演示数据(prompt + 理想回答)微调基础模型。这让模型学会基本的指令跟随格式。

阶段 2:Reward Model 训练

  • 同一个 prompt 让模型生成 K 个回答(K=4~9)
  • 标注员对 K 个回答按偏好排序
  • 训练一个 Reward Model(通常从 SFT 模型初始化,改分类头)
  • 损失函数:
L=1(K2)E(x,yw,yl)D[logσ(rθ(x,yw)rθ(x,yl))]L = -\frac{1}{\binom{K}{2}} \mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma(r_\theta(x, y_w) - r_\theta(x, y_l)) \right]

Bradley-Terry 偏好模型

阶段 3:PPO 强化学习

用 RM 作为 reward signal,用 PPO 优化 SFT 模型:

objective=E[rθ(x,y)]βKL(πϕRLπSFT)\text{objective} = \mathbb{E}[r_\theta(x,y)] - \beta \cdot \text{KL}(\pi_\phi^{RL} \| \pi^{SFT})

KL 惩罚项防止模型偏离 SFT 初始策略太远(避免 reward hacking)。

关键结果

1.3B 的 InstructGPT 在 "helpful" 和 "harmless" 维度上都胜过 175B 的原版 GPT-3对齐带来的价值远超单纯扩大参数

面试视角

面试考点

三阶段里每一阶段的目标和挑战

  • SFT:teach format(能听指令)
  • RM:learn preference(什么是好回答)
  • PPO:optimize towards preference(持续改进)

为什么 PPO 需要 KL 惩罚? 没有 KL,模型会 exploit RM 漏洞(reward hacking)——生成看似高分但实际低质的回答。KL 把行为锚定在 SFT 附近。

RM 如何训练? Bradley-Terry 偏好对损失;为什么不直接训练 regression 输出分数?因为绝对评分主观不稳定,相对偏好更可靠。

Alignment TaxRLHF 后模型在某些公开 benchmark(如 MMLU)上会略降。权衡:helpfulness vs capability。

后续演进

  • Anthropic Constitutional AI(用 AI 替代部分人工反馈)
  • DPO(跳过 RM,直接从偏好数据优化)
  • GRPODeepSeek,去掉 critic 的 online RL)
相关论文