LLM2022· NeurIPS 2022· CLASSIC

Training language models to follow instructions (InstructGPT)

Ouyang et al.

RLHF 的奠基工作——SFT + Reward Model + PPO 的三阶段对齐框架，直接催生了 ChatGPT。

#rlhf#alignment#sft#ppo#foundational

核心贡献

用高质量的人类演示数据（prompt + 理想回答）微调基础模型。这让模型学会基本的指令跟随格式。

L = -\frac{1}{\binom{K}{2}} \mathbb{E}_{(x, y_w, y_l) \sim D} \left[ \log \sigma(r_\theta(x, y_w) - r_\theta(x, y_l)) \right]

即 Bradley-Terry 偏好模型

用 RM 作为 reward signal，用 PPO 优化 SFT 模型：

\text{objective} = \mathbb{E}[r_\theta(x,y)] - \beta \cdot \text{KL}(\pi_\phi^{RL} \| \pi^{SFT})

KL 惩罚项防止模型偏离 SFT 初始策略太远（避免 reward hacking）。

1.3B 的 InstructGPT 在 "helpful" 和 "harmless" 维度上都胜过 175B 的原版 GPT-3。对齐带来的价值远超单纯扩大参数。

面试视角

三阶段里每一阶段的目标和挑战：

为什么 PPO 需要 KL 惩罚？ 没有 KL，模型会 exploit RM 漏洞（reward hacking）——生成看似高分但实际低质的回答。KL 把行为锚定在 SFT 附近。

RM 如何训练？ Bradley-Terry 偏好对损失；为什么不直接训练 regression 输出分数？因为绝对评分主观不稳定，相对偏好更可靠。

Alignment Tax：RLHF 后模型在某些公开 benchmark（如 MMLU）上会略降。权衡：helpfulness vs capability。

后续演进：