LLM·§ · 对齐与偏好优化·22

RLHF / DPO / GRPO 对齐面试

从 PPO 到 DPO 到 GRPO——对齐算法的目标函数差异、Reward Hacking 的应对、以及 Reasoning 强化的最新进展。

#RLHF 面试#DPO#PPO#GRPO#Reward Model#对齐算法
§6.1

RLHF

7
§6.2

RLHF 替代方案

6
§6.3

对齐目标与安全

4
§6.4

Reasoning 强化

5
相关主题

本主题 22 道题,第 1 章免费阅读