RLHF / DPO / GRPO 对齐面试
从 PPO 到 DPO 到 GRPO——对齐算法的目标函数差异、Reward Hacking 的应对、以及 Reasoning 强化的最新进展。
#RLHF 面试#DPO#PPO#GRPO#Reward Model#对齐算法
§6.1
RLHF
§6.2
RLHF 替代方案
§6.3
对齐目标与安全
本主题 22 道题,第 1 章免费阅读
从 PPO 到 DPO 到 GRPO——对齐算法的目标函数差异、Reward Hacking 的应对、以及 Reasoning 强化的最新进展。
本主题 22 道题,第 1 章免费阅读