本页内容受版权保护 · 已添加水印 · 禁止任何形式转载
LLM·§ · 对齐与偏好优化·22

RLHF / DPO / GRPO 对齐面试

从 PPO 到 DPO 到 GRPO——对齐算法的目标函数差异、Reward Hacking 的应对、以及 Reasoning 强化的最新进展。

#RLHF 面试#DPO#PPO#GRPO#Reward Model#对齐算法
相关主题

本主题 22 道题,第 1 章免费阅读