请启用浏览器 JavaScript 以使用 Mentra。

Please enable JavaScript in your browser to use Mentra.

本页内容受版权保护 · 已添加水印 · 禁止任何形式转载

LLM·§六 · 对齐与偏好优化·22 题

RLHF / DPO / GRPO 对齐面试

从 PPO 到 DPO 到 GRPO——对齐算法的目标函数差异、Reward Hacking 的应对、以及 Reasoning 强化的最新进展。

#RLHF 面试#DPO#PPO#GRPO#Reward Model#对齐算法

§6.1

RLHF

7 题

§6.2

RLHF 替代方案

6 题

§6.3

对齐目标与安全

4 题

§6.4

Reasoning 强化

5 题

相关主题

Transformer 架构面试全攻略

RAG 检索增强生成面试指南

Attention 机制深度解析

SFT 与 PEFT 微调面试

推理加速与部署面试

多模态大模型 VLM 面试

本主题 22 道题，第 1 章免费阅读

进入完整基础索引 →面试准备指南