§6.4.20

DeepSeek-R1 的 GRPO 相比 PPO 的改进？

手写练习

—写出 GRPO 的 advantage 计算（组内归一化）

Lorem ipsum dolor sit amet

Consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.

Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.

Section Title

Mathematical expression: $f(x) = \\int_{-\\infty}^{\\infty} e^{-x^2} dx$

LLM 大模型 · 付费章节

每个框架的第 1 节免费。要读后续章节，可单独解锁本框架，或一次解锁 4 个框架。

LLM + MLLM + RAG + CV 终身

全部解锁 →

或 Pro 订阅 ¥49/月 · 报名冲刺营都包含解锁

← 返回索引