LLM2025· arXiv· CLASSIC

DeepSeek R1: Incentivizing Reasoning via Reinforcement Learning

DeepSeek-AI

纯 RL（无 SFT warmup）激发涌现的推理能力——Chain-of-Thought 自然从奖励信号中生长。

arXiv:2501.12948

#reasoning#rlhf#grpo#frontier

核心贡献

01R1-Zero：从 base model 直接用 RL 训练，跳过 SFT——证明推理能力能通过 RL 涌现
02GRPO 算法：去掉 critic，用 group 内相对优势估计 baseline
03自发学到 self-reflection、backtracking、alternative-approach 等人类解题行为
04在 AIME、MATH、Codeforces 上达到 o1 级别
05R1：先 SFT cold-start（可读性） + 多轮 RL + rejection sampling，训练稳定

R1-Zero：RL 从零学推理

传统 RLHF 流程：SFT → RM → PPO。R1 的反直觉做法：跳过 SFT，直接从 base model 用 rule-based reward 做 RL。

`GRPO` 算法

Group Relative Policy Optimization——DeepSeek 提出的 PPO 变种：

对每个 prompt x 采样 G 个回答 $\{y_1, ..., y_G\}$
用 rule-based reward（如数学题答案正确性）给每个回答打分
Advantage: 用 group 内 reward 的 z-score 做 baseline：

A_i = \frac{r_i - \text{mean}(r_1, ..., r_G)}{\text{std}(r_1, ..., r_G)}

不需要 critic value function——省掉一个大模型训练

为什么纯 RL 能 work？

Base model 已经有潜在的推理能力（预训练中见过大量人类推理文本）。RL 的作用是强化那些能导向正确答案的推理模式。模型自发学到：

Self-reflection（"Wait, let me check..."）
Backtracking（"Actually, step 3 was wrong"）
Alternative approach（"Let me try a different method"）

这些行为不是人工教的，是 RL 搜索过程中涌现的。

R1（完整版）

R1-Zero 的问题：推理过程可读性差（中英混杂、格式混乱）。R1 加了两步：

SFT cold-start：用少量高质量人工精炼的 reasoning 数据先 warm up
多轮 RL + Rejection Sampling：每轮 RL 后筛选高质量回答作为下一轮 SFT 数据

开源冲击

R1 的能力、训练成本、完全开源——直接引发硅谷震动和 "DeepSeek Moment"。

面试视角

面试考点

"R1 vs o1 vs o1-mini？" o1 系列闭源，没有公开技术细节。R1 公开了架构和训练方法。性能上 R1 和 o1 在 AIME、MATH 基本持平。

"GRPO 相对 PPO 的优势？"

省掉 critic 模型——减少约一半训练显存
用 group 内相对 reward 做 baseline，避免 critic 训练的不稳定性
Online RL 特性保持——和 DPO 的 offline 不同

"纯 RL（R1-Zero）为什么能成功？" 预训练数据里有大量人类推理过程（数学证明、代码注释、Stack Overflow 答案）。Base model 已经具备推理 building blocks，RL 只是在放大它们。这不意味着 SFT 没用——R1 完整版还是加了 cold-start。

"Rule-based Reward 的局限？" 只能用于有客观正确答案的任务（数学、代码）。开放域问题（写作、对话）仍需要 reward model 或 LLM-as-judge。

"如何防止 Reward Hacking？"

用 rule-based reward（难以作弊）
KL 惩罚保持接近 reference model
训练过程中持续监控生成质量

"R1 的推理链为什么这么长？" RL 探索发现更长的推理链通常更准确——这是 Test-time Scaling 的实证：推理时花更多计算能换来更准确的答案。o1 也利用这个。

"Distillation（R1 → 小模型）效果如何？" R1 论文展示：用 R1 生成的推理轨迹 SFT 小模型（Qwen-7B, LLaMA-8B），小模型能获得显著推理能力——且比直接 RL 训练小模型效果更好。这是当前最实用的开源 reasoning 方案。