LLM2025· arXiv· CLASSIC

DeepSeek R1: Incentivizing Reasoning via Reinforcement Learning

DeepSeek-AI

纯 RL(无 SFT warmup)激发涌现的推理能力——Chain-of-Thought 自然从奖励信号中生长。

arXiv:2501.12948
#reasoning#rlhf#grpo#frontier

核心贡献

  • 01R1-Zero:从 base model 直接用 RL 训练,跳过 SFT——证明推理能力能通过 RL 涌现
  • 02GRPO 算法:去掉 critic,用 group 内相对优势估计 baseline
  • 03自发学到 self-reflection、backtracking、alternative-approach 等人类解题行为
  • 04在 AIME、MATH、Codeforces 上达到 o1 级别
  • 05R1:先 SFT cold-start(可读性) + 多轮 RL + rejection sampling,训练稳定

R1-Zero:RL 从零学推理

传统 RLHF 流程:SFT → RM → PPO。R1 的反直觉做法:跳过 SFT,直接从 base model 用 rule-based reward 做 RL。

GRPO 算法

Group Relative Policy Optimization——DeepSeek 提出的 PPO 变种:

  • 对每个 prompt x 采样 G 个回答 {y1,...,yG}\{y_1, ..., y_G\}
  • 用 rule-based reward(如数学题答案正确性)给每个回答打分
  • Advantage: 用 group 内 reward 的 z-score 做 baseline:
Ai=rimean(r1,...,rG)std(r1,...,rG)A_i = \frac{r_i - \text{mean}(r_1, ..., r_G)}{\text{std}(r_1, ..., r_G)}
  • 不需要 critic value function——省掉一个大模型训练

为什么纯 RL 能 work?

Base model 已经有潜在的推理能力(预训练中见过大量人类推理文本)。RL 的作用是强化那些能导向正确答案的推理模式。模型自发学到:

  • Self-reflection("Wait, let me check...")
  • Backtracking("Actually, step 3 was wrong")
  • Alternative approach("Let me try a different method")

这些行为不是人工教的,是 RL 搜索过程中涌现的。

R1(完整版)

R1-Zero 的问题:推理过程可读性差(中英混杂、格式混乱)。R1 加了两步:

  1. SFT cold-start:用少量高质量人工精炼的 reasoning 数据先 warm up
  2. 多轮 RL + Rejection Sampling:每轮 RL 后筛选高质量回答作为下一轮 SFT 数据

开源冲击

R1 的能力、训练成本、完全开源——直接引发硅谷震动和 "DeepSeek Moment"。

面试视角

面试考点

"R1 vs o1 vs o1-mini?" o1 系列闭源,没有公开技术细节。R1 公开了架构和训练方法。性能上 R1 和 o1 在 AIMEMATH 基本持平。

"GRPO 相对 PPO 的优势?"

  • 省掉 critic 模型——减少约一半训练显存
  • 用 group 内相对 reward 做 baseline,避免 critic 训练的不稳定性
  • Online RL 特性保持——和 DPO 的 offline 不同

"纯 RL(R1-Zero)为什么能成功?" 预训练数据里有大量人类推理过程(数学证明、代码注释、Stack Overflow 答案)。Base model 已经具备推理 building blocks,RL 只是在放大它们。这不意味着 SFT 没用——R1 完整版还是加了 cold-start。

"Rule-based Reward 的局限?" 只能用于有客观正确答案的任务(数学、代码)。开放域问题(写作、对话)仍需要 reward model 或 LLM-as-judge。

"如何防止 Reward Hacking?"

  • 用 rule-based reward(难以作弊)
  • KL 惩罚保持接近 reference model
  • 训练过程中持续监控生成质量

"R1 的推理链为什么这么长?" RL 探索发现更长的推理链通常更准确——这是 Test-time Scaling 的实证:推理时花更多计算能换来更准确的答案。o1 也利用这个。

"Distillation(R1 → 小模型)效果如何?" R1 论文展示:用 R1 生成的推理轨迹 SFT 小模型(Qwen-7B, LLaMA-8B),小模型能获得显著推理能力——且比直接 RL 训练小模型效果更好。这是当前最实用的开源 reasoning 方案。

相关论文