DeepSeek R1: Incentivizing Reasoning via Reinforcement Learning
DeepSeek-AI
纯 RL(无 SFT warmup)激发涌现的推理能力——Chain-of-Thought 自然从奖励信号中生长。
arXiv:2501.12948核心贡献
- 01R1-Zero:从 base model 直接用 RL 训练,跳过 SFT——证明推理能力能通过 RL 涌现
- 02GRPO 算法:去掉 critic,用 group 内相对优势估计 baseline
- 03自发学到 self-reflection、backtracking、alternative-approach 等人类解题行为
- 04在 AIME、MATH、Codeforces 上达到 o1 级别
- 05R1:先 SFT cold-start(可读性) + 多轮 RL + rejection sampling,训练稳定
R1-Zero:RL 从零学推理
传统 RLHF 流程:SFT → RM → PPO。R1 的反直觉做法:跳过 SFT,直接从 base model 用 rule-based reward 做 RL。
GRPO 算法
Group Relative Policy Optimization——DeepSeek 提出的 PPO 变种:
- 对每个 prompt x 采样 G 个回答
- 用 rule-based reward(如数学题答案正确性)给每个回答打分
- Advantage: 用 group 内 reward 的 z-score 做 baseline:
- 不需要 critic value function——省掉一个大模型训练
为什么纯 RL 能 work?
Base model 已经有潜在的推理能力(预训练中见过大量人类推理文本)。RL 的作用是强化那些能导向正确答案的推理模式。模型自发学到:
- Self-reflection("Wait, let me check...")
- Backtracking("Actually, step 3 was wrong")
- Alternative approach("Let me try a different method")
这些行为不是人工教的,是 RL 搜索过程中涌现的。
R1(完整版)
R1-Zero 的问题:推理过程可读性差(中英混杂、格式混乱)。R1 加了两步:
SFTcold-start:用少量高质量人工精炼的 reasoning 数据先 warm up- 多轮 RL + Rejection Sampling:每轮 RL 后筛选高质量回答作为下一轮
SFT数据
开源冲击
R1 的能力、训练成本、完全开源——直接引发硅谷震动和 "DeepSeek Moment"。
面试考点
"R1 vs o1 vs o1-mini?" o1 系列闭源,没有公开技术细节。R1 公开了架构和训练方法。性能上 R1 和 o1 在 AIME、MATH 基本持平。
"GRPO 相对 PPO 的优势?"
- 省掉 critic 模型——减少约一半训练显存
- 用 group 内相对 reward 做 baseline,避免 critic 训练的不稳定性
- Online RL 特性保持——和
DPO的 offline 不同
"纯 RL(R1-Zero)为什么能成功?" 预训练数据里有大量人类推理过程(数学证明、代码注释、Stack Overflow 答案)。Base model 已经具备推理 building blocks,RL 只是在放大它们。这不意味着 SFT 没用——R1 完整版还是加了 cold-start。
"Rule-based Reward 的局限?" 只能用于有客观正确答案的任务(数学、代码)。开放域问题(写作、对话)仍需要 reward model 或 LLM-as-judge。
"如何防止 Reward Hacking?"
- 用 rule-based reward(难以作弊)
- KL 惩罚保持接近 reference model
- 训练过程中持续监控生成质量
"R1 的推理链为什么这么长?" RL 探索发现更长的推理链通常更准确——这是 Test-time Scaling 的实证:推理时花更多计算能换来更准确的答案。o1 也利用这个。
"Distillation(R1 → 小模型)效果如何?" R1 论文展示:用 R1 生成的推理轨迹 SFT 小模型(Qwen-7B, LLaMA-8B),小模型能获得显著推理能力——且比直接 RL 训练小模型效果更好。这是当前最实用的开源 reasoning 方案。