DeepSeek-R1 论文解读
通过强化学习激发大语言模型推理能力的突破性工作,开创了推理模型的新范式
论文概述
DeepSeek-R1 是 DeepSeek 团队在 2025 年初发布的推理模型,其核心贡献在于证明了 大规模强化学习(RL)可以直接激发大语言模型的推理能力,而不需要依赖大量人工标注的 Chain-of-Thought 数据。
这项工作与 OpenAI 的 o1 模型遥相呼应,但 DeepSeek-R1 选择了开源路线,让整个社区受益。
核心方法
DeepSeek-R1-Zero:纯 RL 的探索
最令人惊讶的发现来自 DeepSeek-R1-Zero —— 一个完全不使用监督微调(SFT),直接对基础模型施加强化学习的版本。
训练过程中,模型自发涌现出了以下能力:
- 自我验证:模型学会检查自己的答案是否正确
- 反思:出现 “wait, let me reconsider” 等反思性表达
- 延长思考:面对困难问题时,自动生成更长的推理链
这证明了推理能力可以作为 RL 的涌现属性出现,不需要显式教导。
GRPO 算法
DeepSeek-R1 使用了 Group Relative Policy Optimization (GRPO) 替代传统的 PPO。核心区别在于 GRPO 不需要独立的价值网络(critic model):
其中 是每个问题采样的组大小,优势值 通过组内相对排序计算。
完整训练流程
DeepSeek-R1 的最终版本采用了多阶段训练:
- 冷启动 SFT:使用少量高质量长链推理数据微调基础模型
- 推理导向 RL:使用 GRPO 在数学和代码任务上训练
- 拒绝采样 + SFT:收集 RL 模型的高质量输出,混合通用 SFT 数据
- 通用 RL:在更广泛的任务上进行第二轮 RL
Base Model → Cold Start SFT → Reasoning RL → Rejection Sampling
→ Mixed SFT → General RL → DeepSeek-R1
蒸馏实验
论文还进行了重要的蒸馏实验:将 R1 的推理能力蒸馏到更小的模型(1.5B ~ 70B)。结果表明:
| 模型 | AIME 2024 | MATH-500 |
|---|---|---|
| DeepSeek-R1 (671B MoE) | 79.8% | 97.3% |
| R1-Distill-Qwen-32B | 72.6% | 94.3% |
| R1-Distill-Qwen-7B | 55.5% | 92.8% |
| R1-Distill-Qwen-1.5B | 28.9% | 83.9% |
即使是 7B 的蒸馏模型也展现出了惊人的数学推理能力。
关键发现
”Aha Moment”
论文中记录了一个有趣的现象:在 RL 训练过程中,模型开始出现 “aha moment” —— 突然学会在推理链中重新审视之前的步骤。这种能力是自发涌现的,没有在训练数据中显式教导。
语言混合问题
R1-Zero 存在语言混合(language mixing)的问题 —— 推理过程中会混用中英文。这也是为什么最终版本需要加入冷启动 SFT 阶段来规范输出格式。
深远影响
- RL 规模化:证明了 RL 在大模型训练中的巨大潜力
- 推理模型范式:与 o1 一起开创了 “思考更久以获得更好答案” 的新范式
- 开源推动:模型权重和论文的开源极大推动了社区研究
- 蒸馏价值:证明推理能力可以高效迁移到小模型
个人思考
DeepSeek-R1 最令人兴奋的地方在于它证明了 RL 可以 “从零” 激发推理能力。这意味着推理能力可能不需要海量人工标注数据,而是可以通过合适的奖励信号自然涌现。这对未来 AGI 的发展方向有重要启示。
论文信息
- 发表年份
- 2025
- 作者
- DeepSeek-AI