故事汇：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

知识笔记

多阶段训练(multi-stage training)：指模型训练过程中分为多个阶段（阶段间目标或数据不同），每个阶段针对性地优化模型的不同能力，最终提升整体性能。
冷启动数据(cold start data)：指在模型训练初期（或新任务启动时）使用的特定引导数据，用于解决模型初期因缺乏足够信息导致的性能低下或不稳定问题。
训练后阶段：指在机器学习模型完成训练后的一系列操作，包括模型评估、优化、部署、监控等。
预训练与训练的差别
- 预训练：在大规模通用数据集上进行
- 训练：在特定任务上调整模型参数的过程
推理导向的强化学习(Reasoning-Oriented RL)：动态奖励机制和结构化探索策略

原文传送门

膜拜大佬

读书笔记

Abstract

DeepSeek-R1-Zero
- 通过强化学习训练，且没监督微调
- 推理能力优秀
- 可读性差，语言混合
DeepSeek-R1
- 在强化学习之前结合多阶段训练和冷启动数据

Introduction

训练后阶段可提高推理任务的准确性
- 所需计算资源比预训练少
OpenAI o1引入了思考时间
- 有效的测试时间缩放的挑战依旧是一个问题
使用纯强化学习过程的自我进化，使得DeepSeek-R1-Zero在推理基准测试上与OpenAI-01相当
- 使用DeepSeek-v3-Base作为基础模型
- 采用PRPO作为强化学习框架
- 可读性差，语言混乱
引入DeepSeek-R1。结合少量冷启动数据和多级训练流水线
- 冷启动数据微调：修复基础语言能力
  - 收集数千条高质量冷启动数据（例如：人工标注的数学解题步骤、语法规范的写作范文）
  - 用这些数据对基础模型 DeepSeek-V3-Base 进行监督微调（SFT）。
- 推理导向的RL训练：提升特定任务的推理能力
  - 使用强化学习（如PPO算法）训练模型，奖励函数侧重推理正确性（如解题步骤分、最终答案分）。
  - 训练接近收敛时，模型能稳定生成正确但可能可读性较差的答案
- 拒绝采样生成新SFT数据：从RL模型的结果中提取高质量数据，重新注入监督训练
  - 让RL模型的结果中提取高质量数据，重新注入监督训练
  - 通过规则或奖励模型筛选出推理正确且可读性高的结果（例如保留前10%的优质答案）
  - 混入新RL数据和原有监督数据
  - 用混合数据重新微调DeepSeek-V3-Base
- 全场景二次RL训练：在多任务竞争中进一步平衡性能
  - 输入涵盖所有任务的提示（如同时包含数学题、写作要求、事实问答）
  - 设计多维度奖励函数，如数学任务：步骤正确性+答案准确性；写作任务：流畅性+语法正确性
  - 基于混合奖励进行RL训练，迫使模型兼顾多领域性能

核心贡献

后训练(Post-Training)：直接对基础模型进行大规模强化学习（RL）

创新点
1. 跳过监督微调(SFT)
2. 激励模型自主探索思维链(CoT)
意义：证明纯RL训练可激发LLM推理能力（无需SFT提供参考答案）

1
2
3
4
5
步骤1：将方程改写为 3x² - 2x - 8 = 0  
步骤2：尝试因式分解 → 失败 → 反思：“可能需要使用求根公式。”  
步骤3：应用求根公式 x = [2 ± √(4 + 96)] / 6  
步骤4：计算判别式 √100 = 10 → x = (2 ± 10)/6  
步骤5：验证解是否满足原方程 → 确认 x=2 和 x=-4/3 均为解  

开发流程
1. 第一阶段RL：基于基础模型进行RL训练，奖励函数侧重推理正确性。探索更优推理模式（如数学解题策略、代码调试逻辑）
2. 第一阶段SFT：混合RL生成的优质推理数据与通用领域SFT数据。固化RL探索到的优质推理模式，并补充非推理能力（如写作、对话）。
3. 第二阶段RL：引入人类反馈（如人工标注偏好排序）优化奖励模型。对齐人类偏好（如可读性、安全性）
4. 第二阶段SFT：平衡多任务性能，防止RL过度优化单一领域

蒸馏(Distillation)：让小模型继承大模型推理能力
1. 核心思想：用大模型生成的推理数据训练小模型，使其超越RL训练的小模型
2. 降低推理成本，促进小模型实际应用

Discussion

蒸馏和强化学习的比较

将更强大的模型提炼成更小的模型可以得到很好的结果，而依赖于大规模RL的模型需要巨大的计算能力，甚至可能达不到提炼的性能
尽管提炼策略既经济又有效，但要超越智能的界限，可能仍然需要更强大的基础模型和更大规模的强化学习

未成功的尝试

过程奖励模型(Process Reward Model, PRM)
- 在一般推理中明确定义一个细粒度的步骤是一个挑战
- 确定当前中间步骤是否正确是一项具有挑战性的任务
- 一旦引入了基于模型的PRM，就不可避免地会导致奖励黑客行为。而重新培训奖励模型需要额外的培训资源，这使整个培训流程变得复杂
蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)
- 将答案分解为更小的部分，以允许模型系统地探索解决方案空间
- 为了方便这一点，提示模型生成多个标签，这些标签对应于搜索所需的特定推理步骤
- 难点：
  - token的生成有很多空间。解决方案：为每个节点设置最大扩展限制，但可能会陷入局部最优
  - 价值模型直接影响生成的质量