Featured image of post 故事汇:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

故事汇:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

最后修改:

知识笔记

  • 多阶段训练(multi-stage training):指模型训练过程中分为多个阶段(阶段间目标或数据不同),每个阶段针对性地优化模型的不同能力,最终提升整体性能。

  • 冷启动数据(cold start data):指在模型训练初期(或新任务启动时)使用的特定引导数据,用于解决模型初期因缺乏足够信息导致的性能低下或不稳定问题。

  • 训练后阶段:指在机器学习模型完成训练后的一系列操作,包括模型评估、优化、部署、监控等。

  • 预训练与训练的差别

    • 预训练:在大规模通用数据集上进行
    • 训练:在特定任务上调整模型参数的过程
  • 推理导向的强化学习(Reasoning-Oriented RL):动态奖励机制和结构化探索策略

原文传送门

膜拜大佬

读书笔记

Abstract

  • DeepSeek-R1-Zero
    • 通过强化学习训练,且没监督微调
    • 推理能力优秀
    • 可读性差,语言混合
  • DeepSeek-R1
    • 在强化学习之前结合多阶段训练和冷启动数据

Introduction

  • 训练后阶段可提高推理任务的准确性
    • 所需计算资源比预训练少
  • OpenAI o1引入了思考时间
    • 有效的测试时间缩放的挑战依旧是一个问题
  • 使用纯强化学习过程的自我进化,使得DeepSeek-R1-Zero在推理基准测试上与OpenAI-01相当
    • 使用DeepSeek-v3-Base作为基础模型
    • 采用PRPO作为强化学习框架
    • 可读性差,语言混乱
  • 引入DeepSeek-R1。结合少量冷启动数据和多级训练流水线
    • 冷启动数据微调:修复基础语言能力
      • 收集数千条高质量冷启动数据(例如:人工标注的数学解题步骤、语法规范的写作范文)
      • 用这些数据对基础模型 DeepSeek-V3-Base 进行监督微调(SFT)。
    • 推理导向的RL训练:提升特定任务的推理能力
      • 使用强化学习(如PPO算法)训练模型,奖励函数侧重推理正确性(如解题步骤分、最终答案分)。
      • 训练接近收敛时,模型能稳定生成正确但可能可读性较差的答案
    • 拒绝采样生成新SFT数据:从RL模型的结果中提取高质量数据,重新注入监督训练
      • 让RL模型的结果中提取高质量数据,重新注入监督训练
      • 通过规则或奖励模型筛选出推理正确且可读性高的结果(例如保留前10%的优质答案)
      • 混入新RL数据和原有监督数据
      • 用混合数据重新微调DeepSeek-V3-Base
    • 全场景二次RL训练:在多任务竞争中进一步平衡性能
      • 输入涵盖所有任务的提示(如同时包含数学题、写作要求、事实问答)
      • 设计多维度奖励函数,如数学任务:步骤正确性+答案准确性;写作任务:流畅性+语法正确性
      • 基于混合奖励进行RL训练,迫使模型兼顾多领域性能

核心贡献

  1. 后训练(Post-Training):直接对基础模型进行大规模强化学习(RL)

    1. 创新点
      1. 跳过监督微调(SFT)
      2. 激励模型自主探索思维链(CoT)
    2. 意义:证明纯RL训练可激发LLM推理能力(无需SFT提供参考答案)
    1
    2
    3
    4
    5
    
    步骤1:将方程改写为 3x² - 2x - 8 = 0  
    步骤2:尝试因式分解 → 失败 → 反思:“可能需要使用求根公式。”  
    步骤3:应用求根公式 x = [2 ± √(4 + 96)] / 6  
    步骤4:计算判别式 √100 = 10 → x = (2 ± 10)/6  
    步骤5:验证解是否满足原方程 → 确认 x=2 和 x=-4/3 均为解  
    
    1. 开发流程
      1. 第一阶段RL:基于基础模型进行RL训练,奖励函数侧重推理正确性。探索更优推理模式(如数学解题策略、代码调试逻辑)
      2. 第一阶段SFT:混合RL生成的优质推理数据与通用领域SFT数据。固化RL探索到的优质推理模式,并补充非推理能力(如写作、对话)。
      3. 第二阶段RL:引入人类反馈(如人工标注偏好排序)优化奖励模型。对齐人类偏好(如可读性、安全性)
      4. 第二阶段SFT:平衡多任务性能,防止RL过度优化单一领域
  2. 蒸馏(Distillation):让小模型继承大模型推理能力

    1. 核心思想:用大模型生成的推理数据训练小模型,使其超越RL训练的小模型
    2. 降低推理成本,促进小模型实际应用

Discussion

蒸馏和强化学习的比较

  • 将更强大的模型提炼成更小的模型可以得到很好的结果,而依赖于大规模RL的模型需要巨大的计算能力,甚至可能达不到提炼的性能
  • 尽管提炼策略既经济又有效,但要超越智能的界限,可能仍然需要更强大的基础模型和更大规模的强化学习

未成功的尝试

  • 过程奖励模型(Process Reward Model, PRM)
    • 在一般推理中明确定义一个细粒度的步骤是一个挑战
    • 确定当前中间步骤是否正确是一项具有挑战性的任务
    • 一旦引入了基于模型的PRM,就不可避免地会导致奖励黑客行为。而重新培训奖励模型需要额外的培训资源,这使整个培训流程变得复杂
  • 蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)
    • 将答案分解为更小的部分,以允许模型系统地探索解决方案空间
    • 为了方便这一点,提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤
    • 难点:
      • token的生成有很多空间。解决方案:为每个节点设置最大扩展限制,但可能会陷入局部最优
      • 价值模型直接影响生成的质量
comments powered by Disqus