知识笔记
多阶段训练(multi-stage training):指模型训练过程中分为多个阶段(阶段间目标或数据不同),每个阶段针对性地优化模型的不同能力,最终提升整体性能。
冷启动数据(cold start data):指在模型训练初期(或新任务启动时)使用的特定引导数据,用于解决模型初期因缺乏足够信息导致的性能低下或不稳定问题。
训练后阶段:指在机器学习模型完成训练后的一系列操作,包括模型评估、优化、部署、监控等。
预训练与训练的差别
- 预训练:在大规模通用数据集上进行
- 训练:在特定任务上调整模型参数的过程
推理导向的强化学习(Reasoning-Oriented RL):动态奖励机制和结构化探索策略
膜拜大佬
读书笔记
Abstract
- DeepSeek-R1-Zero
- 通过强化学习训练,且没监督微调
- 推理能力优秀
- 可读性差,语言混合
- DeepSeek-R1
- 在强化学习之前结合多阶段训练和冷启动数据
Introduction
- 训练后阶段可提高推理任务的准确性
- 所需计算资源比预训练少
- OpenAI o1引入了思考时间
- 有效的测试时间缩放的挑战依旧是一个问题
- 使用纯强化学习过程的自我进化,使得DeepSeek-R1-Zero在推理基准测试上与OpenAI-01相当
- 使用DeepSeek-v3-Base作为基础模型
- 采用PRPO作为强化学习框架
- 可读性差,语言混乱
- 引入DeepSeek-R1。结合少量冷启动数据和多级训练流水线
- 冷启动数据微调:修复基础语言能力
- 收集数千条高质量冷启动数据(例如:人工标注的数学解题步骤、语法规范的写作范文)
- 用这些数据对基础模型
DeepSeek-V3-Base
进行监督微调(SFT)。
- 推理导向的RL训练:提升特定任务的推理能力
- 使用强化学习(如PPO算法)训练模型,奖励函数侧重推理正确性(如解题步骤分、最终答案分)。
- 训练接近收敛时,模型能稳定生成正确但可能可读性较差的答案
- 拒绝采样生成新SFT数据:从RL模型的结果中提取高质量数据,重新注入监督训练
- 让RL模型的结果中提取高质量数据,重新注入监督训练
- 通过规则或奖励模型筛选出推理正确且可读性高的结果(例如保留前10%的优质答案)
- 混入新RL数据和原有监督数据
- 用混合数据重新微调DeepSeek-V3-Base
- 全场景二次RL训练:在多任务竞争中进一步平衡性能
- 输入涵盖所有任务的提示(如同时包含数学题、写作要求、事实问答)
- 设计多维度奖励函数,如数学任务:步骤正确性+答案准确性;写作任务:流畅性+语法正确性
- 基于混合奖励进行RL训练,迫使模型兼顾多领域性能
- 冷启动数据微调:修复基础语言能力
核心贡献
后训练(Post-Training):直接对基础模型进行大规模强化学习(RL)
- 创新点
- 跳过监督微调(SFT)
- 激励模型自主探索思维链(CoT)
- 意义:证明纯RL训练可激发LLM推理能力(无需SFT提供参考答案)
1 2 3 4 5
步骤1:将方程改写为 3x² - 2x - 8 = 0 步骤2:尝试因式分解 → 失败 → 反思:“可能需要使用求根公式。” 步骤3:应用求根公式 x = [2 ± √(4 + 96)] / 6 步骤4:计算判别式 √100 = 10 → x = (2 ± 10)/6 步骤5:验证解是否满足原方程 → 确认 x=2 和 x=-4/3 均为解
- 开发流程
- 第一阶段RL:基于基础模型进行RL训练,奖励函数侧重推理正确性。探索更优推理模式(如数学解题策略、代码调试逻辑)
- 第一阶段SFT:混合RL生成的优质推理数据与通用领域SFT数据。固化RL探索到的优质推理模式,并补充非推理能力(如写作、对话)。
- 第二阶段RL:引入人类反馈(如人工标注偏好排序)优化奖励模型。对齐人类偏好(如可读性、安全性)
- 第二阶段SFT:平衡多任务性能,防止RL过度优化单一领域
- 创新点
蒸馏(Distillation):让小模型继承大模型推理能力
- 核心思想:用大模型生成的推理数据训练小模型,使其超越RL训练的小模型
- 降低推理成本,促进小模型实际应用
Discussion
蒸馏和强化学习的比较
- 将更强大的模型提炼成更小的模型可以得到很好的结果,而依赖于大规模RL的模型需要巨大的计算能力,甚至可能达不到提炼的性能
- 尽管提炼策略既经济又有效,但要超越智能的界限,可能仍然需要更强大的基础模型和更大规模的强化学习
未成功的尝试
- 过程奖励模型(Process Reward Model, PRM)
- 在一般推理中明确定义一个细粒度的步骤是一个挑战
- 确定当前中间步骤是否正确是一项具有挑战性的任务
- 一旦引入了基于模型的PRM,就不可避免地会导致奖励黑客行为。而重新培训奖励模型需要额外的培训资源,这使整个培训流程变得复杂
- 蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)
- 将答案分解为更小的部分,以允许模型系统地探索解决方案空间
- 为了方便这一点,提示模型生成多个标签,这些标签对应于搜索所需的特定推理步骤
- 难点:
- token的生成有很多空间。解决方案:为每个节点设置最大扩展限制,但可能会陷入局部最优
- 价值模型直接影响生成的质量