作者：硅基趣玩喵
原文链接：https://zhuanlan.zhihu.com/p/2016080986690041206

一、背景

LLM强化学习训练面临一个核心架构选择：是使用在线RL（Online RL）——在训练中实时采样当前策略的rollout，还是使用离线RL（Offline RL）——利用预先收集好的固定数据集进行优化？这两种方法在数据效率、计算成本、训练稳定性和最终性能之间存在根本性的权衡，理解这一权衡是设计LLM训练系统的核心决策。

DPO（Direct-Preference Optimization）是最成功的离线RL代表，PPO/GRPO是在线RL的主流实现，而最新趋势是将两者结合，形成迭代式在线-离线混合方法（如Online DPO、Iterative RLHF）。

二、在线RL与离线RL的本质区别

2.1 在线RL（PPO/GRPO）

在每个训练步骤，使用当前策略生成新的rollout，然后立即用这些新数据进行参数更新：

数据流：当前策略\pi_\theta→生成rollout→计算奖励→更新参数→新策略\pi_{\theta'}→生成新rollout→ …

核心特性：

训练数据始终来自当前策略，无分布偏移问题
每次策略更新都能探索当前策略能力边界附近的新区域
计算开销高：每步需要完整的推理前向传播（通常占总计算的60-70%）
需要实时奖励模型或验证器（无法使用批量预标注数据）

2.2 离线RL（DPO/RAFT）

使用预先收集好的固定数据集（通常是偏好数据对）进行优化，无需实时采样：

数据流：固定偏好数据集D = \{(x, y_w, y_l)\}→计算DPO/SFT损失→更新参数

核心特性：

数据复用效率高：一份数据集可以多轮训练
无需实时推理，GPU利用率高（无生成开销）
存在分布偏移：数据由初始策略生成，随训练进行数据越来越不代表当前策略分布
无法探索训练集之外的新解法（被数据集限制）

三、关键性能权衡

3.1 数学推理任务

在线RL（GRPO）的优势明显：

每轮训练生成新的推理路径，不受初始数据集中推理风格的束缚
可以自主发现数据集中不存在的推理策略（如不寻常但有效的解题路径）
DeepSeek-R1实验显示，GRPO在MATH数据集上比相同数据量的DPO高约5-10%

离线DPO的局限：

DPO数据集中的正确推理路径由某个特定模型生成，当前训练模型可能”无法理解”该路径（超出当前能力范围），导致监督信号无效
缺少对”接近正确但有缺陷”的推理路径的细粒度对比，负样本质量有限

3.2 通用对话任务

离线DPO表现良好：

对话质量的偏好较稳定（礼貌性、格式、完整性），不随策略能力强烈变化
高质量人工偏好数据集（如HH-RLHF、UltraFeedback）包含了大量多样化场景
计算成本远低于在线RL，适合资源有限场景

在线RL的优势不明显：

通用对话任务的”最优回答”不那么唯一（创意性更强），在线探索的收益较小
PPO在对话任务中的Critic训练难度高（难以精确估计对话价值）

四、迭代式在线-离线混合方法

4.1 Online DPO（ODPO）

结合了在线RL的数据新鲜度和DPO的简单性：

流程：

1.从当前策略\pi_\theta对每个prompt采样2个候选回答
2.用奖励模型/LLM-as-Judge判断哪个更好，生成新的偏好对
3.用新偏好对做一步DPO更新
4.循环

Online DPO的数据始终来自当前策略，避免了离线DPO的分布偏移问题，同时保留了DPO的简单性（无需Critic）。实验表明，Online DPO比离线DPO在MT-Bench上高约5-8%，且计算成本仅为PPO的30-40%。

4.2 Iterative RLHF（迭代式强化学习）

3阶段迭代循环：

阶段1（离线SFT）：使用高质量示例数据进行监督微调，建立基础能力
阶段2（在线RL）：使用PPO/GRPO强化关键能力（数学推理、安全性），探索当前数据分布边界
阶段3（离线DPO/RLHF）：收集在线RL产生的新数据，经人工/AI标注后更新偏好模型，为下一轮迭代准备

LLaMA-2、LLaMA-3的训练均采用多轮Iterative RLHF，每轮5000-20000条新偏好标注，已进行3-5轮迭代。

4.3 Rejection Sampling Fine-tuning（RSFT/RAFT）

离线RL的一种特殊形式，利用在线采样但以SFT方式训练：

1.从当前策略对每个prompt采样K（如64）个候选回答
2.用奖励模型选择得分最高的候选作为”最优回答”
3.对这些”最优回答”做SFT（而非RL）
4.循环

优点：

无需Critic，无PPO的训练不稳定性
SFT训练稳定且高效
每轮使用当前策略采样，隐式解决了分布偏移

缺点：

无法直接利用”负样本”信息（与DPO相比）
每次需要采样K个候选，推理成本高

五、选择方法的决策树

任务有可验证奖励（数学、代码）？
├── 是 → 在线RL（GRPO/PPO）效果最好，计算预算允许则首选
└── 否（主观任务）
    ├── 有高质量偏好数据？
    │   ├── 是 → 离线DPO（简单高效）
    │   └── 否 → Online DPO（自动生成在线偏好数据）
    └── 计算预算充足？
        ├── 是 → Iterative RLHF（最佳效果）
        └── 否 → RSFT（RAFT，平衡性价比）

六、工程实践建议

资源有限的团队优先离线DPO：实现简单，无需推理基础设施，一块A100可以训练7B模型
高性能推理任务（数学/代码）必须使用在线RL：离线数据的分布局限会严重限制推理能力上限
Iterative RLHF是工业级对齐的标准：Meta、Google、Anthropic均采用多轮迭代，每轮更新数据和奖励模型
Online DPO是在线RL和离线DPO之间的最优折衷：比DPO效果好5-8%，比PPO计算成本低50-70%

七、参考文献

1.Rafailov et al., Direct Preference Optimization: Your Language Model is Secretly a Reward Model, NeurIPS 2023
https://arxiv.org/abs/2305.18290
2.Dong et al., RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment*, TMLR 2023
https://arxiv.org/abs/2304.06767
3.Guo et al., Direct Language Model Alignment from Online AI Feedback, arXiv 2024
https://arxiv.org/abs/2402.04792
4.Touvron et al., LLaMA 2: Open Foundation and Fine-Tuned Chat Models, 2023
https://arxiv.org/abs/2307.09288

在线 RL 与离线 RL 的本质区别是什么，在 LLM 训练中又如何权衡？