聊聊 Agentic RL 热门话题：Off-policyness，Sample Efficiency与Priviledge Information

作者：Hao Bai

https://zhuanlan.zhihu.com/p/2006963575110013959

今天来聊一下RL的近期热门问题，涉及Off-policyness，Sample Efficiency与Priviledge Information这些话题，可以理解为SFT+RL的一些宏观动力学。这是我认为高度重要的问题。

Off-policy learning在deep rl时代主要是用来节省rollout开销的，比如在digital agent领域，trajectory collection一般只有在大的academia lab或者frontier industrial lab才能实现。

例如我们的 DigiRL 与 Digi-Q 这条工作线，全部用的是 off-policy RL，来复用rollout data。这主要是因为rollout需要与手机/电脑模拟器交互，造成较大的rollout开销。在大量其他模拟资源需求较大的领域也是如此。

在Agentic RL时代，人们大量使用了off-policyness的扩展概念：它可以不仅限于rollout policy的前几个iteration，也可以泛指比较一个不同于当前policy，但与当前policy解决相似/相同问题的teacher policy。

由于我们希望学习的policy能变强，所以这个teacher policy往往是一个更强的policy，或者是带有priviledge信息的相同policy。

在这种泛化的概念下，off-policyness往往会带来更好的sample efficiency，但同时会伴随着更大的distribution sharpening风险。

一方面，在optimal trajectory上直接SFT会带来最大的off-policyness，以及最大的sample efficiency（因为不需要base policy进行任何on-policy rollout）。

然而off-policy trajectory 的 base policy coverage非常小，会导致部分学到的solution space没法跟base policy的solution space链接起来，进而影响性能。在很多情况下，这会导致performance crash（reward curve大幅下降甚至归零）。

另一方面，使用纯on-policy learning的sample efficiency低的可怜，回到了我们上面说的问题。

在这样的背景下，涌现出了非常多的融合方法。它们尝试寻找一个适中的off-policyness，使得RL training既有较强的sample-efficiency，又有比较好的solution space coverage。

例如TML提出的On-Policy Distillation (OPD)，仍然使用base policy的on-policy rollout，但是使用一个teacher policy做token-level reverse KL divergence，来把teacher policy的logits通过这些on-policy rollout提取到base policy中。

这种方法仍然使用base policy的rollout，但是learning signal来自teacher policy的token-level distillation，能够细化监督的粒度。这个方法甚至是reward-free的，所以可以结合一些环境中提供reward的RL算法进行共同优化。

如何对这些融合方法进行分类和思考呢？ 这里我们就要提到所谓的priviledge information了。

priviledge information可以指所有能提供signal的信息，这包括一个更强的policy，一个trajectory reward，一个step reward，还有optimal trajectory。

从监督的强度和学习模式来讲，一个更强的policy和optimal trajectory都可以提供较强的监督，且为prior模式，即学习不依赖环境；

而来自环境的reward，包括trajectory-level和step-level的reward，所提供的监督稍弱，且为posterior模式，即学习依赖环境。

用这四种不同的priviledge information，可以千变万化出各种各样的算法，去适应不同问题，不同模态，和不同环境。

例如，如果有optimal solution，可以尝试使用base policy+optimal solution来代替OPD的teacher policy。这是OPSD的想法。这个方法要求有一些optimal trajectory/solution，可以理解为是对SFT的一种控制/减轻off-policyness的改进。

又例如，如果有feedback/reward，可以尝试使用base policy+feedback来代替OPD的teacher policy。这是SDPO的想法。这个方法放宽了限制，不要求有optimal trajectory，但是要求有环境的feedback，因此可以理解为对RL的一种更细粒度signal的改进。

上面两篇文章都不需要一个teacher policy。它们将OPD的teacher policy用base policy+priviledge information替代。

这本质上是一种in-domain adaptation，相比于基于strong teacher policy的distillation，这两种方法更容易学习in-domain的信息，同时也更容易overfit到in-domain tasks上。

上面的方法都是基于OPD的融合方法。思考，privledge information除了直接用来SFT和做OPD，还有什么用法呢？没错，还可以直接用于RL，更具体地说，可以用于guide RL rollout。

POPE和InT就是这个思路。POPE提出，如果存在optimal trajectory，我们可以使用optimal trajectory作为rollout的prefix。这会使得困难问题难度下降，因为前几步已经被解了。

但是这种方法存在一个隐患，就是rollout仍然包含不属于base policy的optimal trajectory。因此paper中讲到，base policy的学习必须只将prefix作为condition，不能计入loss。在这个限制下，SFT+prefix-guided RL效果最好。

除了prefix，也可以使用intervention的方式将optimal solution介入RL rollout。InT提出，可以将optimal solution丢给base policy，让它identify第一个出现问题的位置，然后修复这一步。

随后，让base policy不带这个priviledge information继续生成。因为我参与了这篇文章，所以在这里具体讲一下这个方法，会包括更多细节，希望大家能发现些有趣的结论。

https://github.com/intervention-training/int

InT 是一种简单的算法。它从策略 π rollout 得到的一条部分正确的 trajectory 开始。然后，将 reference solution 和这条部分正确的 trajectory 提供给 π，让 π 判断哪一步是第一个错误的 step。

π 在该位置进行 intervene，通过查看 reference solution 来纠正该步。接着，π 在不查看 reference solution 的情况下 rollout trajectory 的剩余部分（见上图右侧）。

下面是它在数学领域中的一个例子。在数学题里，解题步骤通常用 “\n”（换行符）来分割。我们使用的策略 π 是 Qwen3-4B-Instruct，它通常会在每一行输出解题过程中的一个逻辑步骤。

接着，给定一条部分正确的 trajectory，我们会给每一行分配一个 ID，然后在提供 reference solution 的前提下，让 π 找出第一个错误出现的位置。

随后，π 会生成该步对应的行 ID 以及这一步“应该”正确写出的内容，然后在不再参考 reference solution 的情况下，重新生成后续的所有解题步骤，以避免 off-policyness。

我们通过两个阶段来研究 InT 的有效性：SFT 和 RL。

我们先聚焦于 SFT 阶段：在 IMO-Bench、AMO-Bench 和 Apex Shortlist 上，我们将 InT 与以下 baseline 进行比较：Self-Reflect（在给定 reference solution 的情况下重写整个解答）、Ref-Solution（在 reference solution 上进行 SFT）、以及 R1-Think/Summary（在来自 DeepSeek-R1 的 trajectory 的不同部分上进行 SFT）。结果表明，InT 在所有方法以及所有 k 取值下都能稳定取得最高性能。

但这种差异真的可以用 off-policyness 来解释吗？确实如此。我们发现这一点时非常高兴！我们研究了用不同方法训练得到的策略的熵，结果发现：在同一批任务上评估时，InT 在所有方法中引入的熵最低。

另一个问题是：**这些 intervention 到底有多长？**会不会很长，以至于性能提升其实主要来自 intervention 那一步本身？

并不是这样。intervention-step 的平均 token 数只有 136，而整条 trajectory 的平均 token 数是 6,836。也就是说，这个 intervention 非常轻量、很“短”，既能提供关键信息，又尽量保持后续生成是 on-policy。

随后，我们在这些初始化的 checkpoints 上进一步研究 RL 阶段的表现。我们观察到：在训练过程中，无论看哪个指标，InT 都带来了最高的 sample efficiency 和最终性能，这两个指标分别是 success rate，以及 zero advantage ratio（指无论 k 多大，策略都始终无法解出的任务所占比例）。

我们还在 holdout evaluation set 上评估了这些经过 RL 的 checkpoints，其中包含以下基准中最难的问题：(1) Polaris，(2) AceReason-Math，(3) Omni-MATH，以及 (4) IMO-AnswerBench。

结果显示，InT+RL 在不同的 gradient steps 以及不同的 k 取值下，都能显著优于其他方法。

随后，我们在标准化的数学基准上评估这些经过 RL 的 checkpoints，例如 AMO-Bench 和 HMMT 2025 Nov。我们观察到，InT+RL 在几乎所有标准化基准上都取得了最高性能，而且这些基准里并不只有难题。这表明：我们在自建训练集里学到的“攻克难题”的能力，确实能有效泛化到更广泛的题目分布中。

希望看完这篇essay的你能有所启发！如果你有什么疑问，欢迎在评论区讨论。