作者：haotian

https://zhuanlan.zhihu.com/p/2010293867208021164

目前，为了追求上限，各家都尽可能地使用onpolicy训练。对于agentic任务，往往是全异步配置，不可避免带来offpolicy的问题。offpolicy在使用合适的训练setting，也可以获得比较好的训练稳定性，如routing-replay、采样次数：梯度更新次数限制在8以内等等。

笔者去年12月份写了一个简易的proposal：如何让采样次数：梯度更新次数在大于8，甚至到256的时候，依然能稳定训练（虽然会提升收敛速度，但上限会低于小于8次的效果）。

基本的形式化如下（seq-level）：

从seq-level的角度出发，

\frac{\pi_{\theta_{n+1}}(y \mid x)}{\mu_{\theta_n}(y \mid x)}

IS-ratio不是一个很稳定的训练配置：variance会随着action-space、序列长度的增加而增加（可以从ESS角度分析）。

此时，variance是一个大头，可以牺牲一定的unbias换取low-variance。一个很直观的方法:self-normalized-importance-sampling(snis):

这个方法有个几个训练配置的需求：

1.mini-batch-data必须包含一个prompt的所有rollout样本--->计算w(x,y)；
2.参数更新后，需要recompute normalized weight:\tilde{w}(x, y_i);

进一步，[5]提出了

无独有偶，笔者浏览到iclr26的一篇文章[4]，发现一篇类似的工作（但因为hallucinated citation被desk-reject，初始分数：6662）。

当然，性能也是不错的：（[4]提供了更多关于snis的理论分析等等，但只做了lora-rl的训练）

GEPO

与之比较相关的一个工作:GEPO(训练a100，推理ascend910a）

其核心公式：

使用GEIW后，作者证明了如下定理: variance指数级下降相比朴素的P/Q

bias如果过大，也不太行，作者附录额外分析了gepo的bias：

实验设置上，作者使用了math500的level3-5的数据集作为rl的训练数据，think-mode下，设置的output-length=4096。

实验结论：

VESPO

考古AIS相关的文献，找到一篇[6]，里面提到

与VESPO比较相关的是variational-representation：proposal-distribution视作weighted-sum-of-kl-divergence between two distributions。在RL场景下，则为policy-distribution和rollout-policy-distribution。

VESPO将policy-gradient with off-policy correction做了形式化的表示，对于后续的求解比较关键。

另外一篇则是来自小红书团队的VESPO。这个工作笔者觉得比较有启发性，实验结果也还不错。

首先，作者形式化并统一了不同的方法：

可以统一写成：

当写成上述表达式后，作者提出了 “Weight Reshaping as Measure Change”

（大白话:不同的weight-shaping诱导出了不同的proposal-distribution）

有了这个形式化，后面的推导水到渠成：通过一些约束，找到q的closed-form-solution。很直观的一个约束想法：

Q需要靠近采样分布和policy分布--->作者选用了kl-div（可以换成其他divergence）：

可能有个小问题：当rollout-data相比policy过于陈旧，\mu 和 \pi的差距过大，使用如下度量方法，q也不是一个好的proposal（效果应该decay的比较严重）

且q的variance不能太大，且q是一个合法的概率分布：

q的采样variance需要一定的近似，作者使用ess近似。

带约束的求解，使用拉格朗日即可（与带kl约束的最优分布推导过程类似），作者得到：

再对比公式11，即可得到Weight Reshaping\phi(W)的表达式：

带入loss和梯度公式中，可以得到：

为了兼容onpolicy，

剩下的就是

当然，该工作的实验结果也是很不错的（具体实现的时候，在对数域操作，保持数值稳定性）：

当N=64时(rollout一次，更新梯度64次），效果decay的很严重(很奇怪，作者没有汇报dense-model的staleness结果）

训练稳定性在不同的delay下，都保持的很稳定(不需要引入额外的routing-replay等等）：

当然，由于gepo、vespo两个工作使用的数据集不相同，且gepo主要在异构芯片上的实验，两个工作相当难直接对比（需要额外跑实验）。但这两个工作都提供了比较好的视角：staleness比较大时候，如何保持训练稳定性。

当然，也需要和比如seq-mask+token-mask（所谓的“metropolis-independence-po”）这种方法对比。

最后，使用importance-sampling估计期望的时候，可能需要更复杂的proposal-distribution，诸如annealed-is、parallel-tempering等等，需要在效果和效率上折中。vespo提供了一种proposal-distribution的“自动化”寻找的方案（当staleness很大的时候，proposal-distribution可能不是很合理）。

Mask MCMC Great Again。

最后的最后，笔者觉得，即使做了weight-shaping，依然还是 sparsity的优化，比较不同方法的sparsity：更新参数比例、位置等等（参考[3]，进行更详尽的分析，可能可以从optimization的角度，给出一些新思路和方法）。

参考文献

[1] GEPO: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning
https://arxiv.org/abs/2508.17850
[2] VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training
https://arxiv.org/abs/2602.10693
[3] The Path Not Taken: RLVR Provably Learns Off the Principals
https://arxiv.org/abs/2511.08567
[4] PRINCIPLED POLICY OPTIMIZATION FOR LLMS VIASELF-NORMALIZED IMPORTANCE SAMPLING
https://openreview.net/pdf?id=HVciz8hi1c
[5] Pareto Smoothed Importance Sampling
https://arxiv.org/abs/1507.02646
[6] Annealed Importance Sampling with q-Paths
https://arxiv.org/abs/2012.07823

staleness很大的时候，如何保证offpolicy-rl训练稳定性

GEPO

VESPO

参考文献