VLA 已经不满足于 SFT，也要上 RL 了？

作者：张海抱

https://zhuanlan.zhihu.com/p/1976979860405633293

最近 VLA 的一大研究趋势就是不再满足于 SFT，而是也要上 RL 了。最近读了一波这方面的论文，分享一些心得。

首先，有些文献调研还是按照 online RL / offline RL / iterative RL / inference-time improvement 或者 policy-gradient / value-based 这样来分类的。但我感觉，这些都不关键。

强化学习就是提供了不同的优化方法，只要最后能跑通，其实应该差距不大；只要效果好，这些都是可以相互转化的。而且 offline RL 也并不是多么不好，它跟能不能部署到真机上也没啥关系。

举例：比如 What can RL brings to VLA generalization 上的算法就是一些 online 的；CoRFT 就是 offline RL；pi-star-0.6 就是 iterative RL；V-GPS 就是 inference-time improvement。

其次，真机可用是关键，如何保证安全和和效率（比如采数据的时候如何 resetting）是其中可能会涉及的问题。

当然，模拟也可能会发挥较大的价值，比如存在大规模 RL 预训练的可能性，甚至世界模型+强化学习的预训练模式可能以后也能跑通。在考虑这样的路径的时候，强化学习基础设施就很重要的。

举例：比如 SafeVLA 就在考虑安全性的问题；在基础设施方面，我感觉 RLinf、RLinf-VLA、SimpleVLA-RL 等做的比较好；WorldEnv、VLA-RFT 就研究如何基于世界模型来训练强化学习。

目前的现状是，RL 完成单一任务效果都都还不错，哪怕是一些长程或者精细的任务都有做出来，朝着单一任务 RL 的方向发展下去的话，大家比拼的应该是 RL 适配新任务的效率，即用多少轨迹能把一个任务搞定。

举例：Pi-star-0.6 大概搞定一个较为长程的叠衣服这样的任务，需要 1k 量级的轨迹。

目前最大的挑战是，RL 能不能完成多任务，从而提升预训练模型性能。当然，我讲的不是简单的用一个 RL agent 来完成多个任务，而是多个任务之间能相互正向迁移、相互帮助，而不是相互拉扯 1+1 < 2。

这关系到这个领域的终极问题：RL 的上限在哪？现在确定的是 RL 能帮助 VLA 快速适应和微调，甚至返回来帮助数据采集；但不确定的是，能不能像 LLM 中的 RLVR 那样帮助提升预训练模型的基础性能。

举例：MoRE 希望做 multi-task，但是设计出发点还是觉得多个 task 会相互影响，所以用了 MoE；大部分工作也都是一族多任务一起做的，但是这些任务的学习能不能相互促进，以及在预训练规模上强化学习能不能有帮助，这都是有待研究的。

一个有意思的小问题是，最终是否需要学习一个或小或大的 reward function / value function？ 关于这一点，我觉得还有待观察。

一方面觉得奖励函数确实能降低方差，帮助模型很快地在单步上就知道应该往什么方面优化；
而另一方面可能这个需求会随着预训练 VLA 模型性能的上升而降低 —— 预训练 VLA 本身产生的轨迹就接近满分了，再优化就需要尽量基于低 bias 的、哪怕 sparse 的一些奖励了。关于这一点，也可以参考现在的 LLM 中的 GRPO 就把 critic network 给干掉了。

举例：小的 reward function 比如 SERL 里面为专门任务训练的小神经网络，大 value function 包括 VLAC 里面的 VLM 级别的神经网络。

再讲一个研究生同学们可能关心的问题，如何找点课题来做？ 目前，大家的研究出发点主要是以下两方面：

举例：比如 DSRL 就是针对 diffusion 的特性来设计强化学习方案；SERL-HIL 就是用 human intervention 来补足奖励稀疏难探索的问题；iRe-VLA 就是针对稳定性问题提出相应解决方案。