1. 首页
  2. 精选文章
  3. VLA 已经不满足于 SFT,也要上 RL 了?

VLA 已经不满足于 SFT,也要上 RL 了?

  • 发布于 2025-11-30
  • 6 次阅读

作者:张海抱

https://zhuanlan.zhihu.com/p/1976979860405633293

最近 VLA 的一大研究趋势就是不再满足于 SFT,而是也要上 RL 了。最近读了一波这方面的论文,分享一些心得。

首先,有些文献调研还是按照 online RL / offline RL / iterative RL / inference-time improvement 或者 policy-gradient / value-based 这样来分类的。但我感觉,这些都不关键。

强化学习就是提供了不同的优化方法,只要最后能跑通,其实应该差距不大;只要效果好,这些都是可以相互转化的。而且 offline RL 也并不是多么不好,它跟能不能部署到真机上也没啥关系。

举例:比如 What can RL brings to VLA generalization 上的算法就是一些 online 的;CoRFT 就是 offline RL;pi-star-0.6 就是 iterative RL;V-GPS 就是 inference-time improvement。

其次,真机可用是关键,如何保证安全和和效率(比如采数据的时候如何 resetting)是其中可能会涉及的问题。

当然,模拟也可能会发挥较大的价值,比如存在大规模 RL 预训练的可能性,甚至世界模型+强化学习的预训练模式可能以后也能跑通。在考虑这样的路径的时候,强化学习基础设施就很重要的。

举例:比如 SafeVLA 就在考虑安全性的问题;在基础设施方面,我感觉 RLinf、RLinf-VLA、SimpleVLA-RL 等做的比较好;WorldEnv、VLA-RFT 就研究如何基于世界模型来训练强化学习。

和无问芯穹首席研究员林灏,一起聊聊具身智能 RL 训练框架 RLinf 的系统设计

VLA+RL 算法如何设计?从零上手 OpenVLA 的强化学习微调实践

一起聊聊VLA强化学习训练框架:SimpleVLA-RL

目前的现状是,RL 完成单一任务效果都都还不错,哪怕是一些长程或者精细的任务都有做出来,朝着单一任务 RL 的方向发展下去的话,大家比拼的应该是 RL 适配新任务的效率,即用多少轨迹能把一个任务搞定。

举例:Pi-star-0.6 大概搞定一个较为长程的叠衣服这样的任务,需要 1k 量级的轨迹。

目前最大的挑战是,RL 能不能完成多任务,从而提升预训练模型性能。当然,我讲的不是简单的用一个 RL agent 来完成多个任务,而是多个任务之间能相互正向迁移、相互帮助,而不是相互拉扯 1+1 < 2。

这关系到这个领域的终极问题:RL 的上限在哪?现在确定的是 RL 能帮助 VLA 快速适应和微调,甚至返回来帮助数据采集;但不确定的是,能不能像 LLM 中的 RLVR 那样帮助提升预训练模型的基础性能。

举例:MoRE 希望做 multi-task,但是设计出发点还是觉得多个 task 会相互影响,所以用了 MoE;大部分工作也都是一族多任务一起做的,但是这些任务的学习能不能相互促进,以及在预训练规模上强化学习能不能有帮助,这都是有待研究的。

一个有意思的小问题是,最终是否需要学习一个或小或大的 reward function / value function? 关于这一点,我觉得还有待观察。

  • 一方面觉得奖励函数确实能降低方差,帮助模型很快地在单步上就知道应该往什么方面优化;
  • 而另一方面可能这个需求会随着预训练 VLA 模型性能的上升而降低 —— 预训练 VLA 本身产生的轨迹就接近满分了,再优化就需要尽量基于低 bias 的、哪怕 sparse 的一些奖励了。关于这一点,也可以参考现在的 LLM 中的 GRPO 就把 critic network 给干掉了。

举例:小的 reward function 比如 SERL 里面为专门任务训练的小神经网络,大 value function 包括 VLAC 里面的 VLM 级别的神经网络。

再讲一个研究生同学们可能关心的问题,如何找点课题来做? 目前,大家的研究出发点主要是以下两方面:

  • 1)奖励稀疏带来的问题(因此要么需要学习奖励函数,要么要加入 SFT、要么需要 human intervention);
  • 2) 策略网络规模大,diffusion 和 autoregressive 形式网络的应用所带来的问题或者特性(比如稳定性、效率等);
  • 3)前面聊到的我感觉最核心的 multi-task 的问题。

举例:比如 DSRL 就是针对 diffusion 的特性来设计强化学习方案;SERL-HIL 就是用 human intervention 来补足奖励稀疏难探索的问题;iRe-VLA 就是针对稳定性问题提出相应解决方案。