作者：Kadima-Du
原文：https://zhuanlan.zhihu.com/p/2030412523703379683

研究人员比较了视觉-语言-动作（VLA）模型和世界动作模型（WAM）在各种视觉和语言扰动下机器人策略的鲁棒性。

WAMs由于其视频预训练，在噪音、光照和布局变化方面表现出卓越的鲁棒性，尽管VLA通过大量数据也能达到类似的鲁棒性；但是，WAMs的推理速度明显较慢。

论文：Do World Action Models Generalize Better than VLAs? A Robustness Study
连接：https://arxiv.org/abs/2603.22078

解决的问题：

1、机器人动作规划在多样化、不确定的真实世界环境中，面临将策略推广到训练数据之外的挑战。

2、现有的视觉-语言-动作（VLA）模型通常对新颖场景的泛化能力有限，并且容易受到上下文扰动的影响，这表明它们缺乏对物理世界的明确理解。

3、关于基于基础模型的机器人策略是否充分隐式地捕捉了世界动态，或者专用世界模型是否能为鲁棒性提供明显优势，存在争议。

采用的方法：

1、对最先进的VLA方法、混合VLA+世界模型方法和纯世界动作模型（WAMs）进行了比较研究。

2、评估采用了两个基准：LIBERO-Plus 和内部的 RoboTwin 2.0-Plus，两者都设计了七类视觉和语言扰动（例如，相机、光照、噪音、语言）。

3、在各种扰动条件下评估了模型的成功率，并分析了其运行时特性。

取得的结果：

1、在扰动下，LingBot-VA 等 WAMs 在 RoboTwin 2.0-Plus 上取得了 74.2% 的总体成功率，优于 π0.5 (58.6%)，显示出对噪音、光照和布局变化的强大鲁棒性。

2、WAMs 尽管有其优势，但在相机视角（LingBot-VA: 28.9%）和机器人初始状态（LingBot-VA: 36.2%）变化方面面临挑战，表明其在几何泛化方面存在局限性。

3、WAMs 的推理速度明显较慢，Cosmos-Policy 比最快的 VLA π0.5 (63 毫秒/块) 慢 6.2 倍，LingBot-VA 慢 83.0 倍，这归因于未来状态扩散的计算开销

4、机器人领域目前正经历一场从专业化、任务特定控制器向通用“基础模型”的转变。在这一背景下，出现了两种主要的架构范式：视觉-语言-动作（Vision-Language-Action, VLA）模型和世界动作模型（World Action Models, WAM）。

VLA利用大规模视觉-语言模型的推理能力，将观察结果直接映射到控制信号，而WAM则整合了一个预测组件——一个世界模型——它能预测环境将如何响应特定动作而变化。

本文研究了机器人学习中的一个基本问题：与VLA中的隐式学习相比，WAM中物理动力学的显式建模是否能带来更好的泛化能力和鲁棒性?

概念上的分野：VLA与WAM

为了理解研究人员的调查，首先有必要区分这两种模型处理信息的方式。大多数当代机器人策略都构建为VLA。在VLA框架中，模型被训练来寻找从视觉观察 o_t 和语言目标 g 到机器人动作 a_t 的直接映射。这可以表示为：

a_t = \pi(o_t, g) \in \mathbb{R}^d

其中 \pi 是策略，d 是动作空间的维度（例如关节速度或末端执行器姿态）。这些模型，例如 \pi_0 或RT-2系列，受益于海量的互联网规模图像和文本数据，这使它们对语义概念（例如，知道什么是“海绵”）有了高层次的理解。然而，它们通常缺乏对物理因果关系的内在理解——即物体运动的“为什么”和“如何”。

世界动作模型（WAMs）引入了一个中间步骤。它们不是直接跳到动作，而是利用一个世界模型 \mathcal{W} 来根据当前状态和候选动作预测未来的视觉状态 \hat{o}_{t+1}。核心预测目标可以看作是：

\hat{o}_{t+1} = \mathcal{W}(o_t, a_t) \in \mathbb{R}^{H \times W \times C}

通过对海量视频语料库进行训练，WAM学习到时空先验——物体如何落下、滑动或变形的模式。研究人员假设，由于WAM被训练来“想象”其动作的物理后果，当环境偏离训练分布时（例如，当光照变化或出现新的干扰物时），它们应该更具鲁棒性。

方法论：鲁棒性基准测试

这项研究使用一个系统的鲁棒性框架来评估这些模型。大多数机器人基准测试的是“分布内”性能，即测试环境与训练环境密切匹配。为了真正测试泛化能力，作者利用了两个基准测试：LIBERO-Plus 和一个内部开发的名为 RoboTwin 2.0-Plus 的套件。

这些基准测试引入了七种不同类别的上下文扰动，旨在对模型进行压力测试：

视觉噪声：对输入图像应用高斯模糊、运动模糊或雾等光度失真。
光照条件：改变光源的强度、方向和色温，以及改变阴影特征。
布局变化：引入与任务无关的干扰物，或改变目标对象的起始位置。
背景变化：改变桌面纹理或周围场景主题。
摄像机视角：改变观察场景摄像机的姿态、距离或方向。
机器人初始状态：改变机器人的起始关节配置和抓手状态。
语言变化：对指令进行转述或在文本命令中添加复杂的推理链。

通过隔离这些变量，研究人员可以具体确定每种模型架构在何处成功或失败。例如，如果一个模型在原始任务上表现良好，但在添加少量高斯模糊后失败，这表明该模型正在对其训练数据的像素级细节进行“过拟合”，而不是理解底层任务。

主要发现：世界模型（WAMs）的优势

实证结果表明，与许多视觉语言模型（VLAs）相比，世界模型（WAMs）通常对视觉扰动表现出卓越的鲁棒性。在RoboTwin 2.0-Plus基准测试中，领先的WAM（LingBot-VA）在所有扰动下取得了74.2%的成功率，而可比较的VLA（\pi_{0.5}）为58.6%。 WAMs的主要优势体现在照明、噪声和布局等类别。

研究人员将此归因于WAMs的“生成”性质。许多WAMs使用基于扩散的骨干网络，这些网络本质上就是为去噪和图像重建而设计的。当WAMs接收到嘈杂或光线不足的图像时，其内部世界模型可以根据其在数百万个清晰视频上进行的预训练，通过预测场景应该是什么样子来有效“清理”信号。考虑这些模型中使用的扩散过程。模型迭代地细化噪声表示以生成清晰的预测：

x_{k-1} = \frac{1}{\sqrt{\alpha_k}} \left( x_k - \frac{1-\alpha_k}{\sqrt{1-\bar{\alpha}_k}} \epsilon_\theta(x_k, k, c) \right) + \sigma_k z

在此方程中，x_k表示扩散步长k时的状态，\epsilon_\theta是预测的噪声。这种迭代细化使得WAMs即使在输入o_t退化时也能幻化出一致的物理结构。研究观察到，在标准VLA策略难以识别目标对象的严重光照变化下，WAMs能够保持较高的成功率。

世界动作模型的弱点

尽管WAMs具有视觉弹性，但它们并非普遍优越。研究确定了两个主要关注领域：几何泛化和推理延迟。

几何和机器人扰动:

当面临摄像机视角和机器人初始状态的变化时，WAMs的性能显著下降。虽然它们可以“去噪”模糊的杯子图像，但当杯子从其训练数据中未充分表现的全新角度观看时，它们会遇到困难。

这表明从网络视频中学习到的时空先验在捕捉外观和运动动态方面比在捕捉刚性3D几何变换方面更有效。

延迟障碍:

对于实际部署而言，最关键的发现可能是WAMs的计算成本。由于WAMs必须生成未来的视频帧或高维潜在状态来规划其行动，因此它们比VLA慢得多。研究人员测量了几种模型每次行动块的推理时间：

\pi_0 (VLA)：63毫秒
X-VLA (VLA)：195毫秒
Cosmos-Policy (WAM)：390毫秒
LingBot-VA (WAM)：高达5230毫秒（取决于去噪步骤的数量）

在高风险机器人领域，控制器可能需要以10Hz或50Hz的频率运行以保持稳定，几秒钟的延迟是令人望而却步的。虽然“Fast-WAM”变体试图通过在推理过程中省略视觉状态生成来缓解这个问题，但它们往往失去了使WAM范式最初具有吸引力的鲁棒性优势

数据的角色：隐式与显式动态

该论文中一个有趣的观察是\pi_0模型在LIBERO-Plus基准测试上的表现。尽管\pi_0是一个VLA，但在该特定套件上它取得了最高的总成功率（85.7%），超过了WAMs。这表明显式世界建模并非实现鲁棒性的唯一途径。

如果一个VLA在一个足够庞大且多样化的数据集（包含多样化的机器人数据、几何基础和网络规模知识）上进行训练，它可以隐式地学习世界的动态。

在这种情况下，模型的策略\pi(o_t, g)之所以变得鲁棒，是因为它已经有效地见识了足够多的变化，从而内化了环境的物理约束。

然而，研究人员认为，WAMs在实现这种鲁棒性方面更“数据高效”。WAM可以利用其在初始视频生成预训练期间学到的物理先验知识，因此需要较少的特定机器人数据即可达到高水平的视觉鲁棒性。

相比之下，VLA必须在其监督动作调整阶段看到这些扰动，才能学会忽略它们。

混合方法：中间地带

该论文还评估了MOTUS和VLA-JEPA等“混合”模型。这些模型试图结合这两种世界。例如，VLA-JEPA使用标准的VLM主干，但添加了一个辅助训练目标来预测未来的潜在状态。其目标是为模型提供对时间和物理的“感知”，而无需承担完整视频生成的繁重计算负担。

结果表明，这些混合模型通常处于光谱的中间位置——比基线VLA更鲁棒，但比全尺寸WAM更快。例如，MOTUS在RoboTwin基准测试中对机器人初始状态变化的鲁棒性最高，这表明“世界模型感知”策略在理解机器人自身空间配置方面可能特别出色。

结论和未来展望

这项研究对机器人基础模型的当前状态提供了细致入微的视角。主要结论是，没有单一的“最佳”架构；相反，鲁棒性、数据需求和速度之间存在权衡。

WAMs代表了创建能够在视觉复杂和不可预测环境（如家庭或户外空间）中运行的机器人的一个有前途的方向，因为它们的生成式主干为对抗视觉噪声和光照变化提供了天然的防御。

然而，对于需要高速反应或具有高度可变相机设置的应用，当前一代的WAMs可能不如训练有素的VLA。对于研究人员和工程师来说，这项工作提出了几个未来方向：

1、优化 WAM 推理：寻找将世界模型的鲁棒性提炼成更快、非生成式策略的方法。

2、改进几何先验：超越2D视频预训练，纳入3D或多视图数据，以帮助模型处理视点变化。

3、统一预训练：开发从一开始就将动作预测和世界建模视为同等目标的模型，而不是对视频生成器进行动作微调。

4、通过严格定义这两种范式之间的“鲁棒性差距”，研究人员为构建下一代通用机器人代理提供了路线图。

World Action Models 真的比 VLAs 更强吗？