1. 首页
  2. 精选文章
  3. 预训练构建想象,微调驱动行动:World-Action Models 的崛起

预训练构建想象,微调驱动行动:World-Action Models 的崛起

  • 发布于 2026-07-05
  • ·
  • 2 次阅读
  • ·
  • ·

原文链接:https://developer.nvidia.com/blog/pretrained-to-imagine-fine-tuned-to-act-the-rise-of-world-action-models

背景

视觉动作策略负责将当前观测与目标或指令相融合,映射为机器人的执行动作。世界模型则基于当前状态以及动作或目标的抽象表示,来预测未来的视觉或隐状态。

世界动作模型(WAM)正处于两者的交汇点:它借助预训练的视频或世界模型主干网络作为先验,能够同时预测未来状态与机器人动作。

Visuomotor policy:输入语言指令与当前观测,输出动作序列

_World model:_输入当前世界状态与动作抽象,输出未来图像或隐状态。

简介

去年,我的Scholar Inbox摘要几乎每天都被新的VLA论文主导。这种情况在过去几个月发生了变化,现在另一个关键词几乎每天都会出现:WAM,即World-Action Model的缩写。去年10月,我在VLA现状文章中写道,WAM是VLA研究中的一个小型子领域,比从VLM初始化的VLA要小众得多。情况变化很快,我希望在这个方向上看到更多工作的愿望已经成为现实。

那么发生了什么,为什么是现在?也许是因为WAM是每个人都想研究的新热门,或者VLA作者已经用完了为自己的VLA命名的新名字,因为基本上所有"-VLA"名称如"X-VLA"和"Ego-VLA"都已经被使用了。所以现在我们可以将它们回收到WAM领域。但更可能的原因与基于VLM的VLA遇到的瓶颈有关。

现代VLA受益于大规模视觉-语言预训练,但它们仍然遇到了语言-动作落地墙。将语言和像素映射到行为的问题仍然需要从机器人数据中学习。

WAM提供了一个不同的起点。它们使用预训练的video或world-model主干,已经建模了场景动态如何随语言条件变化。如果这个先验能迁移到行为生成,剩余的video-to-action差距可能比直接从零学习语言-动作落地要小。

但WAM背后的想法并不新鲜。早期的WAM如UniPi在2023年基本上就提出了这种方法。那么为什么这个范式需要数年时间才能进入机器人基础模型主流,它目前实际处于什么位置?这篇文章深入审视现代WAM领域,以回答核心问题:

核心问题:这是研究和行业的真正范式转变,还是只是一个短期的 hype cycle?如果这个配方如此有效,为什么在UniPi等早期论文之后需要数年时间才让WAM变得如此流行?

我的观点:WAM将成为机器人基础模型的第二主要配方,与基于VLM的VLA并列。开放的问题是哪一种配方胜出,以及模型架构和流程的哪些部分真正重要。获胜者可能既不是纯VLA也不是纯WAM,而是两者的混合。

两种通用策略的代表赌注

图1. 通用操作策略的两种当前代表赌注:基于VLM的VLA与视频主干WAM。

该领域目前有两个主要的通用操作策略代表赌注(无论是在研究还是行业)。许多团队正在建立在Pi-0确立并由Pi-0.5完善的传统VLA配方基础上,使用VLM主干作为策略学习的起点。这个VLM-主干配方出现在包括NVIDIA GR00T、小米机器人、Being-H0.5等团队的公开工作中。

最近,一个不同的范式出现了:使用预训练的video主干作为通向通用操作的替代路径。公开例子包括NVIDIA的DreamZero和Cosmos Policy、蚂蚁集团的LingBot-VA、Rhoda AI的DVA、Sereact的Cortex 2.0,以及Mimic Robotics的mimic-video。与此同时,许多大学实验室和开放研究团体也在用新想法推动前沿,包括Video Prediction Policy、Unified Video Action Model和Fast-WAM。

主干的选择影响整个训练和评估流程,从训练配方和数据混合到推理优化。考虑到在规模上运行这些模型的成本,大多数团队可能必须首先优先考虑一个方向(VLA或WAM)而不是并行追求两者。哪条路径被证明有效,或者两者是否收敛,仍未确定。你今天会赌哪一条?

为什么选择World-Action Models?我们的假设

图2. 机器人领域的世界模型

在深入了解当前模型之前,让我们先回顾一下为什么WAM作为基于VLM的VLA的替代方案具有吸引力。将WAM置于机器人世界模型的更广泛图景中也有帮助。

落地差距

要理解为什么WAM有吸引力,了解建立在VLM主干上的"经典"VLA的核心挑战很有帮助。第一个VLA的动机是利用VLM的互联网规模知识。VLM在大量视觉-文本数据上训练,在许多视觉任务上表现出显著的零样本性能。然后VLA配方将这些预训练表示适应于动作生成。

然而,VLM预训练和具体操作之间存在重大领域差距。一些VLA论文观察到预训练VLM能力的退化或围绕其进行设计,特别是在动作学习目标与原始VLM目标严重偏离时。VLM2VLA直接将其框定为VLM到VLA转换过程中的灾难性遗忘。

Knowledge Insulation报告了类似发现,并将问题 architectural化:它将flow-matching动作专家的梯度与VLM主干隔离,以保留预训练的语言/视觉知识,提高训练收敛、任务性能和语言跟随。

最近的解决方案如VLM共同训练和离散动作分词器有所帮助,但核心挑战仍然存在:从有限的机器人数据中将语言接地到物理动作。

这自然会引出这个问题:如果我们从一个已经表示语言如何映射到世界视觉变化的主干开始呢?

WAM作为策略表示的核心假设

核心思想很简单:不是使用VLM主干来启动模仿学习,而是使用预训练的video主干。当前video模型在大规模video语料库上训练,学习视觉场景如何演变的时空表示。

关键的是,当前video模型通常是文本条件的:它们被训练从精确的语言描述生成视频,有时带有参考帧,有时仅从文本生成。许多这些视频包含有意图的行为:手伸出、工具移动、物体被操作、以及因为某人或某物行动而场景变化。

这使得video主干作为通用操作的模型先验具有吸引力。在看到任何机器人动作之前,主干已经编码了语言、视觉变化和可信物体交互之间的有用联系。

我会将以下三点视为假设而非结论。它们是跨论文、同行讨论和我自己对领域的解读中的反复出现的主张,得到定性直觉、模拟证据和一些早期现实世界信号的支持,但没有经过干净的对照比较:

1、 预测未来世界变化与生成必要动作相关。逆动力学预测通常比纯动作生成更容易。如果已知期望结果,推断产生它的动作通常比直接从指令和当前观察预测动作更简单。Pi-0.7的视觉子目标结果指向同一方向:当策略被给定期望的未来图像时,动作预测变得更直接,训练收敛更快。

2、 Video预训练在语言和物理变化之间提供落地。Video模型学习将文本描述映射到视觉结果。如果这能迁移到机器人,可以减少必须从机器人演示中学习的落地量。

3、 Video数据正则化机器人策略。机器人数据集相对于网络规模的video很小。无论是首先在video上预训练还是与机器人数据共同训练,更广泛的视觉先验可以减少过拟合;好处取决于数据集、目标和架构。DreamZero和Fast-WAM都表明,在机器人微调期间,当动作学习与video预测目标共同训练时,WAM表现最好。

快速实验:前沿video模型已经"理解"了多少机器人操作?

现代video模型在任何机器人特定动作头之前已经捕获了多少?我们使用Google的前沿video生成模型Veo 3.1进行了简单实验。给定来自DROID设置中烤面包机任务的原始RoboArena rollout的单个上下文帧,我们提示Veo推动烤面包机杠杆(参考任务,与原始DROID演示匹配),然后捡起左边的橙色(合成扩展,超出演示)。

使用的提示是:

“Given this initial frame, generate a video of the robot arm pushing the toaster lever. After finishing that task, the robot should pick up the orange on the left side of the toaster and stop after it has picked it up.”

图3. DROID设置中RoboArena烤面包机任务的上下文帧。

图4. Ground-truth rollout:机器人推动烤面包机杠杆。

图5. Veo 3.1在参考任务(推动烤面包机杠杆)上的rollout。

图6. Veo 3.1在合成扩展(杠杆推动后接橙色捡起)上的rollout。

图7. 完整合成扩展序列的动画rollout。

生成的rollout出乎意料地好——对于一个未明确训练为机器人策略的模型来说。生成的运动流畅,背景保持稳定一致,机器人遵循朝向两个目标对象的可信轨迹。甚至顺序也被尊重:先完成杠杆,然后移动到橙色。

局限性同样明显:模型没有完全按下烤面包机杠杆,有时似乎尝试相反的动作(向上拉)。更明显的是,原始DROID设置中的pinch gripper变成了四指手。固定基座机器人手臂几乎在上下文帧之后立即被重新想象为具有更少自由度的不同机器人。这些伪影与模型使用广泛视觉先验而非忠实建模特定硬件一致。

尽管如此,这个结果说明了为什么video主干对机器人具有吸引力:模型对于机器人-物体交互应该是什么样子有一个有用的先验,尽管它还不够可靠以用于控制。WAM微调正是将这种零样本想象转化为可靠控制的尝试。

理解现代WAM:核心公式

图8. WAM设计空间一览。

在建立核心动机之后,我们现在可以关注当前的WAM研究。与VLA配方已大致围绕VLM共同训练和用于动作生成的flow transformer收敛的基于VLM的VLA不同,WAM仍在分裂成几个活跃的方向。这正是让这个领域此时有趣的原因:该领域尚不知道哪种设计组合会获胜,或者最佳系统是否会合并几个部分。

为了使设计空间可读,我们将WAM沿着三个轴组织(它们并非完全独立):

  • 范式:模型预测什么,以及如何使用预测的video来生成动作?(逆动力学 vs 联合预测 vs 仅表示)
  • 动作集成:动作如何真正进入模型?(默认动作token vs 动作即图像 vs 潜在动作/计划)
  • 架构:组件如何组合?(Transformer混合 vs 单片式 vs 分层式)

这些轴并非完全独立,一些WAM不能很好地适应单一类别。我不会将其视为完美的分类法。它应该更像是阅读当前论文的实用地图,而不会在命名选择中迷失。对于每个轴,我先用一篇较早的论文呈现想法,然后再到相同粗糙配方的现代规模化版本。

范式:模型预测什么

第一个轴是策略公式:模型预测什么,以及如何使用预测的视频来生成动作?在现代WAM中,我们看到三个在推理边界不同的方向:逆动力学、联合预测和仅表示。

逆动力学:预测未来,然后推断动作

图9. 逆动力学WAM(抽象)。

逆动力学设置是最容易理解的WAM配方:首先想象未来,然后从视频中预测最可能的动作。这将困难的语言落地问题转移到视频阶段:将命令翻译成可信的视觉变化。赌注是video预训练已经学习了这种语言到视觉变化映射的有用部分,因此动作头不需要从机器人演示中学习一切,可以专注于逆动力学问题。

图10. UniPi概述。

UniPi是这个方向的开创性论文。它可能是第一个清楚地意识到video扩散对机器人潜力的这个配方的现代实现:用video作为高级计划,然后使用逆动力学恢复低级控制。许多最近的WAM工作看起来像是它的改进版本。

UniPi也展示了为什么WAM需要数年时间才成为主流。它使用了来自Imagen Video时代的基于CNN的video扩散堆栈,video生成器必须从头开始预训练。我们在注释2中的粗略估计将其预训练置于约167 ZFLOPs,远超大多数机器人实验室的预算。

图11. LingBot-VA架构。

这个方向的现代版本是LingBot-VA。它通过16k小时的跨实体预训练将Wan 2.2-5B转变为机器人video-动作模型。与UniPi的重要区别不仅仅是规模。LingBot-VA是因果的,并在长视觉历史上进行训练,用于闭环rollouts而不是开环video生成。它还使用Transformer混合(MoT)架构:video和动作的独立专家,每个都有自己的权重,通过每层中的共享自注意力耦合。

表1. 逆动力学,原始配方 vs 现代规模化版本。

设计选择 UniPi LingBot-VA
主要思想 生成未来视频计划,然后用逆动力学恢复动作。 微调视频主干用于闭环机器人世界-动作rollouts。
主干 基于CNN的视频扩散(级联U-Net),在Imagen Video时代从头训练。 Wan 2.2-5B潜在DiT(开放权重)。
潜在视频VAE 无;生成低分辨率RGB未来。 Wan 2.2-5B(16×16空间,4×时间)。
动作专家 单独的CNN动作头。 通过联合注意力耦合的MoT动作专家。
动作-视频耦合 单向:先视频,后动作。 双向:视频条件动作;生成的动作条件视频。
机器人训练规模 小,仅演示。 跨实体的16k小时机器人世界-动作预训练。

同一主题有多个变体。Video Prediction Policy、DiT4DiT和mimic-video不一定需要最终RGB video;它们使用中间video模型特征作为动作解码器的预测计划。DVA和LingBot-VA更直接地依赖于生成或预测的未来rollouts。困难的部分是大多数论文改变了video主干,使用不同规模的大规模预训练,调整不同的超参数,并在不同的设置上评估。

联合预测:一起学习video和动作

图12. 联合预测WAM(抽象)。

第二个公式是联合预测。不是首先生成未来video然后解码动作,而是模型一起预测video和动作。这是WAM想法的更耦合版本:模型被迫在同一预测步骤中学习应该发生什么以及如何使其发生。

图13. GR-1架构。

GR-1是这个方向的早期基础论文。它在大规模video上预训练,然后在本地机器人数据集上进行具有video和动作监督的微调。它使用GPT-2风格的transformer策略,在互联网video预测上用readout tokens进行预训练,然后在具有联合video-action目标的机器人数据上进行微调。早期工作如R3M和Voltron已经表明video和语言可以帮助机器人表示学习,但GR-1做出了一个简单而重要的转变:它使用video来学习更好的策略表示,而不仅仅是图像级视觉表示。

当时,CALVIN结果是有用的模拟证据。在较难的ABC→D划分上,GR-1表中之前的方法保持在平均序列长度1.0以下,而GR-1达到了3.06/5。这个结果在历史上很重要。它表明预测未来视觉状态可以塑造更好的策略表示,而不仅仅是更好的视觉编码器。

图14. CALVIN ABC→D结果。

DreamZero是这个想法的现代规模化版本。不是围绕video预测头训练一个较小的transformer风格策略,而是从Wan 2.1-I2V-14B-480P开始,将video扩散主干转变为联合world-action模型。模型在一个单片DiT内共同去噪video和动作token。没有单独的逆动力学模块:动作是同一去噪过程中的另一种生成模态。

图15. DreamZero架构。

DreamZero报告的RoboArena分数是WAM的重要现实世界信号。虽然大多数论文仍然关注LIBERO和其他模拟基准等流行基准,但RoboArena是少数公开的现实世界、开放评估之一。

图16. 2026年4月RoboArena排行榜快照。

在2026年4月的快照中,DreamZero达到1750,而Pi-0.5为1622,这是WAM潜力的一个有意义信号。这不是WAM是更好的默认选择的证明,但对其潜力是一个积极信号。有趣的是DreamZero仅在DROID上训练,没有额外的大规模跨实体机器人训练阶段。

表2. 联合预测,早期策略级版本 vs 现代规模化版本。

设计选择 GR-1 DreamZero
主要思想 将未来帧预测用作学习动作的辅助目标。 在一个video扩散主干内共同去噪未来video和机器人动作。
主干 带video预测readout tokens的GPT-2风格transformer策略。 为机器人控制适应的Wan 2.1-I2V-14B-480P video扩散模型。
规模 ~21M策略参数;预训练视觉和语言编码器保持分离。 14B Wan主干,端到端动作调整。
生成目标 未来video和动作的L2重建。 联合未来-video和动作生成的Flow/去噪。
潜在视频VAE 无;预训练MAE/ViT视觉特征。 继承的Wan潜在视频VAE。
语言条件 CLIP。 T5家族文本编码器(继承自Wan)。

GR-2、Seer、PAD、UWM、UVA和DreamVLA位于这个更广泛的联合预测波附近。PAD是另一个早期尝试,在一次联合去噪过程中进行联合未来图像预测和机器人动作生成。UWM使用独立的video和动作噪声来支持联合transformer内更灵活的推理模式。

仅表示:推理时跳过video生成

第三个选项是纯粹将video主干用作表示,在推理时完全跳过video生成。Fast-WAM是这个想法的一个很好的例子。

Fast-WAM使用与LingBot-VA类似的Wan/MoT风格设置,即使没有16k小时的大规模机器人预训练,也能在模拟基准上紧密匹配其性能。此外,在测试时跳过video生成使其推理速度快了好几倍。然而,Fast-WAM是仅表示假设的少数公开证据之一,当前模拟证据不足以真正说服我这个想法。

今天大多数WAM在推理时保留某种形式的video生成,而且很慢。像Fast-WAM这样的更快WAM将成为未来更大的研究领域。

动作集成:动作如何进入模型

在讨论了如何结合video和动作预测之后,让我们关注动作在模型内部如何表示。这个选择很重要,因为预训练主干知道如何去噪视觉token,而不是连续机器人动作,所以存在真正的模态不匹配。我看到三个变体。

默认动作token

最简单的默认值是添加动作token(连续或离散)和动作头,其中动作被视为与video并列的另一种模态。UniPi、GR-1、DreamZero、LingBot-VA、VPP、mimic-video和Fast-WAM都使用某个版本。风险是模态不匹配:动作块与主干预训练所基于的视觉token不同,因此模型必须在动作微调期间调整其表示。

动作即图像

另一个选项是将动作转换为视频模型已经知道的东西。不是新的动作token或单独的动作头,而是将动作编码为相同生成界面内的视觉目标,因此不会破坏预训练的video表示。

图17. GENIMA将动作转换为视觉目标。

最近的早期祖先是GENIMA。GENIMA微调Stable Diffusion来在RGB图像上绘制关节动作目标,然后使用控制器将这些视觉目标映射回关节位置动作。有趣的是界面选择:动作被表达为生成图像模型可以绘制的东西。

图18. Cosmos Policy潜在注入。

这个方向的现代版本是Cosmos Policy,它将动作视为合成潜在视频帧。不是添加单独的动作解码器,而是将动作、本体感觉和价值目标编码为video模型自身去噪界面内的假帧,在推理时通过平均空间维度将预测的动作图像解码回动作向量。这个设置保持了预训练的video主干接近其原生video去噪空间,同时仍能产生机器人动作。

潜在动作和计划

另一个选项是将行为压缩成潜在计划或潜在动作,并让策略以这些为条件。这很有吸引力,因为完整video预测很昂贵,而且大多数像素实际上不需要控制。潜在计划和潜在动作并不完全相同,但在这个讨论中我将它们归为一类:两者都是从轨迹或video学习的紧凑行为抽象。

图19. Play-LMP架构。

Play-LMP在2019年开创了这个想法。这值得记住,因为这个基本思想早于当前的基础模型浪潮。Play-LMP将子任务压缩成一个小潜在空间,作为调节低级策略的中间抽象。具体来说,一个后验网络将短轨迹窗口压缩成潜在计划,一个先验学习从当前观察和目标图像预测那个潜在计划,一个低级策略将采样的计划解码成动作。

现代潜在动作波改变了规模和数据源。Genie表明潜在动作token可以从无标签互联网video中学习,并用于驱动动作条件的world model。然后LAPA将这种潜在动作预训练推向VLA风格的机器人学习。

图20. Being-H0.7潜在世界-动作架构。

Being-H0.7是原始Play-LMP想法的现代WAM版本。它保持先验/后验潜在计划逻辑,但以基础模型规模执行,有几个主要变化。

它不是使用小的分层潜在计划策略,而是使用更大的Transformer混合主干。类似于Play-LMP,模型有一个后验分支和一个先验分支。后验分支可以访问未来观察,用冻结的V-JEPA2.1视觉编码器和Perceiver重采样器对它们进行编码,并将它们压缩成K个未来嵌入。

先验分支使用可学习的潜在查询,并学习从可用上下文匹配那些未来知情的潜在状态。

在测试时,后验分支被移除,因此策略获得一个快速的潜在界面,而不是强迫模型重新生成完整video序列。

动作生成部分仍然是flow-matching动作策略。Being-H0.7在200,000小时自我中心人类video以及15,000小时机器人演示上训练。

表3. 潜在抽象,早期潜在计划配方 vs 现代规模化潜在世界-动作配方。

设计选择 潜在计划/Play-LMP Being-H0.7
主要思想 将短机器人行为窗口压缩成调节低级策略的潜在计划。 从大规模自我中心video和机器人演示学习潜在世界-动作模型。
数据源 机器人play/演示轨迹。 200k小时自我中心人类video加15k小时机器人演示。
架构 分层潜在计划策略;LSTM低级解码器。 用于潜在世界-动作建模的大型MoT transformer。
潜在变量 轨迹级潜在计划,先验/后验训练。 相同先验/后验结构,基础模型规模。
策略接口 预测先验计划;以观察和目标为条件的低级策略执行它。 训练两个分支;测试时只有先验分支通过紧凑潜在界面运行。

关键区别不是潜在变量本身。Play-LMP已经有核心先验/后验潜在计划想法。Being-H0.7展示了这个界面如何可以在现代WAM/VLA混合内部扩展。

潜在动作作为动作条件world模型的抽象也变得流行。最近的例子是DreamDojo,它从大规模自我中心人类video中学习连续潜在动作,用于可控world model。与逆动力学的重要区别是监督路径。

逆动力学WAM通常需要配对的video和动作数据来学习视觉转换如何映射到motor commands。潜在动作方法则首先尝试从video本身学习行为抽象,然后将该抽象连接到机器人动作。

架构范式:分层式、单体式,还是 MoT?

图21. 分层。

第三个轴是架构:组件如何结构化组合。这在大多数情况下与前两个轴正交。逆动力学可以是分层的或MoT风格的,联合预测可以是单片的或专家式的,潜在动作方法可以放在几个不同的包装器中。

分层是最灵活的设计,因为动作头是完全模块化的。它可以是任何东西,从简单的CNN回归器(UniPi)到完整的VLA堆栈(Pi-0.7的BAGEL子目标加上基于VLA的动作专家),VPP和mimic-video通过传递中间video模型特征而不是完整RGB rollouts坐在中间。缺点是video和动作阶段之间的耦合较弱。信息单向流动,所以这种风格在video和动作应该强烈相互影响时不太自然。

图22. 单片transformer。

像DreamZero这样的单片transformer将video和动作去噪放在同一个堆栈中,这使它们在两个流之间获得强耦合。它们也是动作即图像设置(如Cosmos Policy)的自然选择,其中动作和video已经在相同的潜在空间中。风险是双重优化:相同的模型权重必须处理密集视觉token和更稀疏的动作目标。

图23. Transformer混合。

**Transformer混合(MoT)**是当前的默认值,包括在现代VLA(Pi-0、Pi-0.5)和最近的WAM(如LingBot-VA和Fast-WAM)中。模态特定参数保持表示分离,而共享注意力仍然让video和动作交换信息。我的猜测是MoT风格设计也将成为主流WAM架构,主要因为它们是模块性和耦合之间的实际折衷。

为什么WAM现在爆发

我的简短答案是:虽然这个想法并不新鲜,但所需的工具如预训练的video模型终于赶上了。早期配方(用于逆动力学的UniPi、用于联合预测的GR-1、用于潜在抽象的Play-LMP)有好想法但工具有限:更小的主干、更弱的video数据,没有公开可用的video基础模型,以及与现代动作块策略相比不太有效的per-step动作头。它们的现代对应物(LingBot-VA、DreamZero、Being-H0.7)使用了几年前不存在的 infrastructure 和大规模机器人数据集。

首先,video主干变得更强大。像Wan和Cosmos这样的基于DiT的模型取代了早期的基于CNN的堆栈,具有更好的时间压缩、flow-matching目标和精心策划的网络规模video数据。

其次,这些主干变得公开可用。研究人员现在可以微调一个强大的预训练video模型,而不是自己支付全部预训练成本。

第三,动作方面也赶上了:现代系统用transformer或flow-matching头预测动作块,而不是小的per-step MLP头。这就是为什么WAM现在看起来像一个真正的配方,而不仅仅是一个挂着更好名头的旧想法。

WAM比较

下表总结了我们之前涵盖的模型,通过不同的设计决策进行分类:模型预测什么,动作如何进入,使用什么主干,以及使用什么架构?WAM空间发展很快,所以这只是论文的选择性子集。

表4. 选定WAM及相关模型比较,沿着三个设计轴(范式、动作集成、架构),加主干和年份。

模型 范式 动作集成 主干 架构 年份
Play-LMP — (pre-WAM) 潜在计划 Transformer + LSTM (scratch) 分层 2019
UniPi 逆动力学 默认动作token CNN Video Diffusion (1.7B) 分层 2023
GR-1 联合预测 默认动作token Transformer (scratch) 统一Transformer 2024
GENIMA 逆动力学 动作即图像 Stable Diffusion / ControlNet 分层 2024
Seer 逆动力学 默认动作token Transformer over visual/action tokens 统一Transformer 2025
VPP 逆动力学 默认动作token Stable Video Diffusion 分层 2025
mimic-video 逆动力学 默认动作token Video Diff (Cosmos) 分层 2025
DreamZero 联合预测 默认动作token Video Diff (Wan 14B) 单片DiT 2026
LingBot-VA 逆动力学 默认动作token Video Diff (Wan 2.2-5B) MoT 2026
Cosmos Policy 联合预测 动作即图像 Video Diff (Cosmos) 单片DiT 2026
Being-H0.7 联合预测(潜在) 潜在计划/动作 MoT transformer (scratch, 200k+15k hr data) MoT 2026
Fast-WAM 仅表示 默认动作token Video Diff (Wan 5.5B) MoT 2026

实际考虑

我们已经看到一些有前途的WAM模型和一些有前途的结果。然而,也有几个核心问题:

  • 高训练成本。Video主干处理的token比图像条件动作策略多得多,完整video预训练很昂贵。
  • 推理慢。生成或去噪未来video潜在变量的策略比简单VLA慢得多。
  • 内存和系统复杂性。长video-token序列占用GPU内存、通信和数据加载。在单卡本地GPU上运行10B+ WAM模型而不进行额外工程工作是很困难的。

Video先验的成本

强大的video先验可以在某些设置中减少机器人数据需求,并在使用Wan等现代video模型时仍能提供强大的零样本性能。在实践中,这通常用计算成本换取机器人数据效率。

基于VLM的VLA在两个训练阶段都更便宜,因为它们的序列更小:它们编码一到几张图像加上文本,然后预测文本或短动作token序列。WAM训练预测具有额外动作token的video潜在变量序列。与VLA序列相比,video token序列通常长约10倍。这使得在相同数据集上训练比默认VLA训练更昂贵。

训练成本很难在模型之间比较,但我们可以从论文和GitHub repos中的可用细节做出粗略的下限估计。因此,我们使用简单的密集transformer下限估计:

C_{train} \approx 6 \times N_{train} \times T

其中 N 是可训练密集参数的数量,T 是处理的token数量。

图24. ZFLOPs中密集核心训练计算的下限估计。

图24给出了不同VLA/WAM训练成本估计的概述。DreamZero风格动作调整约为9 ZFLOPs,与轻量级VLA训练相比已经很大。现代VLA如MolmoAct2报告从Molmo2-ER到DROID checkpoint的完整成本约为9.8 ZFLOP当量。

Summer-22B是用于理解在规模上训练竞争性视频基础模型所需成本的现代公开视频预训练token/数据参考:具有22B参数模型和论文的约500B token训练规模,它给出约66 ZFLOP的视频预训练估计。

如果我们将其缩减以匹配DreamZero的Wan大小14B,我们可以估计训练视频模型和WAM阶段 together约为51 ZFLOPs。与高效的VLA Foundry配方6.9 ZFLOPs相比,这产生了约7.4倍的差距。

除了总FLOPs,还有硬件和工程障碍。具有大约8k-token动作调优序列的14B参数模型需要大量GPU内存,通常需要具有高端互连的多节点设置。成功的video模型训练还依赖于稳健的数据过滤、字幕、video解码、潜在预处理、分布式I/O和长序列DiT infrastructure。

DreamZero认为更强的video生成转化为更强的策略性能,所以WAM不仅计算饥饿,而且video-数据-质量饥饿:过滤、字幕、潜在表示和生成预训练都成为策略配方的一部分。基于VLM的VLA没有显示出相同的清晰联系。

VLM4VLA发现VLM初始化有助于从头开始训练,但通用VLM能力是下游VLA性能的较差预测因子。对于WAM,video生成质量是良好策略的前提;对于VLA,空间目标比其他视觉能力重要得多。

推理速度

总的来说,基于VLM的VLA并不总是快的,但默认的WAM设置与测试时video生成可能更慢。确切的数字取决于硬件、实现、扩散步骤和动作块长度,但Fast-WAM的代表值给出了一个有用的参考:两种常见WAM推理模式(联合预测和具有完整video生成的逆动力学)每个动作块需要590ms到800ms,而Pi-0.5约为190ms。

这意味着推理时间增加3-4倍,对于实时控制来说非常重要。有方法可以加速,如DreamZero论文和Fast-WAM完全跳过video生成的方法所示,但没有大GPU访问,在本地运行这些模型仍然具有挑战性。

为什么现代VLA基准仍然重要

现代基于VLM的VLA改进很快,现在最强的基准结合了四个想法:离散动作分词、VLM保护共同训练、隔离动作头和更广泛的数据混合。任何声称video主干是更好默认的说法都必须击败当前的SOTA配方。

VLA的架构已收敛到了一个默认设置:Transformer混合配方,最初在视觉中由Transfusion引入,后来在机器人中由Pi-0推广。改变的主要是训练配方。早期的基于flow的动作头从离散的next-token VLM预训练到连续动作去噪造成了强烈干扰。较新的配方试图减少这种干扰。

首先,许多现代VLA使用像FAST或BEAST这样的离散分词器来表示动作为VLM可以学习的一种新语言。这是由于优化紧张性驱动的:VLM预训练用于离散next-token预测与交叉熵损失,而机器人动作位于通常用flow matching建模的连续空间中。

天真地用flow-matching目标微调VLM会导致预训练语言和视觉能力的灾难性遗忘。带有离散动作分词的共同训练,通常与来自flow-matching头的隔离梯度相结合,可以回避这个问题。

VLM可以保持更接近其首选的离散空间,并学习用于具体控制的有用表示,而flow-matching头调节这些特征用于其自身的动作预测。在测试时,具有单独动作头的系统可以放弃慢速自回归动作token预测路径,让动作头完成其工作。

为了直观了解这个灾难性遗忘问题的影响,让我们再看RoboArena快照。Pi-FAST使用与Pi-0-DROID相同的主干,但没有flow组件,使用离散FAST token进行动作生成。两者都在DROID上微调。Pi-FAST达到1592分,而Pi-0仅达到1475,这是一个相当大的差距。这支持了离散动作配方可以比原始Pi-0 flow-based设置保留更多有用预训练能力的观点。

其次,Pi-0.5风格系统在VLM数据和机器人数据上共同训练,通常同时在VLM和flow/action组件之间隔离梯度,以实现更快、更稳定的收敛。这让VLM继续练习语言和视觉理解,而动作方面专门从事操作。相同的模式出现在最近的VLA如Pi-0.5、小米-robotics-0和Being-H0.5中。Pi-0.5以相当大的优势超越Pi-FAST和Pi-0(1622 vs Pi-FAST的1592和Pi-0的1475)。这些结果与这些训练设计决策对策略性能的重要性一致。

即使有这些配方改进,VLA仍然遇到落地墙。语言是表达行为目标的不精确方式。杂乱场景中的文本指令很少能确定相关的对象实例或期望的物理状态。因此策略可能过度拟合虚假的相关性,如背景对象或其他数据集偏差。Pi-0.7报告的语言仅提示和目标图像条件之间的差距支持了这一观点:视觉子目标改善语言跟随,使训练收敛更快。DreamZero在同一RoboArena快照上的1750 elo分数是video/图像目标先验可以帮助解决这类问题的另一个论据。

所以目前WAM和VLA之间没有真正的赢家,而且两者是否都会赢也是有问题的。Zhang等人的首次比较在匹配的扰动下对LIBERO-Plus和RoboTwin 2.0-Plus对LingBot-VA、Cosmos Policy和Pi-0.5进行基准测试。他们的结果表明WAM可以达到强鲁棒性,而不需要VLA基线使用的更广泛训练数据混合。然而,比较仅限于模拟环境,不包括现实世界的泛化。

两种表示道路实际上是一条吗?

开放的问题是这两条路径在长期是否仍然不同。一些最近的VLA已经使用world-model风格的组件来更好地进行目标跟随(参见Pi-0.7),许多最近的WAM从VLA MoT配方中借鉴动作专家。机器人基础模型的未来似乎是两者的混合。

图25. 可能的大融合。

下一代机器人基础模型很可能是WAM+VLA混合体。Pi-0.7的BAGEL子目标、Cortex 2.0的通过预见进行规划、Being-H0.7的潜在先验/后验桥梁,以及Motus/BagelVLA风格的混合体已经合并了VLA和WAM思维。从头开始训练的第一个机器人基础模型是另一个可能的赌注,特别是当我们获得更多更好的开源机器人数据时。

图26. Motus风格的混合设置。

这个混合的层次版本也出现在Physical Intelligence最近的Pi-0.7中,这是一个可操纵的VLA,其动作专家以在测试时由基于BAGEL的世界模型生成的视觉子目标为条件。一个高级策略发出子任务指令,世界模型将这些指令转换成子目标图像,动作专家以当前观察加上该子目标为条件执行。

报告的消融支持语言跟随论点:添加世界模型子目标改善了复杂指涉任务上的指令跟随,并且对于一些无子目标变体失败的数据集偏差破坏任务被报告为必需的。作者还报告说,子目标图像使训练显著更快,因为动作预测变得更接近于当前帧和期望未来帧之间的逆动力学问题。在证据阶梯上,这是视觉子目标可以缩小部分语言-落地差距的现实信号,即使在VLA风格的堆栈内。它不需要每个强VLA都需要完整视频生成头的更强断言。

Sereact的Cortex 2.0是另一个指向这个混合方向的初创公司例子。Cortex 2.0添加了一个世界模型,在视觉潜在空间中生成立即未来轨迹,评分它们以获得预期进展、风险和效率,并以最佳评分rollout为条件进行执行。这使其成为WAM风格预见成为已部署操作系统内规划层的行业信号。

Being-H0.7是基础模型混合的最佳例子:它是一个潜在的基于计划风格的WAM/VLA,建立在预训练的VLA Being-H0.5之上,以InternVL3.5为理解专家,Qwen3为动作专家,V-JEPA2.1为视觉编码器。它成功地结合了VLA风格的预训练组件、V-JEPA2.1未来观察嵌入、Play-LMP风格的先验/后验潜在界面,以及flow-matching动作策略。

计算成本是我们迄今为止只看到少数"一模型全能"系统的主要原因。训练一个强大的VLM已经很昂贵;在上面叠加大规模video建模会使成本增加。VLA风格和WAM风格训练之间的分裂,因此在近期仍然有用,既是因为计算限制,也是因为我们仍然不知道哪些成分对机器人最重要。

第四条道路:机器人优先基础模型

第四种可能性是机器人优先基础模型(RFFM)。基本上,这将是一个围绕机器人挑战设计的大型transformer架构:具体化、动作、接触丰富交互和具体记忆。这个方向的一个干净版本不是简单地从网络VLM或video生成器开始,然后在后面附上动作。它将使交互和动作从一开始成为预训练的中心。

我注意到的最干净例子是Generalist AI的GEN-1,它引入了一个大型机器人行为模型,在500k小时UMI风格的可穿戴数据上预训练。这个方向的核心问题是访问:除了资金充足的初创公司和更大的公司外,几乎没有人能访问这种规模的人类或机器人数据。因此,在我们获得更多开源机器人数据之前,这个研究路径目前对社区来说是封闭的。

另一个值得注意的正交方向是像V-JEPA 2这样的潜在world model。它们在预训练的潜在空间内直接从video学习潜在动态。这些模型承诺比基于扩散的video生成更便宜的rollouts、更快的推理和更清晰的规划信号。这个方向的第一个WAM,如VLA-JEPA或Being-H0.7,报告了有前途的性能。

结语

WAM将成为机器人基础模型的核心研究子领域。虽然VLA已经在大致共享的配方上收敛(VLM主干、具有flow matching的梯度隔离动作专家,以及在广泛的网络和机器人混合上的共同训练),但WAM仍处于探索阶段。论文在video主干、策略公式、训练配方和评估设置上差异很大。这种研究多样性对于一个年轻领域来说是健康的,许多新想法正在发表。然而,没有人真正知道什么最有效。

总结这篇博客的结论:

1、 指令到动作的差距仍然存在。即使是现代VLA,具有离散动作分词、VLM保护共同训练和广泛数据混合物,也不能完全关闭它。WAM承诺从video方面攻击这个差距,但当前结果没有表明它们已经解决了。

2、 机器人基准测试仍然是一个核心问题。我必须重复我上篇博客文章中的发现:现代VLA和WAM基准测试还没有解决。我们需要更多像RoboLab或MolmoSpaces这样的基准测试,使benchmaxxing更难,需要适当的策略泛化才能获得好分数。

3、 下一代机器人基础模型很可能是WAM+VLA混合体。Pi-0.7的BAGEL子目标、Cortex 2.0的通过预见进行规划、Being-H0.7的潜在先验/后验桥梁,以及Motus/BagelVLA风格的混合体已经合并了VLA和WAM思维。从头开始训练的第一个机器人基础模型是另一个可能的赌注,特别是当我们获得更多更好的开源机器人数据时。

这就是我对WAM现状的当前解读。如果你有不同的看法,或者对其中一条道路有强烈论点,请联系我——我非常乐意听取意见。

术语表(VLA/WAM术语入门)

术语 定义
VLA Vision-Language-Action model:以预训练的VLM主干网络为基础的机器人策略,适应它以从视觉观察和语言指令生成动作。
WAM World-Action Model:以预训练的世界模型或视频主干网络为基础的策略,适应它来表示或预测场景如何随时间变化并发出相应的动作。
VLM Vision-Language Model:在图像-文本或视频-文本数据上预训练的模型,产生扎根于视觉输入的语言输出,通常在适应机器人控制之前。
Video backbone 预训练的video模型,作为机器人策略内的中心表示或生成器重复使用。
World model 预测未来世界状态的模型,以某种动作抽象(如语言、机器人动作或潜在动作)为条件。预测状态可以表示为图像、视频、点跟踪、对象状态或潜在特征。
Grounding 将符号(如语言指令中的单词)连接到满足它们的感知和运动参照物。语言到动作的落地尤其意味着将"拿起红色马克杯"这样的指令转化为实际完成它所需的视觉感知和电机命令。落地差距是模型对语言的理解与它在物理世界中能够可靠地实现之间持续的不足。
Inverse dynamics 给定当前观察 o_t 和未来观察 o_{t+k},推断最可能产生该转换的动作或动作序列。
Joint prediction 给定 o_t 和语言 l_t,训练一个策略 \pi(o_t, l_t) 来同时预测未来观察 o_{t+1:t+k} 和动作 a_{t:t+k}
Action chunk 短视界动作序列 a_{t:t+k} — 即一次策略调用中预测的 k 个动作 a_t, a_{t+1}, \ldots, a_{t+k-1},如关节命令、末端执行器增量、和夹爪状态。
Mixture-of-Transformers (MoT) 多个模态特定的transformer或专家(如视频transformer和动作transformer),通过共享注意力连接,同时保持单独的权重。
Diffusion Transformer (DiT) 用于扩散或flow-matching模型的transformer主干,通过多个步骤对图像、视频或动作token进行去噪。DiT通常使用自适应层归一化(adaLN)来注入时间步调节到transformer块中。
VAE Variational Autoencoder:主要是在本文中用于在生成或策略学习之前将高分辨率图像或视频压缩成潜在表示的图像和视频VAE。
目录