作者：俞扬
https://zhuanlan.zhihu.com/p/2054520199282423797

论文：How Should World Models Be Evaluated for Embodied Decision-Making? A Decision-Making-Centric Position
链接：https://arxiv.org/abs/2606.15032

摘要

世界模型（world model）已成为当代人工智能中的一个核心概念。如今，这个词被用来指代多种截然不同的对象：动作条件环境模型、潜在想象模型、未来视频预测器、交互式神经模拟器、潜在预测表征，以及合成数据引擎。

随着词义的扩张，评估方式也日趋多样。近期的论文有的衡量视频真实感与感知相似度，有的考察指令遵循与物理合理性，有的关注策略排序、可执行性、规划成功率，还有的看重下游策略的提升幅度。

指标固然丰富，但也由此衍生出一个反复出现的问题——我们称之为主张与证据的错位（claim/evidence mismatch）：论文对模型用途所下的结论，往往比其评估所能支撑的更强。

本文系统梳理了近期文献，并提出这样一个论断：对于那些以具身决策为目标的世界模型而言，真正关键的并非模型能否生成以假乱真的视频，而是它能否支撑可靠的干预性推理、策略评估、规划，以及在干预、策略诱导的分布偏移和长程展开（rollout）之下的策略优化。

这一原则其实并不新鲜，它正源自基于模型的强化学习（MBRL）中关于目标错位与决策感知模型学习**（decision-aware model learning）的既有认识——该领域早已揭示：预测准确性常常是控制效用的拙劣替身。

本文的工作包含三部分：

(i) 对近期生成式世界模型文献中评估实践的综述；
(ii) 基于综述得出的判断，即该领域在没有借助既有解决工具的情况下，重新陷入了目标错位的困境；
(iii) 一套可落地的评估框架与基准协议。

我们以一个从视觉合理性贯穿到策略优化效用的 L0–L7 阶梯来组织综述，并指出这些层级横跨若干彼此正交的维度，因而构成一个证据层级，而非单一的标量评分。

该框架着重考察干预性动作保真度、闭环展开的有效性、奖励与价值的预测、策略排序的一致性、优化增益、模型的可利用性（exploitability）以及不确定性校准，并为真实机器人场景给出了一套最小可行的报告清单。

1 引言

世界模型已成为当代人工智能中一个颇为活跃的研究主题。一条研究脉络承袭自基于模型的强化学习，将世界模型视为一个用于规划、想象、策略评估或策略优化的动力学模型 [25, 29, 26, 59]。

另一条脉络则把近期的具身视频生成模型称作世界模型，因为它们能够依据文本、图像、视频或动作，生成合理的未来观测 [64, 10, 48, 36, 46]。

第三条脉络研究潜在预测表征，其预测目标是未来的嵌入向量而非像素 [1, 45, 43]。第四条脉络把生成模型当作合成数据引擎或可执行的视频规划器，服务于机器人学习 [28, 2, 16, 31]。

这种繁荣固然富有成果，却也让评估变得模糊不清。有的论文用 MSE、PSNR、SSIM、LPIPS、FID、FVD 来衡量像素重建或视频在分布层面的质量；有的借助 VLM 评判器、物理问答或人类偏好来考察指令遵循与物理合理性；有的直接以模型内部训练出的策略最终成功率为准；还有的则关注世界模型估计的策略成功率与真实环境（或模拟器）成功率之间的相关性 [49, 52, 38, 50]。

这些评估并不能相互替代：一个模型可能是出色的视频生成器，却是糟糕的控制环境模型；反过来，一个潜在预测模型即便从不生成逼真像素，也可能对规划大有助益。

这一观察在本质上并不新颖。早在基于模型的强化学习中，目标错位问题就已被记录在案：单步预测似然往往与下游控制性能毫无关联 [35]。而决策感知模型学习这条脉络——其中包括价值感知模型学习与价值等价原则——则主张，模型应当依据其最终的决策用途来评估和训练，而不是依据重建误差 [30, 44, 21, 22, 58]。

我们正是希望把这一底层原则引入现代生成式世界模型的语境之中。在这一语境下，主流的评估文化已重新倒向重建式与感知式的指标。

具体而言，本文力图做到三件事：

(i) 厘清近期文献究竟在衡量什么；
(ii) 据此表明，该领域在没有动用既有决策感知词汇与诊断手段的情况下，重新撞上了目标错位；
(iii) 提供一套可操作的框架与协议，把那些缺失的证据落到实处、写进报告。

因此，我们的论断是有条件的，而非放之四海皆准。我们并不认为，凡是被冠以世界模型之名的系统都应当以策略优化来衡量。如果一个模型的本意就是生成未来视频，那么视频质量与语义合理性自然是合理的首要目标。

问题真正出现的时机，是当适用于某一主张的证据，被挪用来支撑另一个更强的主张。倘若一个模型被定位为面向具身决策的世界模型，那么我们认为最值得追问的是：

如果智能体从当前历史出发执行这些动作，从任务相关的角度看，会发生什么？

也许会有读者提出质疑：在某些场景下，视觉质量、语义合理性或人类偏好确实可能与下游效用相关；又或者，有些被称作世界模型的系统本就无意用于控制。这两点我们都认同。所以我们的主张是比较性的，而非排他性的。

我们绝不否认低层级指标的价值，也不否定纯生成式世界模型研究的意义。我们只是想说：对于那些明确以具身决策为目标的模型，动作层、结果层与策略层的评估，通常比单凭产物质量提供更有力的证据。

这一观点在若干环境模型工作中已有体现，例如关于反事实学习、策略条件模型、全程展开以及可泛化具身决策的研究 [8, 7, 41, 69]；也体现在一些明确将感知质量与功能效用区分开来的近期基准之中 [49, 38, 50, 31]。（需要说明：当被引文献的标题使用”反事实”一词时，例如 ACEM 的”反事实环境模型学习”，我们一律按第 2.6 节所采用的干预性含义来理解，而非那种基于溯因、固定噪声的技术含义。）

本文聚焦于那些被宣称用于具身决策的世界模型，涵盖策略评估、规划、策略优化、安全测试等用途。因此，本文既不反对视频指标，也不排斥 VLM 评判器。我们想强调的只是：对于这类用途，视频与语义指标更宜被看作低层级或辅助性的诊断工具，除非模型所声称的用途本身就是纯生成性的。本文有四点贡献：

1、我们逐篇梳理近期世界模型文献，依照每篇论文实际评估了什么来组织，并将其明确对接到更早的目标错位与决策感知模型学习研究。

2、基于这份综述，我们量化并记录了一种反复出现的失败模式——主张与证据的错位：低层级证据被不经意地拿来支撑更强的决策主张，而干预性诊断和可利用性诊断却几乎缺席。

3、我们用一个从视觉合理性延伸到策略优化效用的 L0–L7 评估阶梯来组织文献，同时澄清这些层级横跨多个正交维度，因而构成的是一个证据层级，而非单一的标量评分。

4、我们提出一套以决策为中心的评估框架与基准协议，围绕干预分支、策略诱导的分布偏移、全程结果保真度、策略排序一致性、优化增益、可利用性与不确定性校准来构建，并为真实机器人场景配备了一个最小可行版本。

2 背景与符号

2.1 术语的简要谱系

在与本文最为相关的语境中，”世界模型”一词最近的源头，是基于模型的控制与强化学习传统中的环境模型。在这一传统里，核心对象是一个动作条件的预测模型，它刻画动力学、奖励，有时还包括不确定性，用以回答这样的问题：如果智能体从状态或历史 h 出发执行动作a ，接下来可能发生什么，又会给回报或任务完成带来怎样的后果？

在这层较窄的含义下，模型的目标天然就是干预性且决策论的：它之所以有价值，正是因为它能支撑规划、策略评估或策略改进 [25, 29, 26, 59]。

“世界模型”这一名称的广为人知，得益于一项将紧凑表征学习、潜在动力学与控制器结合在一起的工作 [25]。在那一表述中，世界模型并不意味着对环境万物的逼真模拟，而是指一个关于环境演化的内部预测模型——通常存在于潜在状态空间中——只要足以支撑控制即可。Dreamer 系列方法，以及 DayDreamer 这类真实机器人上的扩展，都延续了这一理解：世界模型首先是想象展开、价值估计与策略学习的工具 [26, 59]。

随着具身 AI 与大规模生成建模的成熟，这个词的含义不断扩张，大致经历了四次转变：

第一次转变源于未来观测预测。在许多具身和网络规模的场景中，视频是最容易获取的监督信号，而显式的动作或奖励标注则往往稀缺、混杂。

于是，那些预测未来帧、视频或多模态续接的模型，也开始被称为世界模型 [10, 48, 36, 46]。在这种更宽泛的用法中，”世界”一词往往指模型生成合理未来的能力，哪怕它从未被当作策略评估或策略优化的工具来检验。

第二次转变来自交互式神经模拟器。一旦动作条件视频模型具备了自回归展开的能力，把它重新用作代理环境便顺理成章。UniSim、Vid2World、IRASim、WorldGym、WorldArena 等系统正处于这一中间地带 [64, 27, 72, 49, 50]：它们本质上仍是未来观测的生成模型，却又被当成交互式环境来查询。这模糊了”视频预测器”与”世界模拟器”之间的界限，也正是评估变得含糊的原因之一——同一个模型，可能在上一段被视觉评估，下一段就被功能评估。

第三次转变来自潜在预测表征。在 JEPA 系列及相关方法中，建模目标不再是像素重建，而是未来的潜在结构 [1, 45, 43]。这条脉络打破了”世界模型的自然输出就是视频”这一成见，也让观测保真度与决策相关充分性之间的分野更加清晰。

第四次转变来自把世界模型当作合成数据引擎或可执行规划器。此时，模型未必被当作传统意义上的通用模拟器，而可能用来生成被转译为动作的机器人视频、用想象轨迹增广数据集，或产出能提升下游学习的演示 [28, 2, 16, 31]。其角色是工具性的：提供有用的训练信号、可执行的计划或干预性数据。

由此看来，当前文献中并存的不是一个、而是若干部分重叠的世界模型传统。同一个词如今至少涵盖六类研究对象：动作条件环境模型、潜在想象模型、未来视频预测器、交互式神经模拟器、潜在预测表征，以及合成数据引擎。它们彼此交叠，却并不等同，其评估方式自然也无需一致。

2.2 目标错位与决策感知模型学习

理解我们的立场，最好把它看作基于模型的强化学习中一场既有论争的延续，而非全新的主张。我们之所以要把这条脉络讲清楚，是因为近期的生成式世界模型文献大多重新提出了同样的问题，却没能接上前人已有的答案。

目标错位。 目标错位问题指出：用来_训练_动力学模型的目标（通常是单步预测似然或重建误差），与真正重要的目标（即下游控制性能）并不相同，甚至常常彼此无关 [35]。

一个全局精确的模型足以用于规划，但在有限容量下，它既非必要、也无法实现；反过来，一个只在任务关键之处精确的模型，照样能支撑出色的控制。在我们看来，当下把 FID、FVD、PSNR 或 VLM 物理分数当作世界模型主要指标的做法，恰恰是这一错位的重演。

决策感知与价值等价模型学习。 另一条互补的脉络主张，模型学习应当意识到自身的决策角色。价值感知模型学习按预测误差对价值估计的影响来加权，而不是一视同仁地对待所有误差 [44]。

价值等价原则把一个相关直觉形式化了：如果两个模型对某一组策略和价值函数诱导出相同的 Bellman 更新，那么它们在该集合上等价——这意味着模型只需在价值相关的子空间内精确即可，而这一子空间通常会随着策略/函数集合的扩大而收缩 [21, 22]。

一篇近期综述将这些线索统一在决策感知 MBRL 的旗帜之下 [58]。它对评估的直接启示是：正确的模型保真度概念，必须相对于一组声明的策略、价值函数与结果来定义——而这正是我们在第 5 节提出的”决策契约”。

模型利用（exploitation）。 还有第三个早已被认识的现象：规划器和优化器会主动去寻找模型过度乐观的区域，因此哪怕提升了平均准确性，也无法阻止优化器在其所选之处栽个大跟头 [29, 35]。

我们后文提出的可利用性差距（XGap，见第 5 节）正是对这一效应的度量。它并非新概念，只是一个近期生成式世界模型文献极少报告的评估量（第 3.6 节会就此给出量化）。

综上，本文并不提出新的训练原则。我们要论证的是：近期生成式世界模型文献的_评估_实践，已经偏离了这些教训；为此，我们给出一套具体的框架与协议，帮助它重新对齐。

表 1：世界模型术语的简要谱系

阶段	通常被称为世界模型的对象	此种用法为何出现	代表性工作	典型评估侧重
I	动作条件环境模型	规划、控制、离策略评估、基于想象的学习	[25,29,26,59]	策略回报、样本效率、基于模型的规划、价值估计
II	潜在想象模型	部分可观下需要紧凑的长程预测状态	[25,26,59]	潜在展开质量、回报预测、下游控制
III	未来视频预测器	大规模视频数据易得；具身任务天然可表达为未来视觉预测	[10,48,36,46]	视频保真度、语义、物理合理性
IV	交互式神经模拟器	自回归动作条件视频模型被重用为代理环境	[64,27,72,49,50]	闭环展开质量、策略排序、规划成功率
V	潜在预测表征	对像素中心评估的反拨；强调抽象与规划相关性	[1,45,43]	规划、探针、迁移、稠密对应、价值相关特征
VI	合成数据引擎/可执行规划器	生成模型被工具性地用于产出轨迹、演示或计划	[28,2,16,31,55]	下游策略增益、可执行性、动作恢复、模仿增益

2.3 “世界模型”的窄义与广义

综述提示我们，不妨把这个词分作两种读法。

窄义（决策论的）。 世界模型是一个动作条件的预测模型，能够支撑对轨迹、结果与价值的干预性推理。这里的核心问题是干预性的：如果智能体选择这一动作序列，会发生什么，结果又有多好？

广义（预测性或生成性的）。 世界模型是任何能预测或生成世界未来状态的模型——无论以像素、视频、潜在空间、符号还是其他形式表达。此时模型既可能、也可能不会被直接用于规划或控制。

两种读法都站得住脚，但它们对评估提出的要求并不相同。窄义凸显策略相关性，广义则容许更广泛的预测性或生成性指标。文献中的诸多混乱，恰恰源于：在广义下收集的证据，被当成似乎也回答了窄义所提的问题。

这个词的扩张，可以理解为若干因素汇聚的结果。

其一，数据可得性发生了变化：大规模、多样化的视频语料远比带有可靠动作与奖励标注的、重置匹配的动作分支语料更易获得，这就鼓励了以观测为中心的训练与评估。

其二，建模规模发生了变化：视频扩散模型与基于 Transformer 的生成模型已足够强大，以至于预测未来观测看上去成了建模世界的一条可行路径——尤其在那些主要通过图像和视频来感知世界的具身场景中 [10, 48]。

其三，用例日趋多样：有人想要代理评估器，有人想要数据引擎，有人想要规划器，有人想要表征学习器，还有人想要开放式视频生成器，而同一族模型固然能身兼数职，却未必样样在行。

其四，接口逐渐模糊：预测动作条件下未来观测的模型可被当作模拟器，预测潜在未来的模型可被当作规划基底，能生成有用展开的模型则可被当作数据引擎。一旦这些用途成为常态，旧的环境模型语言与新的生成式世界模型语言便融为一体了。

2.4 受控过程视角

\mathcal{E} 表示真实环境，它可以是 MDP、POMDP、真实机器人任务族，也可以是被当作真值使用的可信模拟器。一条轨迹记作

\tau = (o_0, a_0, r_0, o_1, a_1, r_1, \ldots, o_H).

时刻 t 的历史记作

h_t = (o_0, a_0, \ldots, o_t).

策略 \pi 把历史映射到动作，其折扣回报为

J_{\mathcal{E}}(\pi) = \mathbb{E}_{\tau\sim\mathcal{E},\pi}\left[\sum_{t=0}^{H-1}\gamma^t r_t\right].

我们用 \widehat{\mathcal{E}} 作为被评估的学习对象的、刻意宽泛的抽象：

\widehat{\tau}_{t:t+H} \sim \widehat{\mathcal{E}}(\cdot \mid h_t, a_{t:t+H-1}, c),

其中 c 可以包含语言指令、目标、具身信息、相机视角、潜在状态或策略上下文。视论文不同，输出可以是像素、潜在状态、奖励、价值、成功概率、不确定性估计、动作提议，或它们的组合。

这一记法比经典的转移模型 P(s_{t+1}, r_t \mid s_t, a_t) 更具一般性。有些模型只输出视频，有些只输出潜在状态，有些只输出分数或判断；这套记法把它们统统抽象起来，便于在共同的语言下讨论评估的差异。因此关键不在于输出的模态，而在于：模型意在支撑何种决策，以及人们为此提供了哪些证据。

2.5 决策用途与证据负担

我们用 U 表示模型的意图决策用途：

U \in \{\text{预测},\ \text{策略评估},\ \text{规划},\ \text{策略优化},\ \text{合成数据},\ \text{表征}\}.

不同用途对模型的不同性质提出不同要求：

若 U=\text{预测} ，视觉保真度、语义与物理合理性可能是首要的。
若 U=\text{策略评估} ，策略排序与价值校准成为重中之重。
若 U=\text{规划} ，动作敏感性与长程结果保真度变得关键。
若 U=\text{策略优化} ，可利用性、分布偏移与不确定性变得重要。
若 U=\text{合成数据} ，核心问题是生成的展开能否提升下游学习。
若 U=\text{表征} ，重心则转向抽象、探针与规划相关性，而非解码质量。

这正是为何很难为一个与用途无关的单一世界模型评分辩护。不同任务、不同用途各有所求——价值等价文献早已把这一点讲得很透：模型保真度只有相对于一组策略和价值函数才有良好定义 [21, 22]。

2.6 开环、闭环、干预与可识别性

开环与闭环。 在开环评估中，模型基于真值历史预测未来观测。在闭环评估中，策略基于模型自己生成的历史来行动，模型必须在自身预测的滚动之下保持连贯。许多世界模型在开环下看似强劲，一到闭环便急剧失稳。

观测性预测与干预性预测。 模型可以在行为策略的数据分布下预测出可能的未来，却未必能正确建模_另选_动作所带来的后果。对决策而言，真正相关的对象是

\mathbb{P}_{\mathcal{E}}(o_{t+1:t+H} \mid h_t, do(a_{t:t+H-1})),

而不仅仅是

\mathbb{P}_{\mathcal{E}}(o_{t+1:t+H} \mid h_t).

我们以干预含义（即 Pearl 的”第二层阶梯”）使用 do(\cdot) ：在固定历史的前提下，追问当动作被外部_设定_时未来会呈现怎样的分布。

我们刻意回避技术意义上更强的”反事实”一词——后者还要求对外生噪声的某一固定实现进行溯因。本文所提的评估都是干预性的；凡出现”反事实”字样之处（包括被引文献的标题），我们一律指干预性的、动作分支的含义。

可识别性，及其与流水线纠缠的关联。 想从记录的数据中估计 \mathbb{P}_{\mathcal{E}}(o_{t+1:t+H} \mid h_t, do(a_{t:t+H-1})) ，绝非水到渠成。它通常要求两个条件：

(i) 数据采集策略与动力学之间不存在未观测的混杂因素，以保证对记录历史的条件化足以阻断后门路径；
(ii) 动作覆盖充分，使相关的动作分支或者在数据中有支撑，或者可以主动查询。

在完全仪表化的模拟器，以及许多桌面机器人设置中——记录的历史完整捕获了控制器的信息状态，动作的记录也不存在隐藏的旁路——干预条件分布与观测条件分布恰好重合，该量可通过条件化直接识别。然而，这种有利情形远比近期文献的措辞所暗示的稀少。

在日益流行的、从_人类_视频学习世界模型的范式中（例如通用视频世界模型与可执行视频流水线），”动作”并未被记录，而是由逆动力学模型或重定向模型_推断_出来的，记录的历史也不是被执行控制器的信息状态。在这种情况下，即便有环境重置，干预目标通常也无法被识别——因为视频到动作的映射本身就是一个学习得来、容易出错的环节。

这正是我们所称的流水线纠缠：当可执行性或动作恢复要依赖逆动力学、重定向或成功检查器时 [31, 16, 55]，一个干预性主张说的就是整条流水线，而非孤立的世界模型。

在部分可观或开放世界的设置中，上述假设同样可能失效，此时干预误差只能通过主动干预（重置并执行不同的动作分支）来测量，而不能从被动日志中推断。我们的基准协议（第 6 节）正是据此设计：只有在真正实施了干预、并直接控制了动作接口（而非靠推断）的地方，才允许给出最强的干预性主张。

结果保真度。 对于那些旨在为策略选择或策略改进提供依据的模型，保住任务相关的结果（如奖励、成功谓词、进度变量与约束）往往比保住每一个像素更重要。这在评估层面，非正式地重述了价值等价的直觉 [44, 21]。

表征充分性。 一个模型可能无法重建出视觉细节，却仍保留了规划所需的抽象状态结构；反过来，它也可能重建出视觉上合理的未来，却没能编码对动作选择至关重要的因果区分 [53]。

3 究竟在评估什么？

本节有意写成清单的形式。表 2 至表 5 逐一列举近期工作，按它们最直接评估的内容分组。我们的目的只有一个：把那些常被笼统归入”世界模型评估”一词之下的、各自不同的评估文化区分开来。

层级分配规则。 为使表格可供审核，我们采用一条机械的规则：当且仅当一篇论文报告了至少一个、其目标与某层级核心问题相符的定量指标时，该论文才被列入该层级（见表 7），不论它对此着墨多少。我们不按显著程度加权，也不另行作”主导证据”的判断；

因此，末列的层级集合应当能够仅凭每篇论文所报告的指标重建出来。纯定性的展示（例如”我们在图 X 中展示了可控性”却不给数字）会在正文中提及，但不计作占据某一层级。

3.1 基准与诊断文献（表 2 概要）

这一类工作包括 EVA-Bench、WorldSimBench、EWMBench、DreamGen Bench、WoW-World-Eval、RBench、WorldArena、RoboWM-Bench、WorldScore、WorldModelBench、WorldPrediction、AutumnBench/WorldTest，以及 PBench、MVP、IntPhys 2、CausalVQA 等。

基准文献已经走出了纯 FID/FVD 的阶段。较新的套件开始追问指令遵循、物理合理性、轨迹正确性、可执行性以及策略中心的用途 [48, 50, 31]。

尽管如此，许多基准套件仍把评估的重心压在产物质量上（譬如生成的视频、描述或问答答案），而非压在模型是否支撑可靠的策略评估或策略改进上。用目标错位的话来说，这些套件衡量的是预测性或感知性质量——而我们已经知道，这是控制效用的不可靠替身 [35]。

表 2：基准与诊断文献

最后一列列出该基准所占据的 L0–L7 阶梯主要层级。

工作	声称的对象	实际评估的内容	代表性指标或输出	主要层级
EVA-Bench [10]	具身未来视频预判	基于当前视觉上下文与语言的离线具身视频预测；动作描述、下一步预测、操作指引生成、思考收尾与未来视频质量	BLEU、METEOR、ROUGE-L、CIDEr、SPICE、CLIPScore、GPT-4o 评分；SC、BC、MS、FVD、GCE；EVA-Score	L1–L3
WorldSimBench [48]	作为世界模拟器的视频生成模型	在开放具身、驾驶与操作场景中的显式感知评估；在 Minecraft、CARLA 与 CALVIN 中的隐式闭环评估	人类偏好评估器分数；路线完成度、违规次数、驾驶分、资源采集、CALVIN 任务成功率	L0–L3, L7
EWMBench [67]	具身机器人视频基准	机器人操作视频中的场景一致性、轨迹正确性、动力学、语义、多样性与逻辑一致性	SceneC、HSD、nDTW、DYN、Diversity、BLEU、CLIP 分数、逻辑错误惩罚	L1–L3
DreamGen Bench [28]	用于策略学习的机器人视频世界模型基准	跨 RoboCasa 与 GR1 的物体/行为/环境泛化场景下的指令遵循与物理对齐	GPT-4o、Qwen2.5-VL、人工评估、VideoCon-Physics；IF、PA	L2–L3
WoW-World-Eval [14]	具身世界模型图灵测试	视频质量、指令理解、物理规律、规划 DAG 质量、回放可执行性、OOD 泛化与对人类的欺骗度	FVD/PSNR/SSIM/DINO/DreamSim；序列匹配与执行质量；轨迹 L2/DTW/FD；回放成功率；欺骗人类比例	L0–L4, L7
RBench [11]	面向机器人的视频生成基准	常见操作、长程规划、协作、空间关系与视觉推理中的任务正确性与具身相关合理性	对 PSS、TAC、RSS 的 VLM/LLM 评判；程序化的运动幅度与平滑度	L0–L3
WorldArena [50]	统一评估感知与功能效用的基准	开环视频质量，外加将世界模型作为数据引擎、策略评估器与动作规划器	16 项视频指标；EWMScore；策略性能增益；与模拟器的相关性；规划器成功率；人工评估	L0–L4, L6, L7
RoboWM-Bench [31]	机器人操作中的世界模型基准	生成的人手或机器人视频能否被转化为在模拟中完成任务的可执行动作	任务级与步骤级成功率；真实到模拟的一致性；视频到动作的回放可靠性	L4, L7
WorldScore [13]	世界生成基准	布局与相机控制下的静态与动态世界生成	相机控制、物体控制、内容对齐、3D 一致性、画面一致性、运动准确性、运动平滑度、WorldScore	L0–L3
WorldModelBench [36]	将视频生成器评判为世界模型的基准	跨领域生成视频的指令遵循、常识与物理遵循	人工标注与训练的 VLM 评判器；指令遵循等级、逐帧/时间质量、物理子分、ELO	L2–L3
WorldPrediction [6]	高层世界建模与流程规划基准	从初始与终止状态中进行多项选择式的动作或动作序列选择	单步世界建模准确率；多步流程规划准确率	L4, L7
AutumnBench / WorldTest [57]	探索后的环境级查询基准	文本网格世界 POMDP 中的掩码帧预测、变化检测与规划	MFP 准确率、变化检测分数、规划成功率、综合分	L1, L4, L7
PBench [46]	Physical-AI 图生视频基准	领域特定的物理与常识问答，外加通用视频质量	经 Qwen2.5-VL 问答的领域分；VBench 式质量分；总分	L0–L3
MVP [34]	抗捷径的物理视频问答	跨人-物、机器人-物、直觉物理与时间推理场景的最小对物理理解	配对的最小对准确率	L3
IntPhys 2 [4]	直觉物理基准	复杂合成场景中的”可能 vs. 不可能”事件	总体与按难度划分的准确率；成对与单视频评估	L3
CausalVQA [15]	视频模型的因果推理基准	真实第一人称视频上的反事实、假设、预判、规划与描述性推理	配对准确率、非配对准确率、推理准确率、难度划分、人类基线	L3

3.2 环境模型与策略优化文献（表 3 概要）

这一类工作包括 WHALE、ACEM/GALILEO、ADM-v2、PCM、DayDreamer、UniSim、DiWA、World4RL、VLA-RFT、ProphRL、WMPO、World-Env、World-Gymnast、RISE、VLAW、GigaBrain-0.5M、WoVR、World-VLA-Loop、PlayWorld、VLA-MBPO 等。

这一类更靠近决策这一端，因为它衡量的是：当模型被用于想象、微调或规划时，策略究竟取得了什么成果。许多论文把低层级的视频诊断与最终策略成功率并列报告，结果是世界模型本身的贡献只被部分剥离出来。

最清晰的例外，是那些把反事实泛化、全程 OPE、策略偏移或不确定性明确纳入评估的论文，例如 ACEM、PCM、ADM-v2 和 WHALE [8, 7, 41, 69]；我们把它们当作所倡导评估风格的范例，但并不认为它们是唯一或最佳的实例。

表 3：环境模型与策略优化文献

这些论文更贴近世界模型最初的决策用途，但它们在多大程度上直接评估这一用途上各不相同。

工作	主要用途主张	实际评估的内容	代表性指标或输出	主要层级
WHALE [69]	可泛化的具身决策世界模型	价值估计、视频保真度、不确定性估计，以及泛化偏移下的下游离线策略优化	价值估计质量、视频保真度、不确定性质量、策略优化增益	L4–L7
ACEM / GALILEO [8]	反事实环境模型学习	行为策略偏差下的反事实预测、离策略评估、离线 RL 与在线决策	反事实预测准确率、OPE 质量、策略改进性能	L4, L6, L7
ADM-v2 [41]	用于离线学习的全程动力学模型	经离策略评估与离线 RL 的全程展开质量	OPE 可靠性、全程展开性能、离线 RL 回报	L4, L6, L7
PCM [7]	策略条件环境模型	策略分布偏移下的价值估计、策略选择与 MPC	价值差距缩减、策略评估质量、MPC 性能	L4, L6, L7
DayDreamer [59]	用于真实机器人 RL 的世界模型	真实机器人上的端到端策略学习；无独立的世界模型基准	策略成功率、样本效率、机器人学习耗时	L7
UniSim [64]	交互式真实世界模拟器	视频生成质量，外加下游策略学习与基于合成视频的字幕生成	FID、FVD、IS、CLIP；Language Table 成功率；CIDEr	L0–L1, L7
DiWA [5]	带世界模型的扩散策略适应	奖励分类器质量、想象式 PPO 更新与下游策略适应	奖励的精度/召回；策略成功率；样本效率	L5, L7
World4RL [32]	用于策略精炼的扩散世界模型	开环视频质量，外加模拟与真实机器人中的操作策略精炼	FID、FVD、LPIPS；成功率；交互成本	L0–L1, L7
VLA-RFT [37]	面向 VLA 的世界模拟器 RL 微调	图像预测质量与 LIBERO 上的下游成功率/鲁棒性	MSE、PSNR、SSIM、LPIPS；成功率；扰动成功率	L1, L7
ProphRL [68]	带 VLM 奖励的未来视频世界模型	视频预测、光流正确性、奖励精度/召回与策略成功率	PSNR、SSIM、tSSIM、光流 EPE/余弦；RM 精度/召回/FPR；成功率	L1, L5, L7
WMPO [73]	面向 VLA 模型的世界模型策略优化	策略优化结果、成功轨迹长度与持续学习性能	成功率、成功轨迹长度、终身学习成功率	L7
World-Env [60]	以世界模型为虚拟环境的模拟后训练	视频质量、奖励模型质量，以及模拟与真实机器人中的策略成功率	FID、FVD、PSNR、SSIM、LPIPS；RM 准确率/精度/召回/F1；成功率	L1, L5, L7
World-Gymnast [51]	在视频世界模型内进行 VLA 强化学习	主要为想象式 RL 下的下游策略性能	桌面与真实机器人任务的成功率	L7
RISE [62]	带组合式世界模型的自我改进机器人策略	多视角世界模型质量、进度价值建模与真实机器人策略成功率	PSNR、SSIM、LPIPS、FVD、EPE;成功率与子步骤分	L1, L5, L7
VLAW [23]	VLA 与世界模型的迭代协同改进	视频质量、交互事件正确性、奖励质量与策略成功率	PSNR、SSIM、LPIPS、FID、FVD；交互与奖励的 TP/FN/TN/FP；成功率	L1, L4, L5, L7
GigaBrain-0.5M [19]	以世界模型为基础进行 RL 训练的 VLA	过程奖励/价值预测质量与下游真实机器人成功率	推理时间、MAE、MSE、RMSE、Kendall’s tau；成功率	L5, L7
WoVR [33]	用于 VLA 后训练的可靠模拟器	长程视频质量、速度与下游策略成功率	LPIPS、FID、FVD、FloLPIPS、FPS；成功率	L1, L7
World-VLA-Loop [42]	世界模型与 VLA 策略的闭环协同训练	世界模型图像质量、奖励准确率与最终成功率	SSIM、PSNR、LPIPS、MSE；奖励准确率；成功率	L1, L5, L7
PlayWorld [66]	从自主玩耍中学习的世界模型	视频质量、进度奖励建模、失败模式对齐与策略成功率	LPIPS、SSIM、PSNR、MSE；RM 准确率；失败模式对齐；成功率	L1, L5, L7
VLA-MBPO [70]	面向 VLA 模型的实用型基于模型 RL	图像预测、奖励预测、推理时间、展开长度消融与下游成功率	LPIPS、PSNR、SSIM；奖励 ACC/F1；推理时间；成功率	L1, L5, L7

3.3 策略评估、可执行性与合成数据文献（表 4 概要）

这一类工作包括 WorldGym、Vid2World、Scalable Policy Evaluation、Gemini/Veo Simulator、dWorldEval、IRASim、DreamDojo、Kinema4D、Persistent Robot World Models、DreMa、DreamGen、Ctrl-World、RoboMaster、GigaWorld-0、RoboVIP、Interactive World Simulator、VLP、Dreamitate、RoboDreamer、RoboEnvision、Genie Envisioner、EVA（模型）等。

对一篇以决策为中心的论文而言，这一类尤为重要，因为它包含了把世界模型当作功能性对象（而非生成器）来评估的一些最有力的尝试。这里的转向，是从只问”视频看上去合理吗？”转向追问”模型能否正确排序策略？”“它能否支撑规划？”“生成的未来能否被执行？”

不过，其中许多仍属于流水线指标：可执行性依赖逆动力学或重定向；合成数据的价值依赖下游学习器；策略评估的相关性则依赖奖励检查器和被排序的那组策略。

表 4：策略评估、可执行性与合成数据文献

这些工作从产物质量转向决策效用，且往往通过流水线级指标来实现。

工作	主要用途主张	实际评估的内容	代表性指标或输出	主要层级
WorldGym [49]	作为策略评估环境的世界模型	定性展开保真度、定性动作可控性，以及模型评估的策略成功率与真实成功率之间的相关性	Pearson 相关；相对策略排序	L4, L6
Vid2World [27]	由视频扩散构建的交互式世界模型	视频预测质量与机器人操作上的策略评估	FVD、FID、SSIM、PSNR、LPIPS、DreamSim；模拟 vs. 真实成功率	L1, L6
Scalable Policy Evaluation [52]	作为策略评估器的视频世界模型	视频质量，外加策略价值相关性与排序保真度	PSNR、SSIM、FVD、潜在 L2；Pearson 相关；MMRV	L1, L6
Gemini/Veo Simulator [18]	用于策略评估与安全的世界模拟器	视频模拟器中的标称评估、OOD 排序与安全红队测试	Pearson 相关、MMRV、定性安全发现	L6
dWorldEval [38]	经扩散世界模型的机器人策略评估	动作可控性、往返一致性与策略排序保真度	ΔLPIPS、往返 LPIPS、Pearson 相关、MMRV	L4, L6
IRASim [72]	面向操作的细粒度世界模型	视频预测、定性灵活可控性、策略评估与基于模型的规划	PSNR、SSIM、潜在 L2、FID、FVD；Pearson 相关；规划成功率	L1, L4, L6, L7
DreamDojo [17]	通用机器人世界模型	视频预测、对物理/动作遵循的人工评判、策略评估与规划	PSNR、SSIM、LPIPS；人工物理/动作遵循；成功率、Pearson、MMRV	L1, L3, L6, L7
Kinema4D [61]	4D 运动学世界模型	RGB 展开质量、几何质量与策略评估质量	PSNR、SSIM、潜在 L2、FID、FVD、LPIPS；Chamfer、F-score、时间 F-score；与真值的成功率差距	L1, L3, L6
Persistent Robot World Models [3]	用于策略评估的稳定化多步展开	逐相机展开质量、掩码任务相关指标、人类偏好与策略排序	SSIM、PSNR、LPIPS；时间曲线；掩码指标；2AFC/ELO；Pearson、MMRV	L1, L6
DreMa [2]	用于模仿学习的合成想象	物体最终位置准确率与下游模仿学习增益	物体最终位置误差；策略成功率	L4, L7
DreamGen [28]	合成机器人视频数据引擎	VLM/人工的指令遵循与物理对齐，外加下游策略学习与泛化	IF、PA；下游策略成功率	L2, L3, L7
Ctrl-World [24]	可控生成式世界模型	视频质量、定性动作可控性、策略评估相关性，以及用合成成功轨迹进行的策略改进	PSNR、SSIM、LPIPS、FID、FVD；评估相关性；成功率	L1, L4, L6, L7
RoboMaster [16]	从生成视频进行具身动作规划	桥接视频质量、轨迹保真度、用户偏好、动作规划成功率与 IDM 动作质量	FVD、PSNR、SSIM、TrajError、用户偏好、规划成功率	L1, L4, L7
GigaWorld-0 [20]	基于世界模型的数据引擎	Physical-AI/世界生成质量、过滤分数，以及从生成数据中恢复动作	PBench、DreamGen Bench、质量过滤、IDM 动作恢复	L0–L4
RoboVIP [54]	面向操作的多视角视频增广	多视角生成质量与下游策略增益	FID、FVD、LPIPS、MV-Mat；成功率	L1, L7
Interactive World Simulator [56]	用于策略训练与评估的交互式模拟器	视频预测、速度/稳定性、模拟器采集的训练数据与评估相关性	MSE、LPIPS、FID、PSNR、SSIM、UIQI、FVD；FPS/稳定性；成功率；相关性	L1, L6, L7
VLP [12]	视频语言规划	对长程视频计划完成度的人工评判与下游执行质量	人工计划完成率；任务奖励/完成度	L2, L7
Dreamitate [39]	用于视觉运动策略学习的视频生成	以生成视频作为监督或引导的真实机器人策略成功率	成功率	L7
RoboDreamer [71]	用于机器人想象的组合式世界模型	视频生成质量、人工任务完成评判与执行成功率	FVD；人工完成评判；RLBench 成功率	L0, L2, L7
RoboEnvision [63]	长程机器人视频生成	长程视频质量与下游策略模型任务成功率	LPIPS、SSIM、PSNR、FVD、CLIP 分数；成功率	L1, L2, L7
Genie Envisioner [40]	面向操作的统一平台	真实机器人动作模型成功率与 EWMBench 式的场景/运动/语义世界模型评估	成功率；SceneC、HSD、nDTW、DYN、Diversity、BLEU、CLIP、Logics	L1, L2, L3, L7
EVA（模型） [55]	经 IDM 奖励的可执行视频世界模型	对运动学合理性、交互合理性、指令遵循的人工评判，以及模拟与真实机器人中的执行成功率	人工评分；模拟器成功率；真实机器人成功率；IDM 任务成功率	L2, L3, L7

3.4 潜在与基础模型文献（表 5 概要）

这一类工作包括 Cosmos Predict 2.5、ABot-PhysWorld、EA-WM、V-JEPA 2、V-JEPA 2.1、LeWorldModel、Implicit World Model Evaluation 等。

这些论文带来两点启示。

其一，世界模型不必是像素生成器：V-JEPA 2、V-JEPA 2.1 和 LeWorldModel 主要通过规划、探针与下游效用来评估 [1, 45, 43]，这非正式地呼应了价值等价的直觉——模型完全可以靠捕捉价值相关子空间而有用，无需建模像素。

其二，强大的单步或表层预测，可能对状态抽象造成误导：Vafa 等人表明，一个模型可能在标准探针下表现亮眼，却仍未能恢复出连贯的转移结构 [53]。说到底，一个决策世界模型最终所依赖的，或许更多是正确的状态-转移抽象，而非正确的像素。

表 5：潜在与基础模型文献

其中”repr.“表示横切性的状态抽象或表征诊断——它们无法干净地映射到阶梯的某一单一层级，但之所以重要，主要是因为它们支撑更高层级的决策主张。

工作	主要用途主张	实际评估的内容	代表性指标或输出	主要层级
Cosmos Predict 2.5 [47]	基于扩散的世界基础模型	Physical-AI 领域能力、通用视频质量、多视角机器人几何、动作条件机器人预测与 DreamGen-Bench 性能	领域分、质量分、TransErr、RotErr、Sampson 误差、PSNR、SSIM、潜在 L2、FVD	L0–L4
ABot-PhysWorld [9]	面向操作的交互式世界基础模型	PBench/EZS-Bench 世界生成质量与动作到视频的轨迹一致性	领域/机器人分、VBench 式质量指标、轨迹一致性	L0–L4
EA-WM [65]	事件感知生成式世界模型	交互质量、轨迹准确性、深度准确性、视角性、指令遵循、语义对齐、动作遵循与动作可恢复性	VLM 交互与视角分；轨迹 NDTW；深度准确性；KVAF 平移/旋转/夹爪误差	L2–L4
V-JEPA 2 [1]	用于理解、预测与规划的潜在预测世界模型	定性解码展开、机器人规划、动作预判、分类与视频问答	目标距离、成功率、规划时间、Top-1 准确率、Recall@5、VQA 准确率	L7 + repr.
V-JEPA 2.1 [45]	稠密特征潜在预测模型	机器人规划、导航、稠密预测、动作预判、分类与视频问答	成功率、ATE/RTE、RMSE、mIoU、J&F、Recall@5、Top-1 准确率	L7 + repr.
LeWorldModel [43]	从像素出发的潜在 JEPA 式世界模型	潜在空间 MPC 规划、潜在物理探针，以及对物理上不合理的潜在轨迹的检测	规划成功率、MSE、Pearson 相关、异常分离度	L5, L7 + repr.
Implicit World Model Evaluation [53]	对生成模型所学状态转移结构的形式化评估	模型是否将对应同一真实状态的历史合并、并将具有不同未来可能性的历史分离	序列压缩与序列区分	repr.

3.5 究竟在评估什么对象？

把表 2 至表 5 合起来看，可以发现：文献并不是在评估同一个对象。

第一，存在多种评估文化。 像 EVA-Bench、EWMBench、WorldModelBench、PBench、RBench、WorldScore 这样的基准论文，主要评估生成的产物：真实感、语义或物理 [10, 67, 36, 46, 11, 13]。

像 WorldGym、Scalable Policy Evaluation、dWorldEval、DreamDojo 这样的策略评估论文，则把模型当作策略的代理评估器 [49, 52, 38, 17]。优化类论文把模型当作端到端控制改进流水线的一环 [59, 32, 37, 73]。潜在类论文把模型当作规划相关的表征 [1, 45, 43]。合成数据与可执行性论文则把模型当作数据引擎或可执行规划器 [28, 31, 16, 55]。

第二，证据的分布明显偏向低层级——这一点可直接从综述中读出。 表 3 与表 4 合计列出了约四十篇环境模型、优化、策略评估、可执行性与合成数据工作，它们是综述中最有可能承载决策主张的子集。按第 3 节的规则解读所记录的指标，三个模式格外醒目：

(i) 开环重建（L1）与最终策略成功率（L7）是出现最频繁的两个层级，且相当一部分工作_仅以这一对_作为世界模型的证据，结果让模型自身的贡献与优化器、奖励模型和数据流水线纠缠在一起。

(ii) 固定策略排序一致性（L6）只出现在约十几篇工作中，且几乎清一色集中于专门的策略评估集群（如 WorldGym、Scalable Policy Evaluation、dWorldEval、DreamDojo、Persistent、Ctrl-World、IRASim）。

(iii) 最为引人注目的是，我们几乎找不到一篇工作报告了可利用性差距——即针对模型优化出的策略或动作序列，其模型预测价值与真实价值之间的可测偏差（即第 5 节的 XGap）。

少数工作报告了相关诊断，例如固定展开下相对真值的成功率差距（Kinema4D）或不确定性质量（WHALE），但基于模型的优化所众所周知会引发的那种特定失败模式，按我们这份综述的证据来看，几乎从未被测量过。

这一缺失，正是”该领域重新撞上目标错位、却未采用为之开发的诊断手段”这一论断的具体形态。

第三，主要的分界线并非简单的”视频 vs. RL”。 更深一层的区分，在于究竟是评估生成的产物，还是评估模型所赋能的决策。许多 VLA/RL 论文报告策略成功率，却主要靠 L1 式的重建指标来诊断世界模型。

许多基准论文添加了语义与物理，却仍以产物为中心。策略评估与可执行性论文更接近决策效用，但往往依赖黑箱式或流水线级的指标。

第四，像素既非必要也非充分，而且这种背离是被观测到的，而不只是理论上可能。 V-JEPA 2、V-JEPA 2.1 和 LeWorldModel 表明，模型无需逼真重建也能服务于规划 [1, 45, 43]。

其反面——高视觉质量却低功能效用——恰恰是两个专门用来分离这两个维度的基准所报告的：WorldArena 把十六个视频质量指标与功能性度量（数据引擎增益、策略评估相关性、规划器成功率）并置，发现世界模型在感知层面的排序与功能层面的排序并不吻合 [50]；

RoboWM-Bench 同样考察生成的视频能否被执行为任务成功，并报告视频质量并不能可靠地预测可执行性 [31]。我们要强调，这些是真实模型集上的已发表结论，而非思想实验。

3.6 世界模型主张

不同论文使用同一个词”世界模型”，却隐含地作出了不同的主张：

1、 未来视频主张：模型能预测合理或逼真的未来观测。
2、 策略评估主张：模型能估计或排序候选策略的性能。
3、 策略优化主张：把模型放进规划器、优化器或 RL 循环，能在真实环境中改进策略。
4、 规划/可执行性主张：模型能帮助选出或恢复出在真实环境中成功的动作序列。
5、 合成数据主张：模型生成的样本能提升下游学习。
6、 表征主张：模型的潜在状态保留了足以支撑预测与控制的任务相关转移结构。

这些主张不可互换。对其中一个的证据，并不自动构成对另一个的证据。

这一点在近期文献中可以落到实处。诸如 PBench、WorldModelBench、WorldScore、RBench 之类的基准，如果主张是具身世界生成或物理视频质量，那么它们很有参考价值，但单凭它们并不能确立策略评估或策略优化的效用 [46, 36, 13, 11]。

许多 RL/VLA 论文如 World4RL、VLA-RFT、World-Env、RISE、WoVR、VLA-MBPO 评估最终策略成功率——这固然重要——却往往主要用 L1 式的图像或视频指标来诊断世界模型本身 [32, 37, 60, 62, 33, 70]。

策略评估论文如 WorldGym、Scalable Policy Evaluation、Vid2World、dWorldEval、DreamDojo、Persistent Robot World Models 更接近决策用途，但它们大多评估的是固定策略排序，而非与优化器的交互或可利用性 [49, 52, 27, 38, 17, 3]。

可执行性论文如 RoboWM-Bench、RoboMaster、EVA 检验了一座从视频通向控制的更强桥梁，但其表现同样依赖逆动力学、重定向、模拟器与成功检查器 [31, 16, 55]。潜在类论文则展示了反面情形：规划效用可以在缺乏高质量像素的情况下存在 [1, 43, 53]。

结论并不是说文献”一直做错了”。毋宁说，该领域一直在一个名称之下评估若干不同的东西，并且常常在重新发现目标错位问题的同时，没能借助既有的决策感知词汇去应对它。

4 世界模型评估阶梯

综述提示我们建立一个 L0–L7 的评估目标阶梯。这个阶梯既是描述性的（它总结了文献已经在测量的内容），又部分是规范性的（这些层级回答的是关于模型能否支撑具身决策、强度递增的一系列问题）。要点不在于低层级毫无用处，而在于低层级通常回答的是关于决策用途的较弱问题。

这个阶梯横跨多个维度，而非单一维度。 我们一开始就要提醒：”阶梯”是一种简化。L0–L7 的排序实际上沿若干部分独立的维度移动：产物质量与决策效用（L0–L3 对 L4–L7）、观测性与干预性（L0–L3 对 L4 及以后）、开环与闭环（L1 对 L6–L7），以及固定策略与优化诱导（L6 对 L7）。这些维度彼此相关，但并不共线。

我们之所以保留线性的呈现方式，只是因为它大致追踪了所提决策问题的强度；它应当被读作一个证据层级，而非单一的标量评分——表 2 至表 5 中的层级标注之所以是层级的_集合_，正是因为大多数论文同时占据多个维度。

表 6：主张与证据的错位

主张类型	更强的支撑证据通常应包括	有时被替换的较弱证据	该替换为何可能误导
未来视频/世界生成	L0–L3 证据	无（若这本就是实际主张，则合适）	问题仅在该证据后来被当作也确立了策略评估或优化效用时才出现
策略评估	固定策略的闭环展开 + 价值/排序一致性，理想上有 L4–L5 支撑	仅 FVD/PSNR、人类偏好或指令遵循分数	模型可生成合理视频，却误排策略或误估成功
策略优化	固定预算下真实/可信模拟器中的策略增益 + 可利用性测试 + L4–L6 诊断	开环图像/视频指标，或一个未经分解的下游成功数字	最终成功把世界模型与奖励模型、过滤器、优化器和数据筛选纠缠在一起；开环指标无法检验干预有用性
规划/可执行性	基于模型的规划或动作恢复下的任务成功，理想上配以动作干预诊断	指令遵循视频，或对合理计划的人类偏好	看似合理的计划，仍可能动力学错误或不可执行
合成数据	在匹配的训练预算与学习器下，受控的下游学习增益	视频美感、FVD 或对生成数据的 VLM 偏好	视觉干净的数据未必含有学习所需的、正确的任务相关变化
表征	规划效用、物理探针，或诸如序列压缩/区分之类的状态抽象诊断	仅解码质量或线性探针	模型可重建良好或支撑浅层探针，却仍缺乏正确的转移结构

各层级并非互斥，在实践中也不严格单调。一个潜在模型可能在 L0 或 L1 上得分平平，却在 L7 上很有用；一个视频模型可能在 L0–L3 上得分很高，却在 L6 上很弱。

因此，这个阶梯最好被读作一个”为决策主张提供日益直接证据”的层级，而非一张单一的线性记分卡。各层级简述如下：

L0（视觉合理性） 追问的是：输出看上去像不像一幅合理的图像或视频？这是视频生成评估中占主导的层级，FID、FVD、美感、图像质量与人类偏好都是自然的首道检验 [64, 13, 46, 47, 9]。L0 有其用处，因为明显的视觉失败往往预示着模型崩溃、时序伪影或条件化不良；

当需要人工审视展开、或生成数据须通过基本真实感过滤时，它也派得上用场。但 L0 只是决策有用性的间接证据：模型完全可以靠生成平滑视频、复制背景，或产出语义合理却对动作不敏感的未来来取得不错的 L0。

换言之，L0 诊断的是表面质量，而非模型能否把所选动作的_后果_预测对。

L1（记录未来预测） 追问的是：预测的未来是否与行为分布中一段留出的未来相符？这是 MSE、PSNR、SSIM、LPIPS、DreamSim、潜在 L2、时间 SSIM 或光流准确率所对应的标准开环世界模型设定 [32, 37, 68, 72, 61, 3]。

L1 是一道有用的健全性检查：一个连留出未来都预测不了的模型，多半也难以支撑更高层级的用途。然而，L1 终究是观测性的，正是目标错位文献发现与控制性能弱相关的那个量 [35]：它衡量的是模型能否对上已经发生的事，而非_在不同动作或策略下会发生什么_；

在随机环境中，它还可能惩罚那些同样合理的另类未来。一个模型在 L1 上平平，却可能因保留了奖励相关结构而对规划有用；反过来，它也可能在 L1 上很强，一遇策略偏移便失灵。

L2（语义对齐） 评估的是：展开是否与指令、任务、物体及场景语义相符。这一层级出现在 EVA-Bench、DreamGen Bench、RBench、WorldArena、WoW-World-Eval 与 EA-WM 中 [10, 28, 11, 50, 14, 65]，借助 CLIPScore、字幕重合度、VLM/LLM 评判器和任务完成标签。

对语言条件系统而言，L2 往往很重要，因为一个连任务都理解错的模型，不太可能支撑有意义的下游用途。

不过，L2 仍以产物为中心：VLM 评判器和语义相似度分数，可能奖励的是合理的叙事而非忠实的动力学；一段视频也可能看似遵循了指令，却把物体接触、力的方向或成功状态编码错了。

L3（物理合理性） 追问的是：展开是否遵守直觉物理与几何一致性——物体恒存性、连续性、重力、不可穿透、接触、深度或轨迹连贯。

这一层级出现在 WorldModelBench、PBench、WorldArena、MVP、IntPhys 2、CausalVQA 与 EA-WM 中 [36, 46, 50, 34, 4, 15, 65]。

相较于 L0 和 L2，L3 是一项有意义的进步，因为它会惩罚物理上不可能或因果上不连贯的产物。

然而，除非与干预挂钩，L3 对决策用途仍然不够：许多物理基准追问的是视频看上去是否物理合理、或模型能否答对一道物理题，这并不直接检验模型能否在对策略优化至关重要的状态-动作空间区域内，预测出智能体所选动作的后果。

L4（动作可控性与干预保真度） 追问的是：改变动作是否会带来正确的、任务相关的变化。这在 ACEM、PCM、WHALE、dWorldEval、WorldGym、IRASim 与 RoboMaster 中有明确体现 [8, 7, 69, 38, 49, 72, 16]。典型证据包括动作效应测试、末端执行器或物体轨迹准确率、ΔLPIPS、往返一致性，或干预性 OPE 诊断。

L4 是第一个能清晰地把决策世界模型与未来视频先验区分开来的层级；对具身决策而言，在我们看来，它是”最小真正干预性要求”的有力候选。倘若一个模型显得对动作不敏感、或产出错误的动作相关变化，那么再高的 L0–L3 分数，也难以让人对它的决策有用性放心。

L5（奖励、价值与结果保真度） 追问的是：模型预测成功、奖励、进度、约束违反或价值，是否准确到足以支撑决策。

这在 DiWA、ProphRL、RISE、VLAW、GigaBrain、PlayWorld 与 VLA-MBPO 中有明确体现 [5, 68, 62, 23, 19, 66, 70]，借助奖励准确率、精度/召回/F1、成功概率校准、价值误差，或用于进度排序的 Kendall’s tau。

L5 之所以重要，是因为一个视觉并不完美的模型，只要保住了决定奖励的那些变量，照样有用；而一个会幻觉出成功的逼真模拟器，对策略优化反而是危险的。这非正式地把价值等价直觉变得可测量，也是把奖励与价值当作头等评估目标（而非下游的事后补充）的理由 [21]。

L6（策略评估与排序） 追问的是：基于模型的评估是否与真实或模拟器中的策略性能相一致。这是 WorldGym、Vid2World、Scalable Policy Evaluation、dWorldEval、DreamDojo、Gemini/Veo 与 Persistent Robot World Models 的关注重点 [49, 27, 52, 38, 17, 18, 3]，借助 Pearson 或 Spearman 相关、成对排序准确率与 MMRV。

这是当前文献中较强的固定策略判据之一：它直接检验模型是否保住了策略之间的次序，而这往往比图像相似度更具决策相关性。但 L6 仍弱于 L7，因为优化器有可能把策略驱入那些从未被固定策略集测试过的区域。

L7（策略优化与规划效用） 追问的是最务实的问题：用了这个模型，决策是否变好了？这涵盖基于模型的规划、基于模型的 RL、可执行视频规划，以及合成数据带来的增益。DayDreamer、ADM-v2、WMPO、DreamGen、VLP、EVA 与 V-JEPA 2 是代表 [59, 41, 73, 28, 12, 55, 1]。

L7 为面向具身决策的世界模型提供了最直接的证据。 但与此同时，L7 是_纠缠的_：它不仅取决于世界模型，还取决于奖励模型、优化器、展开时长、不确定性处理以及周边的数据流水线。正因如此，L7 在与 L4–L6 的分解配套报告时，往往比单独作为一个数字更易解读。

这个阶梯提示一种有用的区分。 L0–L3 最好被理解为诊断层级：它们评估的是生成的产物，有用且常常必要，对基于视频的接口尤其如此。L4 可被看作一道干预性阈值：它追问模型对动作的响应是否正确。

L5–L7 提供最直接的决策用途证据：它们检验模型是否保住了结果、能否排序策略、能否改进决策。诸如 [53] 这样的状态抽象与潜在表征诊断，是横切阶梯的，而非另立一级；它们之所以重要，主要是因为有助于解释 L4–L7 处的成败。

对决策主张而言，低层级的成功并不能可靠地替代高层级的证据——尽管低层级指标在实践中依然有用，在某些领域也可能与高层级表现相关。

5 一种以决策为中心的评估框架

阶梯厘清了存在哪些类型的证据。现在，我们从描述转向建议。下面这些是针对以具身决策为既定目的的模型的建议，而非每篇世界模型论文都必须满足的普适要求。

声明一份决策契约，能让评估更易解读。 不存在与用途无关的单一世界模型评分；价值等价原则把这一点讲得很清楚——模型保真度只有相对于一组策略和价值函数才有定义 [21, 22]。一旦声明了决策契约，评估便容易解读得多：

本模型是一个面向任务族 \mathcal{T} 、策略类 \Pi 、动作接口 \mathcal{A} 、时域 H 与决策用途 U 的世界模型。

倘若缺了 \mathcal{T} 、 \Pi 、 H 与 U ，就很难判断 FVD、基于 VLM 的物理问答、策略排序还是最终任务成功率才是最相关的主要指标。

这也解释了综述中的很大一部分现象：许多基准论文一旦被理解为 L0–L3 的契约，其实都是合理的；困难只在于，当这些结果被推广到更强的 L6–L7 主张、却未补充额外证据时才会出现。

干预性动作保真度往往是第一道区分性要求。被动的视频预测器估计的是数据分布下可能的未来。而一个决策世界模型，若能回答干预性查询、能区分

\mathbb{P}_{\mathcal{E}}(o_{t+1:t+H} \mid h_t) \quad\text{与}\quad \mathbb{P}_{\mathcal{E}}(o_{t+1:t+H} \mid h_t, do(a_{t:t+H-1})),

就更有说服力。后者才是规划与策略优化所需的对象；并且（如第 2.6 节所述）它只有在无未观测混杂与覆盖充分的假设下、且动作接口被直接控制（而非从生成视频中推断）时，才能从日志中识别，否则就必须通过执行干预来测量。对于一个任务相关的特征映射 \Phi ，定义干预性预测误差

\mathrm{IPE}_{H,\Phi}(\widehat{\mathcal{E}}) = \mathbb{E}_{(h,a_{0:H-1})\sim Q}\left[d_\Phi\left(\Phi(\widehat{\tau}_{1:H}), \Phi(\tau_{1:H})\right)\right],

其中 \widehat{\tau}\sim\widehat{\mathcal{E}}(\cdot\mid h,a_{0:H-1}) ， \tau\sim\mathcal{E}(\cdot\mid h,do(a_{0:H-1})) 。特征映射 \Phi 视领域不同，可包含物体位姿、末端执行器状态、接触事件、成功谓词、安全约束或潜在任务变量。一个互补的动作效应度量，则比较来自同一历史的两个动作：

\Delta_{\mathcal{E}} = d_\Phi\left(\Phi(\tau^a), \Phi(\tau^{a'})\right),\qquad \Delta_{\widehat{\mathcal{E}}} = d_\Phi\left(\Phi(\widehat{\tau}^a), \Phi(\widehat{\tau}^{a'})\right).

一个能保住动作所诱导差异的量级与次序的模型，比一个仅仅预测合理未来的模型，提供了更强的决策相关性证据。

策略诱导的分布偏移通常值得纳入考量。行为策略的数据与目标策略的展开，一般来自不同的状态-动作分布。设 d^\pi_{\mathcal{E}}(s,a) 为策略 \pi 在真实环境中的折扣占据测度，d^\pi_{\widehat{\mathcal{E}}} 为模型下的相应占据。

模型在 d^\mu_{\mathcal{E}} （ \mu 为行为策略）下误差可能很低，到了 d^\pi_{\mathcal{E}} （ \pi 为目标策略或优化后的策略）下却误差很高。

这正是策略条件模型、反事实环境模型学习与全程动力学模型在此相关的原因 [8, 7, 41]。一个以决策为中心的基准，若纳入了那些与数据采集策略不同的目标策略——理想情况下还包括由基于模型的优化器自身产出的策略——便更有信息量。

对许多决策用途而言，全程结果保真度比短程重建更有信息量。 单步或短程准确率可能误导人：局部的小误差会累积放大，而视觉上的大误差却可能与奖励无关。因此，对许多决策用途来说，更值得以全程任务相关结果来评估世界模型：

\widehat{J}_{\widehat{\mathcal{E}}}(\pi) = \mathbb{E}_{\widehat{\tau}\sim\widehat{\mathcal{E}},\pi}\left[\sum_{t=0}^{H-1}\gamma^t \widehat{r}_t\right],

对于策略集 \Pi_{\text{eval}} ，全程价值误差为

\mathrm{FVE}(\widehat{\mathcal{E}}, \Pi_{\text{eval}}) = \frac{1}{|\Pi_{\text{eval}}|}\sum_{\pi\in\Pi_{\text{eval}}}\left|\widehat{J}_{\widehat{\mathcal{E}}}(\pi) - J_{\mathcal{E}}(\pi)\right|.

对稀疏成功任务，成功概率校准也很有用：

\widehat{p}_{\widehat{\mathcal{E}}}(\pi) = \mathbb{P}_{\widehat{\tau}\sim\widehat{\mathcal{E}},\pi}[\widehat{\tau}\ \text{成功}],\qquad p_{\mathcal{E}}(\pi) = \mathbb{P}_{\tau\sim\mathcal{E},\pi}[\tau\ \text{成功}].

当模型被用来比较或优化策略时，保住策略所要优化的东西，往往比保住每一处视觉细节更重要。

闭环展开与占据保真度可能比教师强制预测更有信息量。 一个被策略使用的世界模型，往往更宜以闭环方式评估：策略基于模型生成的历史来行动，而非只基于教师强制的真值前缀。一个有用的目标是占据失配

D_{\text{occ}}(\widehat{\mathcal{E}}, \pi) = \sum_{t=0}^{H}\gamma^t D\left(d^\pi_{\mathcal{E},t}, d^\pi_{\widehat{\mathcal{E}},t}\right),

其中 D 可取 MMD、Wasserstein 距离、KL 散度、总变差，或特征空间中某种任务特定的差异。一个只在条件于真值上下文时才保持稳定的世界模型，对某些应用或许仍有用，但作为闭环模拟器，它提供的证据要弱得多。

策略排序往往可以直接测量。 对策略评估而言，精确的价值或许不如选对更好的策略来得重要。对于 \Pi_{\text{eval}} = \{\pi_1,\ldots,\pi_n\} ，成对排序准确率为

\mathrm{PRA} = \frac{1}{n(n-1)}\sum_{i\ne j}\mathbf{1}\left[\left(\widehat{J}_{\widehat{\mathcal{E}}}(\pi_i) - \widehat{J}_{\widehat{\mathcal{E}}}(\pi_j)\right)\left(J_{\mathcal{E}}(\pi_i) - J_{\mathcal{E}}(\pi_j)\right) > 0\right],

平均最大秩违反为

\mathrm{MMRV} = \frac{1}{n}\sum_{i=1}^{n}\max_{j:J_{\mathcal{E}}(\pi_i)>J_{\mathcal{E}}(\pi_j)}\left[\mathrm{rank}_{\widehat{\mathcal{E}}}(\pi_i) - \mathrm{rank}_{\widehat{\mathcal{E}}}(\pi_j)\right]_+.

这些正是新兴的策略评估文献所强调的量 [49, 52, 38]；我们只是汇总，并非首创。

优化效用，配合可利用性测试才更易解读。 设一个固定的优化器 \mathcal{A} 用世界模型产出 \widehat{\pi}_{\widehat{\mathcal{E}}} = \mathcal{A}(\widehat{\mathcal{E}}, D, B) ，那么最主要的系统级量是策略增益

\mathrm{Lift} = J_{\mathcal{E}}(\widehat{\pi}_{\widehat{\mathcal{E}}}) - J_{\mathcal{E}}(\pi_{\text{base}}),

当存在某个 oracle 或强参考 \pi^\star 时，还有优化遗憾 \mathrm{OptRegret} = J_{\mathcal{E}}(\pi^\star) - J_{\mathcal{E}}(\widehat{\pi}_{\widehat{\mathcal{E}}}) 。一个互补的可利用性度量是

\mathrm{XGap} = \widehat{J}_{\widehat{\mathcal{E}}}(\widehat{\pi}_{\widehat{\mathcal{E}}}) - J_{\mathcal{E}}(\widehat{\pi}_{\widehat{\mathcal{E}}}).

一个较大的正可利用性差距，意味着优化器找到了那些在模型看来不错、却在环境中失败的轨迹。

这正是基于模型的强化学习中长期被注意到的模型利用失败模式 [29, 35]；我们在此只是把它重述为一个评估量——因为正如第 3.6 节的计数所示，近期生成式世界模型文献基本从不报告它。

不确定性与弃权也会影响评估。 一个用于优化的世界模型，如果能在自身不可靠时给出提示，便更值得信任。设 u_{\widehat{\mathcal{E}}}(h, a_{0:H-1}) 为一个不确定性分数，理想情况下，一个有用的不确定性度量应当相对于结果误差或价值误差被校准：

\mathbb{P}\left(\left|\widehat{J}_{\widehat{\mathcal{E}}}(\pi) - J_{\mathcal{E}}(\pi)\right| \le \epsilon \ \middle|\ u_{\widehat{\mathcal{E}}}(\pi) \le \alpha\right) \approx 1 - \delta.

在实践中，这可以通过风险-覆盖曲线、误差与不确定性的相关性、弃权性能、悲观规划性能、Brier 分数与 ECE 来报告。

这一点之所以重要，是因为离线或基于模型的优化器，可能会主动去寻找过度自信的错误；WHALE 对泛化与不确定性的强调，因此对以决策为中心的评估而言是切题的，而非旁枝末节 [69]。

估计方面的注意事项。 上述这些量是目标，而非可以免费获得的测量，其中有几个在统计上要求颇高。真实机器人上的 J_{\mathcal{E}}(\pi) 需要大量展开，方差很高；

MMD 或 Wasserstein 这类高维轨迹分布上的占据散度难以估计，且对特征映射 \Phi 敏感；PRA 与 MMRV 这类排序指标，在策略集很小或区分度差时不稳定。

因此我们建议：在任务、种子和策略集上报告带置信区间的指标（即协议的第 7 步），尽可能在 \Phi 中采用低维的任务相关特征，并对上述任何量的单点估计保持审慎。这些注意事项并非我们的提案所独有，但它们直接关系到一个所报告的决策效用数字是否可信。

一个层级背离的示例（数字为假设，仅用于建立直觉）。 产物质量与决策效用之间的背离，在实践中已经被测量出来（第 3.6 节）；

下面这个虚构例子，只是为了让其机理变得直观，其数字纯属假设，并非取自任何特定论文。设想三个虚构的、在抓取-放置任务族上接受评估的操作世界模型。

模型 A 是一个高容量的视频扩散模型，FVD 与 VLM 物理分数都很出色（L0–L3 很强），但在闭环展开中，无论指令给定的抓取动作如何，它都大体复现一个平滑的”默认”抓取，其动作效应一致性（L4）与策略排序相关性（L6）都接近随机。

模型 B 的 FVD 明显更差、偶有纹理伪影（L0–L1 较弱），却能正确预测一个给定的抓取宽度是否接触到物体、提举是否成功；

它在 L4 动作效应一致性、L5 成功校准和 L6 排序相关性上都很高。模型 C 是一个无解码器的潜在 JEPA 式模型，因此 L0–L1 未定义或很差，却支持精确的潜在 MPC，并能很好地排序策略（L4–L7 都很高）。

在产物加权的聚合下，模型 A 胜出；在决策加权的剖面下，模型 B 与 C 胜出。要点在于这个结构，而非具体数字：产物质量与决策效用，可以跨模型反相关——这正是目标错位文献所预测的 [35]，也正是 WorldArena 与 RoboWM-Bench 已经在真实模型集上报告出来的 [50, 31]。

我们建议不要让低层级去补偿高层级的失败。 对决策主张而言，我们建议在把低层级与高层级指标聚合成单一评分时保持谨慎。

一个模型不应仅仅因为 FVD 好、或基于 VLM 的物理合理性高，就在决策世界模型的榜单上名列前茅——倘若它在动作可控性、奖励保真度或策略排序上表现糟糕的话。

这并非出于对低层级指标的敌意，而是基于上文已经记录的观察：它们可能主导一个聚合分数，所回答的却是另一个问题。

6 一套基准协议

框架说明了_哪些东西_值得测量。本节把它转化为一套可操作的协议，并以模块化模板的形式呈现——而非要求每个基准在每个领域都满规模地包含每一个组件。

由于最具决策相关性的组件，往往也是真实硬件上最难实现的，我们在本节末尾给出一个最小可行版本，并坦率地说明它能确立什么、不能确立什么。

第 0 步：声明世界模型契约。 我们建议每份提交都声明决策契约（见表 8），把模型自称能支撑什么讲清楚，包括：任务族、策略类、动作接口、决策用途、任务相关特征映射 \Phi 、时域、部署机制、允许的监督，以及不确定性接口。

第 1 步：构建策略与干预划分。 一个以决策为中心的基准，如果不只评估行为策略的展开，便更有信息量。一种有用的分解是分成四个策略集： \Pi_{\text{beh}} （生成训练数据的行为策略）、 \Pi_{\text{anchor}} （横跨弱、中、强性能的固定锚定策略）、 \Pi_{\text{shift}} （相对数据诱导分布偏移的目标策略）、 \Pi_{\text{opt}} （在世界模型内部优化而得的策略）。

基准还可以包含一个由匹配历史与动作分支构成的干预集 Q 。在模拟中，这可以通过重置到同一状态来精确实现；

在真实机器人上，则可借助受控的桌面重置、真实到模拟的重建、匹配的轨迹片段或可分支任务来近似——但正如第 2.6 节所述，只有真正执行、且动作接口被直接控制的分支，才许可给出强干预性主张。

第 2 步：把 L0–L3 诊断当作诊断来报告。 开环诊断的报告仍然有用，对基于视频的模型尤其如此（L0：真实感/美感/人类偏好；

L1：MSE、PSNR、SSIM、LPIPS、DreamSim、潜在 L2、时序指标；

L2：指令遵循、字幕相似度、VLM 任务完成；

L3：物体恒存性、不可穿透、接触、深度、3D 一致性、物理问答）。

这些指标有助于调试失败模式、理解接口，但对一个决策基准而言，它们最好作为辅助诊断，而非主要评分来报告。

第 3 步：评估干预性动作保真度。 对每个 (h, a_{0:H-1})\in Q ，评估干预性预测误差 \mathrm{IPE}_{H,\Phi} 与动作效应一致性。

有用的组件包括：从同一历史出发的匹配动作分支、有意义之处的单维动作扫描、适用时的往返或可逆性测试、动作条件模型的机器人/物体轨迹保真度，以及操作任务中的接触/事件预测。

这一步是 L4 的操作化实现。如果一个模型在此表现糟糕，那么无论它的 L0–L3 分数如何，我们都不愿把它当作决策世界模型的有力证据。

第 4 步：评估闭环固定策略展开。 对 \Pi_{\text{anchor}}\cup\Pi_{\text{shift}} 中的策略，分别在真实环境与世界模型内部展开，报告闭环展开保真度或占据失配、全程价值误差、成功概率校准、奖励/进度预测，以及 Pearson/Spearman 相关、成对排序准确率与 MMRV。

这一步把 L5 与 L6 操作化了，且在展开为_闭环_时最有信息量——单凭教师强制的前缀条件化往往不够。

第 5 步：在固定预算下评估策略优化。 一个面向决策世界模型的基准，可以包含一项基于模型的优化挑战。固定一个优化器 \mathcal{A} 、一种数据机制、一份计算预算，以及（若适用）一份交互预算；

视所声明的用途， \mathcal{A} 可以是 MPC、CEM、想象 RL、合成数据过滤或其他规划器/优化器。

在真实环境或可信模拟器中评估优化后的策略，报告相对固定基线的策略增益、（有强参考时）相对强参考的优化遗憾、样本效率与计算成本，以及安全改进概率和约束违反率。这一步是 L7 的操作化实现，仍是一项端到端的系统指标。

第 6 步：对抗性可利用性与不确定性。 一个更强的决策基准，还可以在_对抗性使用_下测试模型：在动作约束与安全过滤的限制下，搜索那些在模型下最大化预测价值的动作序列或策略，在真实环境或可信模拟器中执行其安全子集，并报告可利用性差距与失败率。

如果模型提供了不确定性，就评估在高不确定性展开上弃权是否能改善校准与优化安全性。一个具备校准弃权能力的模型，可能比一个原始预测看似更好、置信度却失准的模型更有用。

第 7 步：隐藏任务、留出策略与统计报告。 为减少基准过拟合，应保留部分任务或物体直到最终评估；在留出的策略族（而非同一策略类的小幅扰动）上评估；

在任务、种子、初始状态和策略集上报告置信区间；并发布逐任务的指标，而非只给平均值。第 5 节的估计注意事项，使这一步成为一项实质性要求，而非走过场。

第 8 步：报告一份决策效用剖面，而非仅一个标量。 我们建议报告一份剖面 (S_0, \ldots, S_7) ，而非仅一个平均后的数字。如果排行榜非要一个标量，一个办法是采用门控：

S_{\text{DC}} = G_4 G_5 G_6 \left(w_4 S_4 + w_5 S_5 + w_6 S_6 + w_7 S_7\right),

其中 G_4, G_5, G_6 \in \{0,1\} 分别是动作可控性、结果保真度与策略评估有效性的通过/失败门。

这种乘性门控只编码了一个定性判断——即一个在干预、结果或排序测试上不及格的模型，不应被产物质量挽救——除此之外别无他意；其形式、阈值与门控层级的选择，都不是从理论推导出来的，而是依赖于具体领域。

为了把这一点落到实处、而非停留在占位符，我们给出一个针对带稀疏成功的桌面操作、可供辩护的实例化：取

G_4 = \mathbf{1}[\text{动作效应排序准确率} \ge 0.7] ， G_5 = \mathbf{1}[\text{成功概率 ECE} \le 0.15] ， G_6 = \mathbf{1}[\text{成对排序准确率} \ge 0.75]

权重

(w_4, w_5, w_6, w_7) = (0.2, 0.2, 0.2, 0.4)

以凸显优化效用；门控阈值对应于动作排序与策略排序上”明显优于随机”、以及校准上”可用”的水平。这些具体数字仅供示例，应当按领域预先注册，以防事后调参。我们建议以剖面为主、仅在单一数字不可避免时才使用门控标量；并且在任何情况下，L0–L3 都不应补偿 L4–L7 处的失败。

面向真实机器人的最小可行版本，以及它确立不了什么。 第 3 至第 6 步在模拟中最容易实现，因为那里重置和大规模策略集都很廉价。而在真实硬件上，精确干预与大量展开都代价高昂，完整协议可能并不切实际。作为一个真实机器人世界模型论文今天就能报告的具体最小集，我们建议：

(i) 在少数桌面任务上的一小组重置匹配动作分支，在低维（如末端执行器位姿与物体位姿）上评分动作效应一致性（即部分 L4）；

(ii) 对三到五个明显强弱不同的锚定策略，做闭环成功校准与排序，并在适度试验次数上给出置信区间（即部分 L5/L6）；

以及 (iii) 至少一个定性的可利用性探针，报告优化器评分最高的若干模型轨迹在被执行时是否真的成功（即部分 XGap）。

我们对这个最小集的局限有意保持坦率。它确实比完整协议要弱；而在真实硬件上，那些决定性的证据——大规模的 L7 策略增益，以及定量的对抗性可利用性搜索——在很大程度上仍遥不可及；

就此而言，我们那些较强的建议，对真实机器人场景来说部分带有理想色彩。尽管如此，我们仍主张这个最小集相对当前实践是一项有意义的进步，理由有二。

其一，按第 3.6 节的计数，连 (i) 和 (iii) 这样的项，在被调查的真实机器人论文中也几乎从未被报告过——它们通常是把 L1 重建与一个端到端成功数字配在一起；因此，补上一个部分 L4 和一个定性 XGap，提供的是当前缺失的、与决策对齐的证据，而非仅仅重复最好的策略评估论文已经在做的事。

其二，(iii) 中的定性可利用性探针，据我们所知，即便在最强的当前策略评估工作（如 WorldGym、dWorldEval）中也并非标准做法——它们关注的是固定策略排序；而这个探针直接瞄准了固定策略 L6 所无法察觉的、由优化诱导的失败模式。在有模拟或可信数字孪生可用之处，我们强烈鼓励把 (iii) 升级为第 6 步那种完整的、定量的 XGap。

世界模型评估卡。 我们建议，每篇声称提出决策世界模型的论文，都附上一张如表 9 那样的评估卡，其涵盖的问题包括：所声称的用途是什么；实际评估了阶梯上的哪些层级；

动作接口是什么、是受控还是推断；被评估或改进的是哪个策略类；测试了何种分布偏移；评估了多长的时域；使用了哪些干预性数据；是否直接评估了奖励与结果；基于模型的策略评估是否与现实相符；基于模型的优化是否改进了现实；模型能否被利用；以及不确定性是否被校准。

7 讨论与结论

7.1 这一区分为何重要

如果整个社区主要按 L0–L3 来给世界模型排名，那它可能在优化一个错误的目标：生成视觉上令人信服、却对决策并不可靠的视频。这是社区层面评估激励中的目标错位问题 [35]。

在机器人、自动驾驶与具身智能体领域，这绝非无关痛痒的小事：一个误导性的世界模型，可能促成不安全的策略更新、误排候选策略，或在分布偏移之下制造出虚假的鲁棒性信心。

我们并不主张视频指标毫无用处。它们对调试、可视化、合成数据过滤和人类可解释性都有用，对基于视频的接口往往还是必要的。我们担忧的，是把它们当作决策有用性的最终证据。

同样的道理也适用于 VLM 评判器：它们有用，因为提供了可扩展的语义与物理评估 [48, 36, 46, 50]，但不应被当作策略效用的真值——因为 VLM 可能奖励了看似合理的结果，却漏掉了与动作相关的细微错误。

VLM 的判断，在被对照可执行结果、策略排序以及真实/可信模拟器性能加以验证之后，才更易解读。

7.2 常见反对意见与适用条件

反对意见 1：并非每个世界模型都是为控制而生的。 我们同意。有些系统最好被理解为未来视频预测器、世界生成器或表征学习器。

我们的论点是有条件的：当所声称的用途是具身决策时，动作层、结果层与策略层的证据才变得格外有信息量。

反对意见 2：低层级指标可能与高层级效用相关。 这确实可能发生，在某些领域，更好的 L0–L3 表现可能是 L6–L7 表现的一个良好代理。

我们反对的不是在经验验证之后使用代理，而是先验地假设这种相关性成立。目标错位的证据 [35]，以及那两个同时报告两个维度的基准发现排名会背离 [50, 31]，恰恰是去_验证_这种相关性、而非想当然地假设它的理由。

反对意见 3：完整的干预性评估不切实际。 这是对的，在真实机器人上尤其如此——正因如此，我们在第 6 节提供了最小可行版本，并明言它确立不了什么。精确的重置匹配分支可能只在模拟中才有；而部分近似在真实世界领域里仍可能有用。

反对意见 4：这一论点有沦为同义反复的风险。 读者也许会指出，”为决策而生的模型应当以决策来评估”几乎是不证自明的。

其非平凡、可证伪的内容是经验性的：产物质量指标常常会偏离、甚至能颠倒决策效用的排序，因此这种替换不仅是不完整的，而是会主动误导。

这一点在经典设定中已有支撑 [35]，并且越来越多地在生成式世界模型设定中得到印证——只要哪个基准肯同时报告两个维度 [50, 31]；

而我们第 3.6 节的计数进一步表明，能够检验这一点的诊断手段在很大程度上是缺席的——这本身就是一个可付诸行动的发现。

7.3 局限与开放问题

可重置的干预性数据难以获得。 精确的干预性评估，要求把环境重置到同一状态再执行不同的动作。这在模拟器中容易，在真实机器人上困难，在开放世界中有时根本不可能。

真实到模拟的重建、可分支的桌面任务、匹配的轨迹片段都是有用的近似，但并不完美；并且（如第 2.6 节所述），当动作接口是推断而非受控时，它们无法识别干预目标。

任务相关特征映射依赖于领域。 特征映射不可能是普适的：操作任务需要物体位姿与接触；驾驶需要车道位置与安全约束；导航需要地图与目标进度；游戏需要潜在状态变量。

这是认真对待”意图用途”的必然结果，也呼应了价值等价原则中那种对策略/函数的依赖 [21]。

指标带有估计误差。 正如第 5 节所讨论的，几个所提的量在统计上要求很高，一个建立在 J_{\mathcal{E}}(\pi) 或占据散度的噪声估计之上的基准，本身就可能误导人。这些量的估计器设计与方差缩减，都是开放问题。

我们关于领域层面的论断，是从综述读出的，而非来自完整审计。 第 3.6 节的计数，读自表 3、表 4 所记录的指标，而非来自对每篇论文的逐一复现。我们预期那些定性结论（L1/L7 占主导、L6 稀疏、XGap 近乎缺席）是稳健的，但一项系统的、判据锁定的元分析仍属未来工作，它将进一步加强这一诊断。

优化基准本身可能被钻空子。 如果优化挑战是公开且静态的，方法就可能对它过拟合。隐藏任务、隐藏策略、留出具身，以及对抗性可利用性测试，因此都很有价值。

潜在模型需要特殊对待。 不应因潜在预测模型缺乏逼真解码器而惩罚它们。它们往往更宜在其自身的表征空间里，通过规划、探针、结果预测与状态抽象诊断来评判。

安全要求最坏情况评估。 对安全关键领域而言，平均策略增益还不够；约束违反率、不确定性校准、对抗性压力测试与最坏情况失败，都同样重要。

7.4 结论

核心问题不是”模型能否生成一段逼真的未来视频？”，而是”模型在何种意义上支撑了更好的决策？”对具身决策来说，最有信息量的证据，来自模型是否保住了策略评估、规划与策略优化所需的那种干预性、长程、奖励相关的结构。

这是模型基强化学习中早已确立的一课——通过目标错位与决策感知模型学习文献 [35, 44, 21]——在现代生成式世界模型语境下的表达；

我们的贡献，是那份表明这一课在实践中被遗忘的综述、那份表明哪些诊断缺失的计数，以及那套使它们变得可报告的协议。视觉保真度、语义对齐与物理合理性，仍是有价值的诊断，但它们单凭自身，并不能了结那个更强的主张。

综述提示我们：这一领域一直在一个名称之下评估若干不同的对象。L0–L7 层级有助于把这些对象区分开来，而我们所提的框架与协议，则把”哪些证据对更强的决策主张最为直接相关”这件事讲明白了。我们的立场可以这样陈述：

对于以具身决策为既定目的的模型，”世界模型”这一标签的最强证据，是它们能够实现可靠的干预性评估，并在有利情形下，在干预与分布偏移之下改进策略。其他评估仍然有用，但对那一特定主张而言，它们扮演的是更为辅助的角色。

俞扬团队新作！面向具身决策的世界模型应当如何评估？

摘要