本文第一作者许牧天，南洋理工大学MMLab博士后。导师刘子纬教授，为本文通讯作者。

机器人-环境交互模拟是具身智能的核心。近期，一些研究展现了利用视频生成技术突破传统模拟器“僵化”的视觉与物理限制的潜力。

然而，这些工作主要在 2D 空间运行、或受制于静态环境的单一引导，忽略了一个基本事实：机器人与世界的交互本质上是4D 时空事件，需要精确的交互建模。

为了还原这一本质并确保精确的机器人控制，南洋理工大学MMLab提出了全新的4D 生成式具身模拟器——Kinema4D。

它通过“控制与环境解耦”的思路重新定义了生成式模拟，使得模型“洞察”机器人准确的4D操作轨迹、并推演出环境的响应，首次展现了生成式模拟器的零样本泛化潜能，为下一代具身智能的规模化训练开辟了全新的 4D 高保真路径。

论文名称：Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation
论文链接：https://arxiv.org/abs/2603.16669
项目主页：https://mutianxu.github.io/Kinema4D-project-page/
开源代码：https://github.com/mutianxu/Kinema4D

背景与挑战

图 1. 概念图：具身仿真的三角形挑战

在具身智能领域，模拟机器人轨迹对于大规模数据增强、策略评估及强化学习至关重要。然而，实机部署成本高昂且存在安全隐患，使得虚拟环境模拟成为不可或缺的替代方案。

尽管传统物理模拟器已取得长足进步，但其受限于视觉真实感不足及对预设物理规则的依赖，难以扩展至复杂的新场景。

近期，研究者开始利用视频生成模型来合成机器人与环境的交互，通过将动作作为条件提示，绕开了繁琐的物理建模。

然而，现有生成式仿真方法仍存在关键缺陷：

1.维度缺失：大多模型局限于 2D 像素空间，缺乏机器人交互所需的 4D 时空约束。

2.精度不足：大多研究依赖高层语言指令、隐式动作理解、或静态环境先验，使得生成模型需要去“猜测”潜在的机器人动作，难以提供高保真建模所需的精确控制和动态引导，导致其在处理形变或遮挡等复杂情况时表现不佳。

总结： 如图1所示，现有方法难以同时兼顾动态引导、操作精度与时空感知这三大挑战。

为此，本论文提出 Kinema4D，通过运动学（Kinematics）将抽象动作锚定在 4D 空间下，从而引导生成模型在确保精度与时空感知的同时、实现了复杂动态交互的可靠生成。

核心方法

图 2. Kinema4D的流程：i) 运动学驱动的精确 4D 动作表征；ii) 可控生成下的环境反应 4D 建模

如图2所示，Kinema4D的核心动机是在确保精确机器人控制的同时，还原交互过程的 4D 时空本质。基于「模拟解耦」的设计哲学，将交互过程拆解为机器人控制及其产生的环境变化，并由以下两个协同洞察支撑：

i.运动学驱动的精确 4D 动作表征： 机器人动作在 4D 空间中具有物理确定性，不应由生成模型“预测”或“猜测”。抽象的关节角或位姿序列只有映射到物理结构上才具备意义。

因此，Kinema4D 利用 3D 重建的 URDF 模型，通过显式运动学产生连续且物理准确的 4D 轨迹，为交互提供高粒度的时空因果驱动。

ii.可控生成下的环境反应 4D 建模： 与确定的机器人控制不同，复杂的环境动力学需要高度灵活的生成建模。Kinema4D将导出的 4D 机器人轨迹投影为时空点图（Pointmap）信号，以引导生成模型摆脱对机器人自身运动学的建模负担，转而专注于合成环境的反应动态（Reactive Dynamics）。

通过同步预测 RGB 与点图序列，Kinema4D 将模拟转化为统一 4D 空间内的时空推理任务，不仅实现了视觉真实感，更确保了几何一致性。

数据集

图 3. Robo4D-200k: 一个大规模的4D机器人交互数据集

大规模数据集是训练世界模型的基石。为此，如图3所示，本论文构建了 Robo4D-200k —— 目前规模最大的 4D 机器人交互数据集。该数据集通过整合 DROID、Bridge 和 RT-1 等多样化的真实世界演示数据，奠定了坚实的数据基础；同时引入 LIBERO 仿真数据，合成了海量的成功与失败案例。

每一条序列都完整记录了一次机器人与世界的交互过程（如“抓取与放置”），为模型提供了稳健推理所需的连续时空信息。Robo4D-200k包含 201,426 条高保真交互序列，以巨大的数据量和交互多样性，为训练具备时空与物理感知能力的具身基础模型提供了可能。

实验分析

论文从视频生成质量、几何质量以及下游策略评估三个维度，对所提出的方法进行了全面的基准测试：

1.针对于视频生成质量，Kinema4D取得了领先的结果，如表1。其可视化结果如图2所示，跟Ctrl-World [ICLR 2026]相比，Kinema4D能更好地还原机器人动作，并得到和GT相似的环境响应结果。

表1. 视频生成质量对比

图 4. 2D生成可视化对比

2.针对于几何质量，相比于近期的另一个4D生成式模拟器（TesserAct [ICCV 2025]），Kinema4D也取得了更好的效果，如表2。其可视化结果如图3所示，Kinema4D 能够精确还原真实轨迹（Ground-Truth）的执行效果，包括‘差之毫厘’的机器人任务失败的案例。

例如，在左下角的示例中，即便夹爪与植物在 2D 视角下的 RGB 纹理发生重叠，Kinema4D仍能准确识别它们之间的空间间隙，从而准确模拟出机械臂未能抓取植物的结果。

表2. 几何生成质量对比

图 5. 4D生成结果可视化对比

3.论文还探索了Kinema4D作为高保真工具在机器人策略评估中的效用——即模拟器能否准确模拟执行策略轨迹（Rollout）后的真实结果，将评估部署于标准化模拟平台（无噪声环境）与真实世界（复杂物理环境）两类场景中。

图 6. 仿真平台的策略评估可视化结果

图 7. 真实世界（零样本/域外）的策略评估可视化结果

如图6和图7所示，Kinema4D的模拟结果与实际执行表现高度一致，能够准确合成成功的执行轨迹（Rollouts）以及‘差之毫厘’的失败案例。在图中，即便夹爪与物体的 RGB 纹理在 2D 视角下发生重合，我们的模型仍能准确识别它们之间的空间间隙。

值得一提的是，对于真实世界的策略评估实验，Kinema4D未在任何真实世界数据上进行微调；测试所用的物理环境对模型而言完全是分布外（OOD) 的。这是具身生成式世界模型首次在严格的 OOD 条件下展现了一定的泛化潜力。

总结与展望

Kinema4D标志着机器人模拟范式从传统 2D 像素生成向 4D 时空推理的跨越。通过独创的“运动学锚定”与“生成式演化”解耦框架，成功将确定的机械控制与灵动的环境反馈完美融合。

实验证明，Kinema4D 不仅能跨越虚拟与现实的鸿沟，更展现了强大的零样本泛化能力。它为构建高保真、可规模化扩展的具身智能训练场，铺就了一条全新的 4D 通途。

此外，针对极端物理场景下的守恒定律挑战，如何将显式物理法则（如质量、摩擦力、碰撞动力学）深度注入生成网络将是一个值得探索的方向。

还在用 2D 空间训具身？南洋理工 MMLab 提出 4D 具身世界模拟器，构建虚拟与现实的时空桥梁！

背景与挑战

核心方法

数据集

实验分析

总结与展望