1. 首页
  2. 精选文章
  3. 还在用 2D 空间训具身?南洋理工 MMLab 提出 4D 具身世界模拟器,构建虚拟与现实的时空桥梁!

还在用 2D 空间训具身?南洋理工 MMLab 提出 4D 具身世界模拟器,构建虚拟与现实的时空桥梁!

  • 发布于 2026-06-12
  • ·
  • 4 次阅读
  • ·
  • ·

本文第一作者许牧天,南洋理工大学MMLab博士后。导师刘子纬教授,为本文通讯作者。

机器人-环境交互模拟是具身智能的核心。近期,一些研究展现了利用视频生成技术突破传统模拟器“僵化”的视觉与物理限制的潜力。

然而,这些工作主要在 2D 空间运行、或受制于静态环境的单一引导,忽略了一个基本事实:机器人与世界的交互本质上是4D 时空事件,需要精确的交互建模。

为了还原这一本质并确保精确的机器人控制,南洋理工大学MMLab提出了全新的4D 生成式具身模拟器——Kinema4D。

它通过“控制与环境解耦”的思路重新定义了生成式模拟,使得模型“洞察”机器人准确的4D操作轨迹、并推演出环境的响应,首次展现了生成式模拟器的零样本泛化潜能,为下一代具身智能的规模化训练开辟了全新的 4D 高保真路径。

论文名称:Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation
论文链接:https://arxiv.org/abs/2603.16669
项目主页:https://mutianxu.github.io/Kinema4D-project-page/
开源代码:https://github.com/mutianxu/Kinema4D

背景与挑战

图 1. 概念图:具身仿真的三角形挑战

在具身智能领域,模拟机器人轨迹对于大规模数据增强、策略评估及强化学习至关重要。然而,实机部署成本高昂且存在安全隐患,使得虚拟环境模拟成为不可或缺的替代方案。

尽管传统物理模拟器已取得长足进步,但其受限于视觉真实感不足及对预设物理规则的依赖,难以扩展至复杂的新场景。

近期,研究者开始利用视频生成模型来合成机器人与环境的交互,通过将动作作为条件提示,绕开了繁琐的物理建模。

然而,现有生成式仿真方法仍存在关键缺陷:

1.维度缺失: 大多模型局限于 2D 像素空间,缺乏机器人交互所需的 4D 时空约束

2.精度不足: 大多研究依赖高层语言指令、隐式动作理解、或静态环境先验,使得生成模型需要去“猜测”潜在的机器人动作,难以提供高保真建模所需的精确控制动态引导,导致其在处理形变或遮挡等复杂情况时表现不佳。

总结: 如图1所示,现有方法难以同时兼顾动态引导、操作精度时空感知这三大挑战。

为此,本论文提出 Kinema4D,通过运动学(Kinematics)将抽象动作锚定在 4D 空间下,从而引导生成模型在确保精度与时空感知的同时、实现了复杂动态交互的可靠生成。

核心方法

图 2. Kinema4D的流程:i) 运动学驱动的精确 4D 动作表征;ii) 可控生成下的环境反应 4D 建模

如图2所示,Kinema4D的核心动机是在确保精确机器人控制的同时,还原交互过程的 4D 时空本质。基于「模拟解耦」的设计哲学,将交互过程拆解为机器人控制及其产生的环境变化,并由以下两个协同洞察支撑:

i.运动学驱动的精确 4D 动作表征: 机器人动作在 4D 空间中具有物理确定性,不应由生成模型“预测”或“猜测”。抽象的关节角或位姿序列只有映射到物理结构上才具备意义。

因此,Kinema4D 利用 3D 重建的 URDF 模型,通过显式运动学产生连续且物理准确的 4D 轨迹,为交互提供高粒度的时空因果驱动

ii.可控生成下的环境反应 4D 建模: 与确定的机器人控制不同,复杂的环境动力学需要高度灵活的生成建模。Kinema4D将导出的 4D 机器人轨迹投影为时空点图(Pointmap)信号,以引导生成模型摆脱对机器人自身运动学的建模负担,转而专注于合成环境的反应动态(Reactive Dynamics)

通过同步预测 RGB 与点图序列,Kinema4D 将模拟转化为统一 4D 空间内的时空推理任务,不仅实现了视觉真实感,更确保了几何一致性。

数据集

图 3. Robo4D-200k: 一个大规模的4D机器人交互数据集

大规模数据集是训练世界模型的基石。为此,如图3所示,本论文构建了 Robo4D-200k —— 目前规模最大的 4D 机器人交互数据集。该数据集通过整合 DROID、Bridge 和 RT-1 等多样化的真实世界演示数据,奠定了坚实的数据基础;同时引入 LIBERO 仿真数据,合成了海量的成功与失败案例。

每一条序列都完整记录了一次机器人与世界的交互过程(如“抓取与放置”),为模型提供了稳健推理所需的连续时空信息。Robo4D-200k包含 201,426 条高保真交互序列,以巨大的数据量和交互多样性,为训练具备时空与物理感知能力的具身基础模型提供了可能。

实验分析

论文从视频生成质量、几何质量以及下游策略评估三个维度,对所提出的方法进行了全面的基准测试:

1.针对于视频生成质量,Kinema4D取得了领先的结果,如表1。其可视化结果如图2所示,跟Ctrl-World [ICLR 2026]相比,Kinema4D能更好地还原机器人动作,并得到和GT相似的环境响应结果。

表1. 视频生成质量对比

图 4. 2D生成可视化对比

2.针对于几何质量,相比于近期的另一个4D生成式模拟器(TesserAct [ICCV 2025]),Kinema4D也取得了更好的效果,如表2。其可视化结果如图3所示,Kinema4D 能够精确还原真实轨迹(Ground-Truth)的执行效果,包括‘差之毫厘’的机器人任务失败的案例。

例如,在左下角的示例中,即便夹爪与植物在 2D 视角下的 RGB 纹理发生重叠,Kinema4D仍能准确识别它们之间的空间间隙,从而准确模拟出机械臂未能抓取植物的结果。

表2. 几何生成质量对比

图 5. 4D生成结果可视化对比

3.论文还探索了Kinema4D作为高保真工具在机器人策略评估中的效用——即模拟器能否准确模拟执行策略轨迹(Rollout)后的真实结果,将评估部署于标准化模拟平台(无噪声环境)与真实世界(复杂物理环境)两类场景中。

图 6. 仿真平台的策略评估可视化结果

图 7. 真实世界(零样本/域外)的策略评估可视化结果

如图6和图7所示,Kinema4D的模拟结果与实际执行表现高度一致,能够准确合成成功的执行轨迹(Rollouts)以及‘差之毫厘’的失败案例。在图中,即便夹爪与物体的 RGB 纹理在 2D 视角下发生重合,我们的模型仍能准确识别它们之间的空间间隙。

值得一提的是,对于真实世界的策略评估实验,Kinema4D未在任何真实世界数据上进行微调;测试所用的物理环境对模型而言完全是分布外(OOD) 的。这是具身生成式世界模型首次在严格的 OOD 条件下展现了一定的泛化潜力。

总结与展望

Kinema4D标志着机器人模拟范式从传统 2D 像素生成向 4D 时空推理的跨越。通过独创的“运动学锚定”与“生成式演化”解耦框架,成功将确定的机械控制与灵动的环境反馈完美融合。

实验证明,Kinema4D 不仅能跨越虚拟与现实的鸿沟,更展现了强大的零样本泛化能力。它为构建高保真、可规模化扩展的具身智能训练场,铺就了一条全新的 4D 通途。

此外,针对极端物理场景下的守恒定律挑战,如何将显式物理法则(如质量、摩擦力、碰撞动力学)深度注入生成网络将是一个值得探索的方向。

目录