物理智能的“预言家”:世界模型(World Model)是进化终点还是视觉幻象?
在具身智能的演进历程中,我们正处于从“机械模仿”向“认知决策”跨越的关键节点。早期的模型主要依赖行为克隆,但在涉及精密操作时难以为继。
-hlfU.png)
如今,世界模型正成为连接数字智慧与物理交互的桥梁,它不仅让机器人知道“做什么”,更让其学会“脑补”任务完成后的物理状态。
然而,随着技术的高速迭代,关于世界模型的本质争议也愈发尖锐:
- 认知还是幻觉? 世界模型生成的“子目标”究竟是基于对重力、摩擦力的真实理解,还是仅仅在像素层面预测了一个合理的“静态终点”?它是否只是一个会动的“幻觉引擎”?
- 路径之争: 是该通过严苛的专家数据过滤来追求毫米级的精确,还是利用包括失败尝试在内的“混合质量数据”,通过扩展律(Scaling Law)让模型从错误中学习?
- 实时性的博弈: 生成高质量的视觉预测往往伴随着巨大的算力消耗,在瞬息万变的物理交互中,这种延迟是否会成为落地应用的“致命伤”?

4 月 23 日(周四)晚 7 点,# 青稞 AMA 第 2 期:World Model 专题,CUHK MMLab PhD 杨佳智 将深度对话:
- 王啸峰,极佳视界算法合伙人,主导研发了 DriveDreamer 与 GigaWorld 系列物理世界模型
- 贾萧松,复旦大学可信具身智能研究院助理教授,代表作包括 DriveTransformer、Think2Drive 等
- 廖康,新加坡南洋理工大学 MMLab 与 S-Lab 博士后研究员,代表作有统一多模态空间智能大模型 Puffin
- 王宇琪,中国科学院自动化研究所博士,代表作有自动驾驶世界模型 Drive-WM
- 李天羽,复旦大学、上海创智学院计算机科学博士生,代表作有 World Engine
一起探讨 World Model!你可以 Ask Me(大佬们)关于 World Model 的 Anything,所有的疑问都将在深度讨论中得到解答。
嘉宾阵容
(主持人)杨佳智,UHK MMLab PhD 二年级在读
以共同第一作者身份发表 UniAD, 获得 2023 年 CVPR 的最佳论文奖。 关于世界模型的两项研究获得 CVPR 2024 spotlight (前 2.8%) 和 NeurIPS 2025 highlight (前 3.2%)。
近期推出的 RISE 架构,是首个在机器人复杂操作任务中,利用世界模型进行强化学习以提升策略表现的研究。个人谷歌学术被引用量超过 2400。个人主导项目的 Github star 数超过 6000。
王啸峰,极佳视界算法合伙人
2025 年博士毕业于中国科学院自动化研究所,主要研究方向为物理世界模型。博士期间在 TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICLR、AAAI 等国际顶级会议与期刊发表论文 20 余篇,总引用量 2000 余次,并多次在 CVPR 主办 Workshop 与国际竞赛。
其自动驾驶世界模型代表性工作 DriveDreamer 入选 ECCV 2024 Most Influential Papers;在具身智能方向牵头研发的 GigaWorld 系列世界模型斩获国际赛事榜单第一名。由其主导研发的世界模型技术,已在国内多家头部具身智能与自动驾驶企业实现规模化落地应用。
贾萧松,复旦大学可信具身智能研究院助理教授
本博毕业于上海交通大学,研究方向自动驾驶、具身智能、世界模型。在 TPAMI、CVPR、NeurIPS 等国际顶级会议期刊发表论文 30 余篇,谷歌学术引用 4000 余次,代表作包括Bench2Drive、DriveTransformer、Think2Drive等。
廖康,新加坡南洋理工大学 MMLab 与 S-Lab 博士后研究员
他于北京交通大学信息科学研究所获得博士学位,期间曾赴德国马克斯 · 普朗克计算机科学研究所担任访问学者。
相关研究成果已发表至国际顶级期刊和会议如 CVPR、ICCV、ECCV、ICLR、NeurIPS、ICRA、TPAMI 等。此外,他受邀担任 CVPR、NeurIPS 等国际学术顶会的领域主席(Area Chair)。他目前的研究方向包括统一多模态模型、空间智能以及世界模型。
王宇琪,2025 年博士毕业于中国科学院自动化研究所
主要研究方向为世界模型,自动驾驶感知与决策。
博士期间在 TPAMI、CVPR、NeurIPS、ICLR、ICCV 和 ECCV 等国际顶级会议与期刊发表论文十余篇,总引用 1800 余次,并荣获国家奖学金、中国科学院院长奖等多项荣誉。Drive-WM 成为自动驾驶世界模型领域的代表性工作。
李天羽,复旦大学、上海创智学院计算机科学博士生
师从李弘扬教授,在 OpenDriveLab 开展研究。聚焦端到端自动驾驶与 Physical AI,构建“评估—仿真—强化学习”闭环方法论。
提出 World Engine,融合 3D 高斯重建(MTGS)与行为世界模型(Nexus、OMEGA)生成长尾交互数据,提升闭环安全性与泛化能力;相关工作(SimScale、PlannerRFT、R2SE)系统推进 sim-real scaling 与强化学习优化,在复杂场景中突破模仿学习上限。构建社区标准评测基准 NAVSIM 及 NAVSIMv2,支撑多项国际竞赛。累计发表论文 20 余篇,担任 Nature、Science Robotics 审稿人。
直播时间
4 月 23 日(周四)19:00 - 21:00