
在近两年的具身基础模型的研究中,由Pi引领的基于流匹配和动作专家的VLA模型一直是大家追随的主流。
另一方面,自回归的模型具备若干天然优势,比如更强的语言理解能力、更鲁棒的零样本泛化能力、以及已经被证明过的Scaling潜力;
然而,关于如何设计一个好的自回归VLA确没有人做系统讨论与分析。
7月4日(周六)上午10点,青稞Talk 第135期,复旦大学计算与智能创新学院23级硕士研究生张世铎,将直播分享《DPA & LLaVA-HUD v4:多模态大模型的深度预对齐与高效视觉编码优化》。
本次Talk,将从问题定义、扩展到自回归的Modeling,再延伸到Training Recipe,来介绍当前自回归VLA的进展。
分享嘉宾
张世铎,复旦大学计算与智能创新学院23级硕士研究生,曾是上海创智学院、南加州大学访问学者。其研究内容覆盖具身基础模型研究的多个环节。曾在CVPR, ICRA, ICLR, ACL, ICCV, CORL等顶级学术会议发表近10篇论文。在2025-2026期间带领复旦&创智OpenMoss团队和清华Marslab&星海图团队展开自回归VLA的深度合作, 相关技术已用于星海图G05模型的预训练。
主题提纲
如何设计一个好的自回归 VLA:从问题构建到工程落地的探索之旅
1、具身基础模型的发展现状
2、为什么选择自回归 VLA?
3、自回归 VLA 的模型设计
4、自回归 VLA 的训练范式(Training Recipe)
5、未来方向的探讨
6、AMA (Ask Me Anything)环节
直播时间
7月4日(周六)10:00 - 11:00
如何观看
Talk 将在青稞社区【视频号:青稞 AI】上进行进行直播,欢迎预约观看!