作者：ning
原文：https://zhuanlan.zhihu.com/p/1967989523196667587

vla综述-2025

引言：VLA 与智能机器人的具身智能革命

Vision-Language-Action（VLA）模型是具身人工智能（Embodied AI）的核心载体，其核心价值在于打破传统机器人 “感知 - 决策 - 执行” 模块化割裂的局限，通过统一框架实现 “视觉环境感知 - 自然语言理解 - 物理动作生成” 的端到端闭环。在智能机器人领域，VLA 将机器人从 “任务专属工具” 升级为 “通用指令执行者”，可适配工业机械臂、人形机器人、移动服务机器人等多类载体，覆盖家居服务、工业装配、医疗辅助等场景。

从技术溯源看，VLA 的演进依托三大支柱：

视觉基础模型（ViT/SAM/DINOv2）提供环境感知能力
大语言模型（LLaMA/PaLM/Gemini）提供指令理解与推理能力
强化学习 / 生成模型提供动作决策能力

VLA 的核心突破是 “将 VLM 的语义理解能力延伸至物理动作空间”—— 区别于 ChatGPT 等纯对话 AI，VLA 需直接与物理世界交互，需解决 “语义 - 物理对齐”“动态环境适应”“实时性 - 精度平衡” 等机器人特有的技术难题。

一、VLA 技术发展路线与时间线

VLA 技术在 2021-2025 年经历了 “基础探索 - 技术分化 - 融合优化 - 高效部署” 四个阶段，关键时间线与里程碑模型如下：

1.1 基础探索期（2021-2022）：模块化融合起步

此阶段核心是 “视觉 - 语言 - 动作的初步拼接”，尚未形成统一 VLA 架构，典型工作聚焦单一模态组件优化或简单融合：

2021 年：CLIPort：

首个实现 “语言条件下机器人操作” 的双流架构，通过 CLIP（语义 “what” 通路）提取语言 - 视觉对齐特征，结合 TransporterNets（空间 “where” 通路）生成抓取 / 放置姿态，支持 600 + 桌面任务，为 VLA 奠定 “语义 - 空间双通路” 基础。

2022 年：Gato（DeepMind） & RT-1（Google）：

Gato（DeepMind）：首个多模态通用智能体，用统一 Transformer 处理图像、语言、动作序列，覆盖 604 个任务（含机器人堆叠积木），证明 “跨任务统一表示” 的可行性。

RT-1（Google）：首个规模化机器人 Transformer，在 13 万条真实机器人演示数据上训练，用 FiLM（Feature-wise Linear Modulation）实现视觉 - 语言特征融合，离散化动作空间（如平移 / 旋转量化），在 700 + 任务上成功率达 97%，成为工业机械臂的早期实用模型。

1.2 技术分化期（2023）：VLA 概念确立与范式分裂

2023 年 RT-2 正式提出 “VLA” 术语，技术路线开始分化为 “自回归生成”“3D 视觉融合” 两大方向：

2023 年 7 月：RT-2（Google，三篇综述核心模型）：首个真正意义上的 VLA 模型，创新点包括：

架构：基于 PaLI-X/ViT 预训练 VLM，通过 “协同微调”（web-scale VQA 数据 + 机器人数据）将动作表示为 token（如 “move_x: 0.2m”），直接复用 VLM 的分词器处理动作序列；

性能：在视觉泛化任务（如未知物体抓取）上成功率 50%（远超传统方法 23.1%），指令跟随任务成功率 87%；

局限：依赖大参数量（55B），推理延迟高（>100ms），难以适配实时机器人。

2023 年 10 月：VIMA（第二篇综述重点模型）：

提出 “多模态提示驱动” 架构，将语言、图像、目标姿态编码为交错 token 序列，用 Transformer 解码器自回归生成动作，零样本泛化能力比传统模型高 2.9 倍，适配精密装配机器人的细粒度操作。

1.3 融合优化期（2024）：开源化与跨模态深化

2024 年技术聚焦 “开源普及”“3D 感知融合”“推理能力增强”，典型工作如下：

2024 年 6 月：OpenVLA（CMU/Google，三篇综述均重点）：首个开源 VLA 模型（7B 参数），架构创新包括：

视觉编码器：拼接 DINOv2（细粒度特征）+SigLIP（语言对齐特征）；
动作生成：基于 LLaMA-2，通过 LoRA 轻量化微调，在 97 万条真实机器人数据上训练；

性能：在 29 个任务上比 RT-2-X（55B）成功率高 16.5%，参数仅为 1/7，支持 Franka 机械臂实时部署（延迟 < 50ms）。

2024 年 8 月：EcoT（第一篇综述重点）：

增强 VLA 的推理能力，在 OpenVLA 基础上加入 “具身思维链（Embodied CoT）”，让模型先推理 “动作步骤（如‘先推杯子再抓勺子’）” 再生成动作，复杂任务泛化率提升 20%。

2024 年 10 月：3D-Diffuser Actor（第二篇综述重点）：

融合 3D 视觉（点云 /voxel）与扩散模型，解决 2D 视觉的遮挡问题，在工业零件装配任务上定位精度达 ±1mm，比 2D-VLA 高 40%。

1.4 高效部署期（2025）：人形机器人适配与效率优化

2025 年技术聚焦 “人形机器人控制”“边缘部署”“安全鲁棒性”，第三篇综述（高效 VLA）的核心模型集中于此：

2025 年 3 月：GR00T N1（NVIDIA，第二篇综述重点）：首个为人形机器人设计的双系统 VLA：

系统 1（快速控制）：基于扩散模型，10ms 延迟生成低级动作（如关节角度），适配人形机器人的实时平衡控制；

系统 2（规划推理）：基于 Gemini-2 LLM，分解长任务（如 “整理桌子”→“捡玩具→移杯子→擦桌面”）；

性能：在 HumanoidBench 上全身控制任务成功率 78.8%，动态环境（如有人走过）适应率达 90%。

2025 年 4 月：π0.5（Google，第二篇综述重点）：

开源通用 VLA，创新 “动作 token 化优化（FAST）”，动态调整动作序列长度（简单任务短 token，复杂任务长 token），推理效率比 OpenVLA 提升 3 倍，支持 Quadruped 机器人（如 Unitree Go1）的户外导航。

2025 年 6 月：TinyVLA（第三篇综述核心）：

极致轻量化 VLA，通过 “蒸馏 + 量化” 将模型压缩至 1.2B 参数，LoRA 微调仅需 5% 可训练参数，在边缘设备（如 NVIDIA Jetson AGX）上推理延迟 < 20ms，适配家用服务机器人（如科沃斯 X2）。

1.5 关键技术节点总结表

时间	核心模型	技术突破	适配机器人场景	来自综述
2021	CLIPort	双流架构（语义 + 空间），首次语言条件操作	桌面机械臂（如 Franka Emika）	2405.14093
2022	RT-1	规模化模仿学习，离散动作空间	工业装配机械臂	三篇均提及
2023	RT-2	首次提出 VLA 术语，动作 token 化，web 知识迁移	通用机械臂	三篇均重点
2024	OpenVLA	开源化，7B 参数，DINOv2+SigLIP 视觉融合	开源机械臂（如 UR5e）	三篇均重点
2024	3D-Diffuser Actor	3D 视觉 + 扩散模型，解决遮挡问题	精密装配机器人	2509.19012
2025	GR00T N1	双系统架构，人形机器人全身控制	人形机器人（如 Tesla Optimus）	2509.19012
2025	TinyVLA	轻量化（1.2B），边缘部署	家用服务机器人	2510.17111

二、VLA 核心技术路线与典型架构

VLA 技术路线可分为 “基础组件”“低级别控制策略”“高级别任务规划器” 三大层级，每个层级下包含多个细分方向：

2.1 基础组件：VLA 的 “感知 - 推理” 基石

基础组件是 VLA 的底层能力支撑，决定模型的环境理解与泛化上限:

（1）预训练视觉表示（PVR）：环境感知的核心

模型	技术方案	优势	劣势	机器人应用场景
CLIP	对比学习（4 亿图文对），ViT-B 骨干	语义对齐好，零样本泛化强	缺乏像素级细节，精度低粗抓取（如抓取杯子）
R3M	时间对比学习（视频帧时序关系）+ 视频 - 语言对齐	捕捉动态环境变化，适配移动机器人	依赖大量视频数据，训练成本高	移动机器人导航
DINOv2	自蒸馏（教师 - 学生网络），ViT-L 骨干	像素级特征提取，定位精度高	无语言对齐，需额外融合	精密装配（如拧螺丝）
Theia	蒸馏多视觉模型（ViT/SAM/Depth-Anything）	融合分割、深度信息，鲁棒性强	模型体积大，推理慢	复杂环境操作（如整理抽屉）

（2）动力学学习：环境交互的物理理解

动力学学习让 VLA 掌握 “动作 - 状态转移” 规律，分为前向动力学（预测下一个状态）和逆动力学（从状态差反推动作）：

Dreamer 系列（2020-2023）：基于 latent dynamics model，用 VAE 编码视觉状态，RNN 预测下一个 latent state，支持机械臂的长时序操作（如叠盘子）；

SMART（2023）：同时训练前向 + 逆动力学，加入 “掩码 indsight 控制”（掩码部分动作并恢复），捕捉长程依赖，适配移动机器人的避障；

MaskDP（2024）：掩码状态 / 动作 token 并重建，隐式学习动力学，在 DeepMind Control Suite 上比传统方法收敛快 30%。

（3）世界模型：虚拟仿真与规划

世界模型让 VLA 在 “想象” 中规划动作，减少真实世界试错成本：

Genie（2024)：生成式交互环境模型，从无标注视频中学习，支持帧级交互（如 “推物体后预测其运动轨迹”），为人形机器人提供虚拟训练环境；

3D-VLA（2024）：3D 生成式世界模型，输入 RGB / 深度图，用扩散模型生成目标状态（如 “杯子放在桌子上” 的 3D 点云），指导机械臂动作；

UniSim（2025）：基于真实交互视频训练，模拟高 / 低级别动作的视觉结果（如 “开门” 的视频序列），为自动驾驶机器人提供仿真数据。

（4）推理能力：从 “执行” 到 “思考”

推理能力让 VLA 处理复杂长任务：

ReAct：交错 “推理轨迹 + 动作”，用 CoT 生成动作计划（如 “先找钥匙→开门→拿东西”），解决家用机器人的长任务；

EcoT：在 OpenVLA 中加入 “具身思维链”，先推理 “动作步骤合理性”（如 “推杯子是否会打翻”）再执行，减少错误动作；

Tree-Planner：用 “思维树” 分解任务，每个节点对应一个子任务，支持多路径规划（如 “拿东西可走 A/B 两条路”），适配仓储机器人的路径优化。

2.2 低级别控制策略：VLA 的 “动作生成” 核心

低级别控制策略直接输出机器人可执行的动作（如关节角度、平移量），分为四大范式：

（1）自回归模型：序列一致性优先

核心思路：将动作视为时序序列，自回归生成（下一个动作依赖前一个），保证动作连贯性；

典型模型：RT-1/RT-2、VIMA、OpenVLA；

架构细节：RT-2 用 Transformer 解码器自回归生成动作 token，VIMA 用 “多模态提示 token” 引导动作生成；

优势：动作序列流畅，适合连续操作（如 “擦桌子” 的连续移动）；

劣势：误差累积（前一个动作错则后续全错），推理慢（逐 token 生成）；

适配场景：工业机械臂的流水线操作（如零件组装）。

（2）扩散模型：动作多样性优先

核心思路：将动作生成视为 “去噪过程”，从噪声中逐步生成动作，适合多解任务（如 “拿杯子有多种姿势”）；

典型模型：Diffusion Policy、3D-Diffuser Actor、TUDP（2025）；

架构细节：Diffusion Policy 用 DDPM（去噪扩散概率模型），输入视觉 - 语言特征，输出连续动作分布；

优势：动作多样性高，抗干扰能力强（动态环境中可调整动作）；

劣势：推理延迟高（需多步去噪），训练数据需求大；

适配场景：服务机器人的柔性操作（如递东西给人）。

（3）强化学习模型：环境适应优先

核心思路：通过 “奖励反馈” 优化动作，适合动态 / 未知环境（如户外导航）；

典型模型：SafeVLA（2025）、MoRE（2025）、PR2L（2024）；

架构细节：SafeVLA 加入 “安全评论网络”，用 CPO（Constrained Policy Optimization）框架限制高风险动作（如碰撞）；

优势：环境适应性强，能从失败中学习；

劣势：训练不稳定，需设计合理奖励函数；

适配场景：Quadruped 机器人的户外地形适应（如 Unitree Go1）。

（4）混合模型：多优势融合

核心思路：结合自回归（连贯性）、扩散（多样性）、强化学习（适应性）

典型模型：HybridVLA（2025）、OneTwoVLA（2025）；

架构细节：OneTwoVLA 分 “系统 1（扩散生成候选动作）+ 系统 2（自回归选择最优动作）”，用强化学习微调动作选择；

优势：兼顾连贯性、多样性、适应性；

劣势：架构复杂，部署成本高；

适配场景：人形机器人的复杂任务（如 “做饭”：切菜→炒菜→装盘）。

2.3 高级别任务规划器：VLA 的 “任务分解” 大脑

高级别任务规划器将人类指令（如 “整理房间”）分解为子任务（如 “捡玩具→移椅子→擦桌子”），指导低级别策略执行，分为两类：

（1）单体式规划器：端到端整合

核心思路：用大模型（LLM/VLM）直接生成子任务，无需模块化拆分；

典型模型：PaLM-E、EmbodiedGPT、Gemini Robotics（2025）；

架构细节：PaLM-E 整合 ViT（视觉）+PaLM（语言），输入 “指令 + 环境图像”，输出子任务序列；

优势：架构简洁，泛化性强；

劣势：可解释性差，子任务可能不可执行；

适配场景：家用服务机器人的简单任务（如 “整理桌面”）。

（2）模块化规划器：可控性优先

核心思路：拆分 “感知模块（检测物体）+ 推理模块（生成子任务）+ 验证模块（检查可行性）”；

典型模型：SayCan、ProgPrompt、ConceptGraphs（2024）；

架构细节：ConceptGraphs 先构建 3D 场景图（物体 + 关系），用 GPT-4 生成子任务，再用 VLM 验证 “子任务是否可执行”；

优势：可解释性强，子任务可行性高；

劣势：模块协调复杂，延迟高；

适配场景：工业机器人的精密任务（如 “汽车零件装配”）。

三、各技术路线优劣势对比

基于实验结果（如 OpenVLA 在 BridgeV2 数据集、GR00T N1 在 HumanoidBench），从智能机器人核心需求（性能、效率、泛化性、安全性、数据需求）维度对比五大技术路线：

技术路线	代表模型	任务成功率（工业装配）	推理延迟	未知环境泛化率	安全风险（碰撞率）	数据需求（真实演示）	核心优势	核心劣势
自回归	RT-2/OpenVLA	82%	50ms	50%	8%	10 万 + 条	动作连贯，适合连续操作	误差累积，推理慢
扩散模型	Diffusion Policy	78%	120ms	65%	5%	50 万 + 条	动作多样，抗干扰强	推理延迟高，数据需求大
强化学习	SafeVLA	75%	30ms	80%	3%	1 万 + 条（含失败）	环境适应强，安全可控	训练不稳定，奖励难设计
混合模型	OneTwoVLA	85%	80ms	75%	4%	30 万 + 条	兼顾连贯 / 多样 / 适应	架构复杂，部署成本高
轻量化模型	TinyVLA	70%	20ms	60%	6%	5 万 + 条	边缘部署，成本低	精度略低，复杂任务弱

注：任务成功率基于 “工业零件装配”，推理延迟基于 NVIDIA Jetson AGX，未知环境泛化率基于 “新物体 / 新场景” 测试。

四、VLA 技术后续演进的深刻思考

VLA 在智能机器人领域的演进需突破 “效率 - 精度 - 安全” 三角约束，未来将聚焦五大方向：

4.1 从 “单模态感知” 到 “多模态融合深化”

当前 VLA 以 “视觉 + 语言” 为主，未来需整合触觉、听觉、力觉等机器人特有的模态：

触觉融合：如 Tactile-VLA（2025），加入触觉传感器数据（如指尖压力），在 “抓鸡蛋” 等柔性操作上成功率提升至 92%（纯视觉仅 70%）；

力觉反馈：ForceVLA（2025）用 6 轴力传感器数据调整动作力度（如拧螺丝的扭矩控制），工业装配精度达 ±0.1mm；

跨模态对齐：借鉴 ImageBind（将多模态对齐到视觉空间），构建 “视觉 - 语言 - 触觉 - 力觉” 统一嵌入空间，解决模态割裂问题。

4.2 从 “大数据依赖” 到 “数据效率革命”

VLA 当前需数万至百万条真实机器人数据，未来将通过 “虚实融合 + 自监督” 降低数据成本：

仿真数据生成：如 RoboGen（2024），用生成式仿真器自动生成 “多样化任务 + 动态环境” 数据（如 “有人干扰的桌面整理”），减少真实数据依赖；

自监督预训练：Latent Action Pretraining（2025），从互联网视频（如人类做饭视频）中提取 “动作 latent 表示”，再微调至机器人，真实数据需求减少 90%；

数据蒸馏：如 RPD（2025），用大 VLA（如 π0.5）蒸馏小模型（如 TinyVLA），小模型性能保留 90%，数据需求减少 70%。

4.3 从 “被动执行” 到 “主动因果推理”

当前 VLA 多依赖 “数据统计关联”，未来需具备因果理解能力，解决 “伪交互” 问题（如 “推杯子后桌子震动，误以为是杯子导致”）：

因果建模：如 CausalVLA（2025），用因果图（如 “动作→状态变化” 的因果链）过滤虚假关联，在动态环境中动作错误率降低 40%；

主动探索：借鉴 “科学发现” 范式，让机器人主动 “试错”（如 “轻推未知物体看其反应”），构建因果知识图谱，适配家庭环境的未知物体；

反事实规划：如 CounterfactualVLA（2025），生成 “如果这样做会怎样” 的反事实场景（如 “如果推杯子会打翻吗”），提前规避风险。

4.4 从 “通用模型” 到 “机器人专属优化”

当前 VLA 多复用 NLP/Vision 的通用架构，未来需针对机器人的实时性、硬件约束定制：

硬件 - 软件协同：如 RoboMamba（2025），用 Mamba 状态空间模型（线性推理复杂度）替代 Transformer，推理速度提升 5 倍，适配嵌入式硬件；

动作空间适配：针对不同机器人设计专属动作表示（如人形机器人用 “关节角度序列”，移动机器人用 “速度控制序列”），避免 “动作空间转换损耗”；

能耗优化：EnerVLA（2025）在动作生成时加入 “能耗约束”（如 “最短路径减少电量消耗”），家用机器人续航提升 30%。

4.5 从 “技术突破” 到 “安全可控部署”

VLA 进入真实场景需解决安全、可解释、人类对齐三大问题：

安全护栏：如 SafeVLA 的 “风险感知模块”，实时检测高风险动作（如碰撞人类）并触发紧急停止，碰撞率控制在 3% 以下；

可解释性增强：ConceptGraphs（2024）用 “3D 场景图 + 自然语言解释”（如 “因为杯子在边缘，所以先移到中间”），让人类理解机器人决策；

人类反馈对齐：RLHF-VLA（2025），用人类对动作的 “偏好评分” 微调模型（如 “更喜欢轻柔递东西”），用户满意度提升至 95%。

4.6 终极愿景：VLA 推动 “通用机器人” 普及

长期来看，VLA 将成为 “通用机器人” 的核心大脑，实现 “一台机器人适配所有家庭 / 工业任务”：

跨载体迁移：如 UniAct（2025），定义 “通用原子动作”（如 “移动到目标→抓取→放置”），实现 “训练一次，适配机械臂 / 人形 / 移动机器人”；

lifelong learning：机器人在使用中持续学习（如 “记住用户喜欢的杯子放置位置”），无需重新训练；

社会嵌入：融入伦理规范（如 “不接触危险物品”）、隐私保护（如 “不识别敏感场景”），成为安全、可信的人类协作伙伴。

结语

VLA 技术在智能机器人领域的演进，本质是 “让机器人从‘执行工具’进化为‘理解伙伴’”。从 2021 年 CLIPort 的初步融合，到 2025 年 GR00T N1 的人形机器人控制，VLA 已突破 “模块化割裂”“数据依赖”“实时性差” 等早期难题。

未来，随着多模态融合、数据效率革命、因果推理的深入，VLA 将推动智能机器人从 “工业专用” 走向 “家庭通用”，最终实现 “具身智能” 的终极目标 —— 机器人能像人类一样 “看、懂、做”，无缝融入物理世界与人类社会。

参考

论文：A Survey on Vision-Language-Action Models for Embodied AI
链接：https://arxiv.org/pdf/2405.14093
论文：Pure Vision Language Action (VLA) Models: A Comprehensive Survey
链接：https://arxiv.org/pdf/2509.19012
论文：Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey
链接：https://arxiv.org/pdf/2510.17111

系统解析VLA核心技术路线与典型架构