1. 首页
  2. 精选文章
  3. 系统解析VLA核心技术路线与典型架构

系统解析VLA核心技术路线与典型架构

  • 发布于 2025-11-12
  • 8 次阅读

作者:ning
原文:https://zhuanlan.zhihu.com/p/1967989523196667587

vla综述-2025

引言:VLA 与智能机器人的具身智能革命

Vision-Language-Action(VLA)模型是具身人工智能(Embodied AI)的核心载体,其核心价值在于打破传统机器人 “感知 - 决策 - 执行” 模块化割裂的局限,通过统一框架实现 “视觉环境感知 - 自然语言理解 - 物理动作生成” 的端到端闭环。在智能机器人领域,VLA 将机器人从 “任务专属工具” 升级为 “通用指令执行者”,可适配工业机械臂、人形机器人、移动服务机器人等多类载体,覆盖家居服务、工业装配、医疗辅助等场景。

从技术溯源看,VLA 的演进依托三大支柱:

  • 视觉基础模型(ViT/SAM/DINOv2)提供环境感知能力
  • 大语言模型(LLaMA/PaLM/Gemini)提供指令理解与推理能力
  • 强化学习 / 生成模型提供动作决策能力

VLA 的核心突破是 “将 VLM 的语义理解能力延伸至物理动作空间”—— 区别于 ChatGPT 等纯对话 AI,VLA 需直接与物理世界交互,需解决 “语义 - 物理对齐”“动态环境适应”“实时性 - 精度平衡” 等机器人特有的技术难题。

一、VLA 技术发展路线与时间线

VLA 技术在 2021-2025 年经历了 “基础探索 - 技术分化 - 融合优化 - 高效部署” 四个阶段,关键时间线与里程碑模型如下:

1.1 基础探索期(2021-2022):模块化融合起步

此阶段核心是 “视觉 - 语言 - 动作的初步拼接”,尚未形成统一 VLA 架构,典型工作聚焦单一模态组件优化或简单融合:

2021 年:CLIPort:

首个实现 “语言条件下机器人操作” 的双流架构,通过 CLIP(语义 “what” 通路)提取语言 - 视觉对齐特征,结合 TransporterNets(空间 “where” 通路)生成抓取 / 放置姿态,支持 600 + 桌面任务,为 VLA 奠定 “语义 - 空间双通路” 基础。

2022 年:Gato(DeepMind) & RT-1(Google):

Gato(DeepMind):首个多模态通用智能体,用统一 Transformer 处理图像、语言、动作序列,覆盖 604 个任务(含机器人堆叠积木),证明 “跨任务统一表示” 的可行性。

RT-1(Google):首个规模化机器人 Transformer,在 13 万条真实机器人演示数据上训练,用 FiLM(Feature-wise Linear Modulation)实现视觉 - 语言特征融合,离散化动作空间(如平移 / 旋转量化),在 700 + 任务上成功率达 97%,成为工业机械臂的早期实用模型。

1.2 技术分化期(2023):VLA 概念确立与范式分裂

2023 年 RT-2 正式提出 “VLA” 术语,技术路线开始分化为 “自回归生成”“3D 视觉融合” 两大方向:

2023 年 7 月:RT-2(Google,三篇综述核心模型):首个真正意义上的 VLA 模型,创新点包括:

架构:基于 PaLI-X/ViT 预训练 VLM,通过 “协同微调”(web-scale VQA 数据 + 机器人数据)将动作表示为 token(如 “move_x: 0.2m”),直接复用 VLM 的分词器处理动作序列;

性能:在视觉泛化任务(如未知物体抓取)上成功率 50%(远超传统方法 23.1%),指令跟随任务成功率 87%;

局限:依赖大参数量(55B),推理延迟高(>100ms),难以适配实时机器人。

2023 年 10 月:VIMA(第二篇综述重点模型):

提出 “多模态提示驱动” 架构,将语言、图像、目标姿态编码为交错 token 序列,用 Transformer 解码器自回归生成动作,零样本泛化能力比传统模型高 2.9 倍,适配精密装配机器人的细粒度操作。

1.3 融合优化期(2024):开源化与跨模态深化

2024 年技术聚焦 “开源普及”“3D 感知融合”“推理能力增强”,典型工作如下:

2024 年 6 月:OpenVLA(CMU/Google,三篇综述均重点):首个开源 VLA 模型(7B 参数),架构创新包括:

视觉编码器:拼接 DINOv2(细粒度特征)+SigLIP(语言对齐特征);
动作生成:基于 LLaMA-2,通过 LoRA 轻量化微调,在 97 万条真实机器人数据上训练;

性能:在 29 个任务上比 RT-2-X(55B)成功率高 16.5%,参数仅为 1/7,支持 Franka 机械臂实时部署(延迟 < 50ms)。

2024 年 8 月:EcoT(第一篇综述重点):

增强 VLA 的推理能力,在 OpenVLA 基础上加入 “具身思维链(Embodied CoT)”,让模型先推理 “动作步骤(如‘先推杯子再抓勺子’)” 再生成动作,复杂任务泛化率提升 20%。

2024 年 10 月:3D-Diffuser Actor(第二篇综述重点):

融合 3D 视觉(点云 /voxel)与扩散模型,解决 2D 视觉的遮挡问题,在工业零件装配任务上定位精度达 ±1mm,比 2D-VLA 高 40%。

1.4 高效部署期(2025):人形机器人适配与效率优化

2025 年技术聚焦 “人形机器人控制”“边缘部署”“安全鲁棒性”,第三篇综述(高效 VLA)的核心模型集中于此:

2025 年 3 月:GR00T N1(NVIDIA,第二篇综述重点):首个为人形机器人设计的双系统 VLA:

系统 1(快速控制):基于扩散模型,10ms 延迟生成低级动作(如关节角度),适配人形机器人的实时平衡控制;

系统 2(规划推理):基于 Gemini-2 LLM,分解长任务(如 “整理桌子”→“捡玩具→移杯子→擦桌面”);

性能:在 HumanoidBench 上全身控制任务成功率 78.8%,动态环境(如有人走过)适应率达 90%。

2025 年 4 月:π0.5(Google,第二篇综述重点):

开源通用 VLA,创新 “动作 token 化优化(FAST)”,动态调整动作序列长度(简单任务短 token,复杂任务长 token),推理效率比 OpenVLA 提升 3 倍,支持 Quadruped 机器人(如 Unitree Go1)的户外导航。

2025 年 6 月:TinyVLA(第三篇综述核心):

极致轻量化 VLA,通过 “蒸馏 + 量化” 将模型压缩至 1.2B 参数,LoRA 微调仅需 5% 可训练参数,在边缘设备(如 NVIDIA Jetson AGX)上推理延迟 < 20ms,适配家用服务机器人(如科沃斯 X2)。

1.5 关键技术节点总结表

时间 核心模型 技术突破 适配机器人场景 来自综述
2021 CLIPort 双流架构(语义 + 空间),首次语言条件操作 桌面机械臂(如 Franka Emika) 2405.14093
2022 RT-1 规模化模仿学习,离散动作空间 工业装配机械臂 三篇均提及
2023 RT-2 首次提出 VLA 术语,动作 token 化,web 知识迁移 通用机械臂 三篇均重点
2024 OpenVLA 开源化,7B 参数,DINOv2+SigLIP 视觉融合 开源机械臂(如 UR5e) 三篇均重点
2024 3D-Diffuser Actor 3D 视觉 + 扩散模型,解决遮挡问题 精密装配机器人 2509.19012
2025 GR00T N1 双系统架构,人形机器人全身控制 人形机器人(如 Tesla Optimus) 2509.19012
2025 TinyVLA 轻量化(1.2B),边缘部署 家用服务机器人 2510.17111

二、VLA 核心技术路线与典型架构

VLA 技术路线可分为 “基础组件”“低级别控制策略”“高级别任务规划器” 三大层级,每个层级下包含多个细分方向:

2.1 基础组件:VLA 的 “感知 - 推理” 基石

基础组件是 VLA 的底层能力支撑,决定模型的环境理解与泛化上限:

(1)预训练视觉表示(PVR):环境感知的核心

模型 技术方案 优势 劣势 机器人应用场景
CLIP 对比学习(4 亿图文对),ViT-B 骨干 语义对齐好,零样本泛化强 缺乏像素级细节,精度低 粗抓取(如抓取杯子)
R3M 时间对比学习(视频帧时序关系)+ 视频 - 语言对齐 捕捉动态环境变化,适配移动机器人 依赖大量视频数据,训练成本高 移动机器人导航
DINOv2 自蒸馏(教师 - 学生网络),ViT-L 骨干 像素级特征提取,定位精度高 无语言对齐,需额外融合 精密装配(如拧螺丝)
Theia 蒸馏多视觉模型(ViT/SAM/Depth-Anything) 融合分割、深度信息,鲁棒性强 模型体积大,推理慢 复杂环境操作(如整理抽屉)

(2)动力学学习:环境交互的物理理解

动力学学习让 VLA 掌握 “动作 - 状态转移” 规律,分为前向动力学(预测下一个状态)和逆动力学(从状态差反推动作):

Dreamer 系列(2020-2023):基于 latent dynamics model,用 VAE 编码视觉状态,RNN 预测下一个 latent state,支持机械臂的长时序操作(如叠盘子);

SMART(2023):同时训练前向 + 逆动力学,加入 “掩码 indsight 控制”(掩码部分动作并恢复),捕捉长程依赖,适配移动机器人的避障;

MaskDP(2024):掩码状态 / 动作 token 并重建,隐式学习动力学,在 DeepMind Control Suite 上比传统方法收敛快 30%。

(3)世界模型:虚拟仿真与规划

世界模型让 VLA 在 “想象” 中规划动作,减少真实世界试错成本:

Genie(2024):生成式交互环境模型,从无标注视频中学习,支持帧级交互(如 “推物体后预测其运动轨迹”),为人形机器人提供虚拟训练环境;

3D-VLA(2024):3D 生成式世界模型,输入 RGB / 深度图,用扩散模型生成目标状态(如 “杯子放在桌子上” 的 3D 点云),指导机械臂动作;

UniSim(2025):基于真实交互视频训练,模拟高 / 低级别动作的视觉结果(如 “开门” 的视频序列),为自动驾驶机器人提供仿真数据。

(4)推理能力:从 “执行” 到 “思考”

推理能力让 VLA 处理复杂长任务:

ReAct:交错 “推理轨迹 + 动作”,用 CoT 生成动作计划(如 “先找钥匙→开门→拿东西”),解决家用机器人的长任务;

EcoT:在 OpenVLA 中加入 “具身思维链”,先推理 “动作步骤合理性”(如 “推杯子是否会打翻”)再执行,减少错误动作;

Tree-Planner:用 “思维树” 分解任务,每个节点对应一个子任务,支持多路径规划(如 “拿东西可走 A/B 两条路”),适配仓储机器人的路径优化。

2.2 低级别控制策略:VLA 的 “动作生成” 核心

低级别控制策略直接输出机器人可执行的动作(如关节角度、平移量),分为四大范式:

(1)自回归模型:序列一致性优先

核心思路:将动作视为时序序列,自回归生成(下一个动作依赖前一个),保证动作连贯性;

典型模型:RT-1/RT-2、VIMA、OpenVLA;

架构细节:RT-2 用 Transformer 解码器自回归生成动作 token,VIMA 用 “多模态提示 token” 引导动作生成;

优势:动作序列流畅,适合连续操作(如 “擦桌子” 的连续移动);

劣势:误差累积(前一个动作错则后续全错),推理慢(逐 token 生成);

适配场景:工业机械臂的流水线操作(如零件组装)。

(2)扩散模型:动作多样性优先

核心思路:将动作生成视为 “去噪过程”,从噪声中逐步生成动作,适合多解任务(如 “拿杯子有多种姿势”);

典型模型:Diffusion Policy、3D-Diffuser Actor、TUDP(2025);

架构细节:Diffusion Policy 用 DDPM(去噪扩散概率模型),输入视觉 - 语言特征,输出连续动作分布;

优势:动作多样性高,抗干扰能力强(动态环境中可调整动作);

劣势:推理延迟高(需多步去噪),训练数据需求大;

适配场景:服务机器人的柔性操作(如递东西给人)。

(3)强化学习模型:环境适应优先

核心思路:通过 “奖励反馈” 优化动作,适合动态 / 未知环境(如户外导航);

典型模型:SafeVLA(2025)、MoRE(2025)、PR2L(2024);

架构细节:SafeVLA 加入 “安全评论网络”,用 CPO(Constrained Policy Optimization)框架限制高风险动作(如碰撞);

优势:环境适应性强,能从失败中学习;

劣势:训练不稳定,需设计合理奖励函数;

适配场景:Quadruped 机器人的户外地形适应(如 Unitree Go1)。

(4)混合模型:多优势融合

核心思路:结合自回归(连贯性)、扩散(多样性)、强化学习(适应性)

典型模型:HybridVLA(2025)、OneTwoVLA(2025);

架构细节:OneTwoVLA 分 “系统 1(扩散生成候选动作)+ 系统 2(自回归选择最优动作)”,用强化学习微调动作选择;

优势:兼顾连贯性、多样性、适应性;

劣势:架构复杂,部署成本高;

适配场景:人形机器人的复杂任务(如 “做饭”:切菜→炒菜→装盘)。

2.3 高级别任务规划器:VLA 的 “任务分解” 大脑

高级别任务规划器将人类指令(如 “整理房间”)分解为子任务(如 “捡玩具→移椅子→擦桌子”),指导低级别策略执行,分为两类:

(1)单体式规划器:端到端整合

核心思路:用大模型(LLM/VLM)直接生成子任务,无需模块化拆分;

典型模型:PaLM-E、EmbodiedGPT、Gemini Robotics(2025);

架构细节:PaLM-E 整合 ViT(视觉)+PaLM(语言),输入 “指令 + 环境图像”,输出子任务序列;

优势:架构简洁,泛化性强;

劣势:可解释性差,子任务可能不可执行;

适配场景:家用服务机器人的简单任务(如 “整理桌面”)。

(2)模块化规划器:可控性优先

核心思路:拆分 “感知模块(检测物体)+ 推理模块(生成子任务)+ 验证模块(检查可行性)”;

典型模型:SayCan、ProgPrompt、ConceptGraphs(2024);

架构细节:ConceptGraphs 先构建 3D 场景图(物体 + 关系),用 GPT-4 生成子任务,再用 VLM 验证 “子任务是否可执行”;

优势:可解释性强,子任务可行性高;

劣势:模块协调复杂,延迟高;

适配场景:工业机器人的精密任务(如 “汽车零件装配”)。

三、各技术路线优劣势对比

基于实验结果(如 OpenVLA 在 BridgeV2 数据集、GR00T N1 在 HumanoidBench),从智能机器人核心需求(性能、效率、泛化性、安全性、数据需求)维度对比五大技术路线:

技术路线 代表模型 任务成功率(工业装配) 推理延迟 未知环境泛化率 安全风险(碰撞率) 数据需求(真实演示) 核心优势 核心劣势
自回归 RT-2/OpenVLA 82% 50ms 50% 8% 10 万 + 条 动作连贯,适合连续操作 误差累积,推理慢
扩散模型 Diffusion Policy 78% 120ms 65% 5% 50 万 + 条 动作多样,抗干扰强 推理延迟高,数据需求大
强化学习 SafeVLA 75% 30ms 80% 3% 1 万 + 条(含失败) 环境适应强,安全可控 训练不稳定,奖励难设计
混合模型 OneTwoVLA 85% 80ms 75% 4% 30 万 + 条 兼顾连贯 / 多样 / 适应 架构复杂,部署成本高
轻量化模型 TinyVLA 70% 20ms 60% 6% 5 万 + 条 边缘部署,成本低 精度略低,复杂任务弱

注:任务成功率基于 “工业零件装配”,推理延迟基于 NVIDIA Jetson AGX,未知环境泛化率基于 “新物体 / 新场景” 测试。

四、VLA 技术后续演进的深刻思考

VLA 在智能机器人领域的演进需突破 “效率 - 精度 - 安全” 三角约束,未来将聚焦五大方向:

4.1 从 “单模态感知” 到 “多模态融合深化”

当前 VLA 以 “视觉 + 语言” 为主,未来需整合触觉、听觉、力觉等机器人特有的模态:

触觉融合:如 Tactile-VLA(2025),加入触觉传感器数据(如指尖压力),在 “抓鸡蛋” 等柔性操作上成功率提升至 92%(纯视觉仅 70%);

力觉反馈:ForceVLA(2025)用 6 轴力传感器数据调整动作力度(如拧螺丝的扭矩控制),工业装配精度达 ±0.1mm;

跨模态对齐:借鉴 ImageBind(将多模态对齐到视觉空间),构建 “视觉 - 语言 - 触觉 - 力觉” 统一嵌入空间,解决模态割裂问题。

4.2 从 “大数据依赖” 到 “数据效率革命”

VLA 当前需数万至百万条真实机器人数据,未来将通过 “虚实融合 + 自监督” 降低数据成本:

仿真数据生成:如 RoboGen(2024),用生成式仿真器自动生成 “多样化任务 + 动态环境” 数据(如 “有人干扰的桌面整理”),减少真实数据依赖;

自监督预训练:Latent Action Pretraining(2025),从互联网视频(如人类做饭视频)中提取 “动作 latent 表示”,再微调至机器人,真实数据需求减少 90%;

数据蒸馏:如 RPD(2025),用大 VLA(如 π0.5)蒸馏小模型(如 TinyVLA),小模型性能保留 90%,数据需求减少 70%。

4.3 从 “被动执行” 到 “主动因果推理”

当前 VLA 多依赖 “数据统计关联”,未来需具备因果理解能力,解决 “伪交互” 问题(如 “推杯子后桌子震动,误以为是杯子导致”):

因果建模:如 CausalVLA(2025),用因果图(如 “动作→状态变化” 的因果链)过滤虚假关联,在动态环境中动作错误率降低 40%;

主动探索:借鉴 “科学发现” 范式,让机器人主动 “试错”(如 “轻推未知物体看其反应”),构建因果知识图谱,适配家庭环境的未知物体;

反事实规划:如 CounterfactualVLA(2025),生成 “如果这样做会怎样” 的反事实场景(如 “如果推杯子会打翻吗”),提前规避风险。

4.4 从 “通用模型” 到 “机器人专属优化”

当前 VLA 多复用 NLP/Vision 的通用架构,未来需针对机器人的实时性、硬件约束定制:

硬件 - 软件协同:如 RoboMamba(2025),用 Mamba 状态空间模型(线性推理复杂度)替代 Transformer,推理速度提升 5 倍,适配嵌入式硬件;

动作空间适配:针对不同机器人设计专属动作表示(如人形机器人用 “关节角度序列”,移动机器人用 “速度控制序列”),避免 “动作空间转换损耗”;

能耗优化:EnerVLA(2025)在动作生成时加入 “能耗约束”(如 “最短路径减少电量消耗”),家用机器人续航提升 30%。

4.5 从 “技术突破” 到 “安全可控部署”

VLA 进入真实场景需解决安全、可解释、人类对齐三大问题:

安全护栏:如 SafeVLA 的 “风险感知模块”,实时检测高风险动作(如碰撞人类)并触发紧急停止,碰撞率控制在 3% 以下;

可解释性增强:ConceptGraphs(2024)用 “3D 场景图 + 自然语言解释”(如 “因为杯子在边缘,所以先移到中间”),让人类理解机器人决策;

人类反馈对齐:RLHF-VLA(2025),用人类对动作的 “偏好评分” 微调模型(如 “更喜欢轻柔递东西”),用户满意度提升至 95%。

4.6 终极愿景:VLA 推动 “通用机器人” 普及

长期来看,VLA 将成为 “通用机器人” 的核心大脑,实现 “一台机器人适配所有家庭 / 工业任务”:

跨载体迁移:如 UniAct(2025),定义 “通用原子动作”(如 “移动到目标→抓取→放置”),实现 “训练一次,适配机械臂 / 人形 / 移动机器人”;

lifelong learning:机器人在使用中持续学习(如 “记住用户喜欢的杯子放置位置”),无需重新训练;

社会嵌入:融入伦理规范(如 “不接触危险物品”)、隐私保护(如 “不识别敏感场景”),成为安全、可信的人类协作伙伴。

结语

VLA 技术在智能机器人领域的演进,本质是 “让机器人从‘执行工具’进化为‘理解伙伴’”。从 2021 年 CLIPort 的初步融合,到 2025 年 GR00T N1 的人形机器人控制,VLA 已突破 “模块化割裂”“数据依赖”“实时性差” 等早期难题。

未来,随着多模态融合、数据效率革命、因果推理的深入,VLA 将推动智能机器人从 “工业专用” 走向 “家庭通用”,最终实现 “具身智能” 的终极目标 —— 机器人能像人类一样 “看、懂、做”,无缝融入物理世界与人类社会。

参考

论文:A Survey on Vision-Language-Action Models for Embodied AI
链接:https://arxiv.org/pdf/2405.14093
论文:Pure Vision Language Action (VLA) Models: A Comprehensive Survey
链接:https://arxiv.org/pdf/2509.19012
论文:Efficient Vision-Language-Action Models for Embodied Manipulation: A Systematic Survey
链接:https://arxiv.org/pdf/2510.17111