VLA 机器人革命：解析 10 篇关键视觉 - 语言 - 动作模型论文

概览

2024-2026 年，机器人领域正经历一场范式转换：从传统的任务特定编程转向视觉 - 语言 - 动作（Vision-Language-Action, VLA）模型。这些模型将视觉感知、自然语言理解和动作执行统一在单一框架中，让机器人能够像人类一样理解指令、推理场景并执行复杂操作。

本文精选5 篇最基础的核心论文和5 篇热度最高的前沿论文，深入剖析 VLA 领域的核心思想、技术演进和未来方向。这些论文代表了从 Google DeepMind、NVIDIA、斯坦福、Physical Intelligence 等顶尖机构的最新突破，涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。

Part I: 五篇基础性论文

这些论文奠定了 VLA 领域的理论基础和技术范式，是理解整个领域发展脉络的关键。

1. RT-2: New Model Translates Vision and Language into Action

发表机构：Google DeepMind
时间：2023 年 7 月
论文链接：Google DeepMind Blog

RT-2 Robotics Transformer

1) 要解决什么问题

传统机器人策略模型只能从有限的机器人演示数据中学习，导致泛化能力弱、无法处理新物体和场景。如何让机器人像人类一样，利用互联网海量的视觉 - 语言知识来理解世界并执行操作？

2) 解决思路与已有方法的不同

核心创新：RT-2 将大规模视觉 - 语言模型（VLM）转化为视觉 - 语言 - 动作（VLA）模型。它基于 PaLM-E 和 PaLI-X 等预训练 VLM，通过联合训练的方式，在互联网规模的视觉 - 语言数据和真实机器人数据上进行共同微调。

与已有方法的差异：

RT-1：仅从机器人演示数据学习，泛化能力受限于数据集覆盖范围
RT-2：继承了 VLM 的语义理解能力，能够执行训练数据中从未出现的指令（如"把能当即兴锤子的东西递给我"→抓取石头）

技术实现：将机器人动作表示为文本 Token，使 VLM 的 decoder 可以同时输出语言和动作序列。这种统一表示让模型能在 vision-language 任务和 robot control 任务间共享知识。

3) 创新点的直觉 & Why it helps

直觉：人类学习新技能时，不需要亲自尝试每一个物体——我们通过观察图片、阅读文字积累的常识就能推理出"哪些物体适合某个任务"。RT-2 把这种能力赋予了机器人。

为什么有效：

常识推理：VLM 预训练让模型理解物体属性（坚硬、柔软、可食用等），支持零样本泛化
语义理解：支持抽象指令（'把垃圾扔掉'）和多步推理（思维链）
数据效率：无需为每个新物体采集机器人数据，大幅降低训练成本

4) 可能的价值

学术价值：首次证明互联网数据能有效迁移到机器人控制，开创 VLA 范式
工业价值：降低机器人部署门槛，单一模型支持 700+ 任务，适用于仓储、家庭服务等场景
社会价值：推动通用机器人助手的实现，缓解劳动力短缺（全球预计超 5000 万人）

2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

发表机构：21 所机构联合（Google DeepMind 领导）
时间：2023 年 10 月
论文链接：arXiv:2310.08864

Open X-Embodiment Dataset

1) 要解决什么问题

不同机器人平台（单臂、双臂、四足等）的数据格式各异、无法共享，导致每个新机器人都需要从零开始训练。如何打破"数据孤岛"，让一个模型能控制多种机器人形态？

2) 解决思路与已有方法的不同

核心贡献：构建了Open X-Embodiment 数据集，包含来自 22 种机器人形态的 100 万 + 真实轨迹、527 种技能、160,266 个任务，并提出RT-X 系列模型（RT-1-X 和 RT-2-X）实现跨实体形态的正迁移。

技术创新：

统一数据格式：采用 RLDS 格式，支持不同动作空间、多模态输入（RGB、深度、点云）
动作空间标准化：将不同机器人的动作统一映射到 7 维 end-effector 控制（位置 delta、旋转、夹爪）+ 256 bins 离散化
混合训练：RT-2-X 在机器人数据和原始 VLM 数据上 1:1 比例联合训练

3) 创新点的直觉 & Why it helps

直觉：就像人类驾驶不同品牌的汽车时，核心的"转向 - 加速 - 刹车"逻辑是通用的，只是操作界面略有差异。RT-X 通过标准化动作空间，让模型学习任务的本质而非特定硬件的 quirks。

为什么有效：

数据规模：100 万轨迹的规模让模型看到足够的任务 - 物体 - 场景组合
多样性红利：在 A 机器人上学到的"抓取"知识能迁移到 B 机器人，提升样本效率
统一架构：证明 Transformer 架构足够灵活，能适应不同实体形态

4) 可能的价值

学术价值：确立了机器人基础模型的数据集标准，催生 OpenVLA 等后续工作
工业价值：降低新机器人平台的训练成本，支持快速定制化部署
开放生态：22 机构合作模式推动社区数据共享，加速领域整体进步

3. OpenVLA: An Open-Source Vision-Language-Action Model

发表机构：斯坦福大学、UC Berkeley、Physical Intelligence
时间：2024 年 6 月
论文链接：arXiv:2406.09246

OpenVLA Architecture

1) 要解决什么问题

RT-2 等模型虽强大但闭源且参数量巨大（55B），限制了学术界和初创公司的使用。如何构建一个开源、高效、性能 SOTA的 VLA 模型，让更多人能在此基础上创新？

2) 解决思路与已有方法的不同

核心架构：

Vision Encoder：融合 DINOv2（自监督学习的丰富特征）+ SigLIP（语言对齐的语义特征）
Language Model：Llama 2 7B 作为 backbone
Action Decoder：将动作离散化为 256 bins，视为 text token 预测问题

训练策略：

基于 Prismatic-7B VLM 进行微调
使用 Open X-Embodiment 数据集的 970k 轨迹
64 张 A100 GPU 训练 15 天

与闭源模型的差异：

参数效率：7B 参数量 vs RT-2-X 的 55B，推理速度快 7 倍
性能超越：在 29 个任务上成功率比 RT-2-X 高 16.5%（绝对值）
LoRA 微调：仅需调整 1.4% 参数即可适配新任务，支持消费级 GPU

3) 创新点的直觉 & Why it helps

直觉：不是"越大越好"，而是"精准融合"。DINOv2 捕捉物体的视觉细节，SigLIP 理解语义意图，Llama 2 整合推理能力——三者协同优于单纯堆参数。

为什么有效：

双视觉编码器：DINOv2 的局部特征 + SigLIP 的全局语义 = 更 robust 的场景理解
动作离散化：将连续控制转化为 token 预测，复用 LLM 强大的序列建模能力
开源生态：社区可基于 OpenVLA 快速迭代，如 4-bit 量化、更强的 vision planning

4) 可能的价值

学术价值：开源权重（permissive license）加速研究，成为 VLA 领域的"BERT 时刻"
教育价值：7B 规模让学生和小团队也能实验 VLA，降低入门门槛
商业价值：初创公司可基于 OpenVLA 快速构建垂直领域机器人（如餐饮、物流）

4. 3D Diffusion Policy (DP3)

发表机构：MIT、清华大学、上海交通大学
时间：2023 年 12 月
论文链接：CoRL 2025

3D Diffusion Policy

1) 要解决什么问题

2D 图像缺乏深度信息，导致机器人难以理解空间关系（物体遮挡、相对位置等），且对相机视角变化敏感。如何让策略模型具备3D 空间推理能力，同时保持高样本效率？

2) 解决思路与已有方法的不同

核心创新：将3D 点云表示与**扩散策略（Diffusion Policy）**结合。

技术实现：

输入：稀疏采样的单视角点云（非密集点云，计算高效）
编码器：轻量级 Point Transformer 提取 3D 特征
动作生成：扩散模型以 3D 表示为条件，迭代去噪生成动作序列

与 2D 方法的差异：

2D CNN/ViT：只能隐式推断深度，易受视角、光照影响
DP3：显式建模 3D 几何，泛化到新视角、新物体摆放

3) 创新点的直觉 & Why it helps

直觉：人类看到桌上的杯子时，大脑自动构建 3D 心理模型——即使换个角度看，仍知道杯子在哪、如何抓取。DP3 让机器人也拥有这种 3D"心智地图"。

为什么有效：

几何不变性：3D 点云表示对旋转、平移具有天然不变性
遮挡鲁棒：稀疏点云仍保留关键几何信息，不像 2D 图像完全丢失被遮挡部分
扩散模型优势：多模态动作分布（一个场景可能有多种合理抓取方式）

实验结果：

72 个仿真任务，仅用 10 个演示，成功率比 baseline 高 24.2%
4 个真实任务，40 个演示，成功率 85%，泛化到新视角、新物体实例

4) 可能的价值

学术价值：证明 3D 表示对机器人策略的关键性，影响后续 SpatialVLA 等工作
工业价值：适用于仓储拣选、装配等需要精准空间定位的场景
技术价值：点云编码 + 扩散模型的组合成为新范式

5. Octo: An Open-Source Generalist Robot Policy

发表机构：UC Berkeley、CMU、Google DeepMind
时间：2024 年 1 月
论文链接：Octo Models

Octo Architecture

1) 要解决什么问题

现有 VLA 模型往往针对特定机器人硬件设计，迁移到新传感器配置（如增加一个相机、换灵巧手）时需要重新训练。如何设计一个模块化、易于微调的泛化机器人策略？

2) 解决思路与已有方法的不同

核心设计：Transformer-based 扩散策略 + 模块化注意力机制。

架构特点：

灵活输入：支持语言指令或目标图像、观察历史、多相机
扩散解码：生成连续动作分布（而非离散化）
模块化微调：针对新传感器/动作空间，只需调整对应模块

两个版本：

Octo-Small：27M 参数，快速推理
Octo-Base：93M 参数，更强性能

训练数据：Open X-Embodiment 数据集的 800k episodes

3) 创新点的直觉 & Why it helps

直觉：像搭积木一样构建机器人策略——视觉模块、语言模块、动作模块可以独立替换或升级，而不影响整体框架。

为什么有效：

模块化注意力：不同模态（vision, language, proprioception）通过独立注意力头处理，再融合
高效微调：新机器人只需微调 action decoder 和部分 transformer 层，无需从头训练
扩散策略：连续动作空间建模，适合精细操作

适用场景：

研究者快速测试新硬件配置
工业界从 Octo-Small 原型快速迭代到 Octo-Base 生产版本

4) 可能的价值

学术价值：提供灵活的研究平台，降低实验成本
工程价值：模块化设计成为后续 VLA 架构的设计参考
开源贡献：GitHub 代码和预训练权重推动社区快速复现和改进

Part II: 五篇热度最高的前沿论文

这些论文代表了 2024-2026 年 VLA 领域的最新突破，引领未来发展方向。

6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots

发表机构：NVIDIA
时间：2025 年 3 月
论文链接：NVIDIA Research

NVIDIA GR00T N1

1) 要解决什么问题

人形机器人需要全身协调控制（躯干、双臂、手腕、手指），传统 VLA 难以处理如此高维的动作空间，且推理速度不足以支持实时控制。如何构建快速、灵巧、全身控制的人形机器人基础模型？

2) 解决思路与已有方法的不同

核心架构：双系统设计（System 1 + System 2）

System 2（慢思考）：

基于 NVIDIA-Eagle + SmolLM-1.7B 的 VLM
处理视觉和语言，生成高层规划（latent cognitive representations）
理解"整理房间"这类抽象任务，分解为子目标

System 1（快反应）：

Diffusion Transformer 动作模型
接收 System 2 的 latent vector，生成高频连续控制指令
控制上半身所有关节（肩膀、手肘、手腕、手指）

训练数据混合：

第一视角人类视频（学习人机交互逻辑）
真实机器人轨迹（弥合 sim-to-real gap）
GPU 加速仿真数据（提供无限数据）
Latent Action Training（从无标注视频学习）

3) 创新点的直觉 & Why it helps

直觉：人类行为也是"双系统"——System 2 负责思考"我要做什么"，System 1 负责执行"手怎么动"。GR00T N1 模仿这种认知架构。

为什么有效：

解耦思考与执行：慢速 VLM 专注高层推理，快速 diffusion 专注低层控制，各司其职
实时性：System 1 以 7Hz 生成动作块，配合底层控制器实现平滑执行
全身协调：首个支持整个上半身连续控制的 VLA（手腕姿态 + 手指位置）

真实案例：1X 人形机器人在陌生家庭自主整理房间（GTC 2025 演示）

4) 可能的价值

工业价值：应对全球 5000 万 + 劳动力短缺，适用于物料搬运、包装、检查
开源影响：开放权重（permissive license）加速全球人形机器人研发
社会价值：推动人形机器人从科幻走向现实，1X CEO 称其为"伴侣而非工具"

7. VITRA: Scalable VLA Pretraining with Human Videos

发表机构：微软亚洲研究院
时间：2026 年 1 月
论文链接：Microsoft Research

VITRA Method

1) 要解决什么问题

机器人训练数据稀缺且昂贵（需要遥操作设备、标注动作参数），而互联网上有海量人类操作视频。如何将非结构化的人类视频转化为机器人可用的训练数据？

2) 解决思路与已有方法的不同

核心方法：自动化重建管道

步骤：

3D 手部运动重建：从人类视频中提取第一视角手部轨迹
VLA 格式转换：将人手动作映射到与机器人数据一致的结构化格式
预训练 VLA：在大规模人类视频上预训练（100 万 +episodes）
少样本微调：仅用 1000+ 机器人遥操数据即可迁移到真实任务

与已有方法的差异：

传统方法：仅用机器人演示数据，规模受限于硬件和人力
VITRA：利用无限的人类视频资源，实现可扩展的预训练

3) 创新点的直觉 & Why it helps

直觉：人类视频就像"教科书"——虽然手和机械手构造不同，但"抓杯子把手"、"倒水"这些操作逻辑是通用的。VITRA 让机器人通过观看人类视频学习这些逻辑。

为什么有效：

零样本预测：预训练模型在未见人手动作上展现更强预测能力
微调效率：仅 1000 条机器人数据，成功率从 30-40% 提升至 70%+
泛化能力：面对训练中未见物体（新型保温杯、异形玩具），仍保持~70% 成功率

实验任务：

随机位置抓取放置：成功率>80%
功能抓取（抓杯子把手）：70%+
倒水、扫地：70%+

4) 可能的价值

学术价值：开创 VLA 预训练新范式，证明人类视频的巨大潜力
数据价值：互联网视频成为"取之不尽"的训练资源
商业价值：大幅降低机器人训练成本，加速产品化进程

8. Physical Intelligence π0.5: VLA with Open-World Generalization

发表机构：Physical Intelligence
时间：2025 年 4 月
论文链接：Physical Intelligence Blog

Physical Intelligence Robot

1) 要解决什么问题

现有 VLA 模型在训练环境内表现优异，但面对完全陌生的新家庭/新场景时失效。如何让机器人具备真正的"开放世界泛化能力"——在从未见过的环境中也能执行复杂任务？

2) 解决思路与已有方法的不同

核心策略：异构数据联合训练（Co-training on Heterogeneous Data）

数据来源：

多样环境：100+ 不同家庭/办公室环境的移动操作数据
多模态网络数据：问答、图像描述、物体检测
多 embodiment 数据：单臂机器人、无移动底座机器人的数据
语言指导演示：人类通过自然语言逐步指导机器人完成任务

架构设计：

基于π0 VLA（5B 参数 VLM + action expert）
支持高层语义推理（下一步做什么）和低层运动控制（关节指令）
Chain-of-Thought 式推理：模型先输出高层文本动作（'pick up the pillow'），再生成低层连续动作

离散解码 + 连续 Flow Matching：

离散 pathway：推断高层动作
连续 pathway：生成 50-step (1 秒) 动作 chunk

3) 创新点的直觉 & Why it helps

直觉：就像人类进入陌生房间时，会调用已有的"整理经验"（知道枕头放床上、杯子放厨房），而不需要在每个房间都学一遍。π0.5 通过在多样环境训练，学到任务的本质而非特定环境的 memorization。

为什么有效：

语义理解：网络数据提供"哪些物体该放哪"的常识
任务结构：语言指导演示教会模型任务的高层结构（如整理床铺的步骤）
物理行为迁移：简单机器人的操作技能可迁移到复杂移动平台

缩放研究：在 100 个训练环境后，模型在新环境的性能接近"在测试环境直接训练"的 baseline——证明泛化能力已接近上限。

4) 可能的价值

学术价值：首次系统性证明 VLA 的开放世界泛化能力
产品价值：支持"即买即用"的家庭服务机器人，无需针对每个家庭定制训练
未来方向：模型可从自主经验改进、在陌生情况主动寻求帮助

9. CoA-VLA: Chain-of-Affordance for Better Reasoning

发表机构：ICCV 2025
时间：2025 年
论文链接：ICCV 2025 Paper

CoA-VLA Demo

1) 要解决什么问题

VLA 模型虽能执行语言指令，但缺乏可供性推理（affordance reasoning）——不理解"哪里可以放物体"、'如何避开障碍'。如何让 VLA 具备类似人类的空间推理能力？

2) 解决思路与已有方法的不同

核心创新：Chain-of-Affordance（CoA）框架

设计思想：

语义识别：从自由文本指令中解析物体名称
空间定位：预测物体的 2D 位置（grounding）
可供性推理：推断无碰撞路径、可放置区域
双模态注入：将可供性知识转化为视觉可供性（图像标注）和文本可供性（语言描述），通过 vision-language co-injection 模块注入策略网络

与 baseline 的差异：

Vanilla VLA：直接从图像 + 指令生成动作，易碰撞、定位不准
CoA-VLA：显式建模空间约束，生成动作前先推理"哪里安全"

3) 创新点的直觉 & Why it helps

直觉：人类执行"把杯子放桌上"时，会自动排除"边缘易掉落"、"已有物体占据"的位置，选择"平坦、空闲"的区域。CoA-VLA 让机器人也进行这种推理。

为什么有效：

精确性：空间 grounding 提高定位准确度
鲁棒性：碰撞检测避免失败操作
泛化性：识别未见物体姿态、新环境自由空间

实验结果：

超越 OpenVLA 成功率 30.65%（绝对值）
模型参数更小、预训练数据更少，但性能更优

4) 可能的价值

学术价值：将推理（reasoning）引入 VLA，启发后续工作
安全价值：降低机器人碰撞风险，适用于人机协作场景
工业价值：提高抓取成功率，减少生产线故障

10. WorldVLA: Autoregressive Action-World Model

发表机构：清华大学、上海交通大学
时间：2025 年 6 月
论文链接：Literature Review

WorldVLA Concept

1) 要解决什么问题

传统 VLA 只预测动作，不理解"物理规律"——不知道"推物体会移动"、'倒水杯子会满'。如何让 VLA 具备物理世界建模能力，生成更符合物理直觉的动作？

2) 解决思路与已有方法的不同

核心架构：统一动作模型和世界模型

两个组件：

World Model（世界模型）：
- 预测未来图像（conditioned on 当前观察 + 动作）
- 学习环境物理规律
Action Model（动作模型）：
- 生成动作（conditioned on 视觉观察 + 语言指令）
- 利用世界模型的物理理解辅助视觉理解

训练策略：

联合优化：同时训练视频预测和动作预测
自回归框架：动作和图像 token 交错生成
Autoregressive Action Chunking：通过特殊 attention mask，每个动作仅基于视觉输入（减少歧义）

3) 创新点的直觉 & Why it helps

直觉：人类学习新技能时，会在脑海中"预演"——想象"如果我这么做，会发生什么"。WorldVLA 让机器人也拥有这种"心理模拟"能力。

为什么有效：

物理理解增强：世界模型提供环境动力学知识，动作模型生成更合理的动作
双向促进：
- 世界模型→动作模型：物理知识提升抓取成功率 4%
- 动作模型→世界模型：行为理解降低 FVD 指标 10%
Action Chunking：保持推理速度，多帧历史输入提升性能

实验发现：

有动作条件的世界模型优于纯视频预测模型（减少歧义）
使用 2 帧历史输入比单帧好

4) 可能的价值

学术价值：将 world model 引入 VLA，开辟新研究方向
仿真价值：世界模型可用于策略训练的"梦境演练"（类似 DreamerV3）
长期规划：理解物理规律支持多步任务推理

总结与未来展望

技术演进脉络

第一代（RT-1）：从机器人数据学习，任务特定
第二代（RT-2, RT-X）：融合互联网数据，跨实体形态泛化
第三代（OpenVLA, Octo）：开源基础模型，模块化设计
第四代（GR00T, π0.5）：双系统架构，开放世界泛化
未来方向（WorldVLA, CoA-VLA）：物理推理、可供性理解

核心挑战

数据问题：真实机器人数据昂贵（VITRA 用人类视频缓解）
Sim-to-Real Gap：仿真数据难以完全迁移（GR00T 混合真实 + 仿真数据）
实时性：高维动作空间推理速度慢（GR00T 双系统、WorldVLA action chunking）
安全性：开放环境中的碰撞风险（CoA-VLA 可供性推理）
长期规划：复杂任务需要多步推理（π0.5 的 chain-of-thought）

未来方向

更大规模预训练：利用全网视频（人类、动物、仿真）
自主学习：从失败经验中改进，减少人类监督
多模态感知：融合触觉（VTLA）、听觉（VLAS）
可解释性：理解 VLA 的推理过程，提高可信度
边缘部署：压缩模型至消费级硬件（4-bit 量化）

结语

VLA 模型正将机器人从"工具"转变为"智能体"。从 Google DeepMind 的 RT-2 奠基，到 NVIDIA GR00T N1 的人形机器人突破，再到微软 VITRA 的预训练新范式——这场革命才刚刚开始。

当机器人能像人类一样理解世界、推理任务、执行操作时，真正的通用机器人助手将不再是科幻。这 10 篇论文，正是通向未来的路标。

关键词：Vision-Language-Action, VLA 模型，机器人操作，具身智能，基础模型，多模态学习，迁移学习，人形机器人

推荐阅读顺序：RT-2 → Open X-Embodiment → OpenVLA → 3D Diffusion Policy → Octo → GR00T N1 → VITRA → π0.5 → CoA-VLA → WorldVLA

VLA 机器人革命：解析 10 篇关键视觉 - 语言 - 动作模型论文