VLA机器人革命：解析当下10篇最关键的视觉-语言-动作模型论文

优质文章学习记录

10 Apr 2026 — 23 min read

VLA机器人革命：解析当下10篇最关键的视觉-语言-动作模型论文

概览

2024-2026年，机器人领域正经历一场范式转换：从传统的任务特定编程转向视觉-语言-动作（Vision-Language-Action, VLA）模型。这些模型将视觉感知、自然语言理解和动作执行统一在单一框架中，让机器人能够像人类一样理解指令、推理场景并执行复杂操作。

本文精选5篇最fundamental的基础性论文和5篇热度最高的前沿论文，深入剖析VLA领域的核心思想、技术演进和未来方向。这些论文代表了从Google DeepMind、NVIDIA、斯坦福、Physical Intelligence等顶尖机构的最新突破，涵盖了从单臂操作到双臂人形机器人、从模拟环境到真实家庭场景的全方位进展。

Part I: 五篇Fundamental基础性论文

这些论文奠定了VLA领域的理论基础和技术范式，是理解整个领域发展脉络的关键。

1. RT-2: New Model Translates Vision and Language into Action

发表机构：Google DeepMind
时间：2023年7月
论文链接：Google DeepMind Blog

1) 要解决什么问题

传统机器人策略模型只能从有限的机器人演示数据中学习，导致泛化能力弱、无法处理新物体和场景。如何让机器人像人类一样，利用互联网海量的视觉-语言知识来理解世界并执行操作？

2) 解决思路与已有方法的不同

核心创新：RT-2将大规模视觉-语言模型（VLM）转化为视觉-语言-动作（VLA）模型。它基于PaLM-E和PaLI-X等预训练VLM，通过联合训练的方式，在互联网规模的视觉-语言数据和真实机器人数据上进行共同微调。

与已有方法的差异：

RT-1：仅从机器人演示数据学习，泛化能力受限于数据集覆盖范围
RT-2：继承了VLM的语义理解能力，能够执行训练数据中从未出现的指令（如"把能当即兴锤子的东西递给我"→抓取石头）

技术实现：将机器人动作表示为文本tokens，使VLM的decoder可以同时输出语言和动作序列。这种统一表示让模型能在vision-language任务和robot control任务间共享知识。

3) 创新点的直觉 & Why it helps

直觉：人类学习新技能时，不需要亲自尝试每一个物体——我们通过观察图片、阅读文字积累的常识就能推理出"哪些物体适合某个任务"。RT-2把这种能力赋予了机器人。

为什么有效：

常识推理：VLM预训练让模型理解物体属性（坚硬、柔软、可食用等），支持零样本泛化
语义理解：支持抽象指令（“把垃圾扔掉”）和多步推理（chain-of-thought）
数据效率：无需为每个新物体采集机器人数据，大幅降低训练成本

4) 可能的价值

学术价值：首次证明互联网数据能有效迁移到机器人控制，开创VLA范式
工业价值：降低机器人部署门槛，单一模型支持700+任务，适用于仓储、家庭服务等场景
社会价值：推动通用机器人助手的实现，缓解劳动力短缺（全球预计超5000万人）

2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

发表机构：21所机构联合（Google DeepMind领导）
时间：2023年10月
论文链接：arXiv:2310.08864

1) 要解决什么问题

不同机器人平台（单臂、双臂、四足等）的数据格式各异、无法共享，导致每个新机器人都需要从零开始训练。如何打破"数据孤岛"，让一个模型能控制多种机器人形态？

2) 解决思路与已有方法的不同

核心贡献：构建了Open X-Embodiment数据集，包含来自22种机器人形态的100万+真实轨迹、527种技能、160,266个任务，并提出RT-X系列模型（RT-1-X和RT-2-X）实现跨embodiment的正迁移。

技术创新：

统一数据格式：采用RLDS格式，支持不同动作空间、多模态输入（RGB、深度、点云）
动作空间标准化：将不同机器人的动作统一映射到7维end-effector控制（位置delta、旋转、夹爪）+ 256 bins离散化
混合训练：RT-2-X在机器人数据和原始VLM数据上1:1比例联合训练

3) 创新点的直觉 & Why it helps

直觉：就像人类驾驶不同品牌的汽车时，核心的"转向-加速-刹车"逻辑是通用的，只是操作界面略有差异。RT-X通过标准化动作空间，让模型学习任务的本质而非特定硬件的quirks。

为什么有效：

数据规模：100万轨迹的规模让模型看到足够的任务-物体-场景组合
多样性红利：在A机器人上学到的"抓取"知识能迁移到B机器人，提升样本效率
统一架构：证明Transformer架构足够灵活，能适应不同embodiment

4) 可能的价值

学术价值：确立了机器人基础模型的数据集标准，催生OpenVLA等后续工作
工业价值：降低新机器人平台的训练成本，支持快速定制化部署
开放生态：22机构合作模式推动社区数据共享，加速领域整体进步

3. OpenVLA: An Open-Source Vision-Language-Action Model

发表机构：斯坦福大学、UC Berkeley、Physical Intelligence
时间：2024年6月
论文链接：arXiv:2406.09246

1) 要解决什么问题

RT-2等模型虽强大但闭源且参数量巨大（55B），限制了学术界和初创公司的使用。如何构建一个开源、高效、性能SOTA的VLA模型，让更多人能在此基础上创新？

2) 解决思路与已有方法的不同

核心架构：

Vision Encoder：融合DINOv2（自监督学习的丰富特征）+ SigLIP（语言对齐的语义特征）
Language Model：Llama 2 7B作为backbone
Action Decoder：将动作离散化为256 bins，视为text token预测问题

训练策略：

基于Prismatic-7B VLM进行微调
使用Open X-Embodiment数据集的970k轨迹
64张A100 GPU训练15天

与闭源模型的差异：

参数效率：7B参数量 vs RT-2-X的55B，推理速度快7倍
性能超越：在29个任务上成功率比RT-2-X高16.5%（绝对值）
LoRA微调：仅需调整1.4%参数即可适配新任务，支持消费级GPU

3) 创新点的直觉 & Why it helps

直觉：不是"越大越好"，而是"精准融合"。DINOv2捕捉物体的视觉细节，SigLIP理解语义意图，Llama 2整合推理能力——三者协同优于单纯堆参数。

为什么有效：

双视觉编码器：DINOv2的局部特征 + SigLIP的全局语义 = 更robust的场景理解
动作离散化：将连续控制转化为token预测，复用LLM强大的序列建模能力
开源生态：社区可基于OpenVLA快速迭代，如4-bit量化、更强的vision planning

4) 可能的价值

学术价值：开源权重（permissive license）加速研究，成为VLA领域的"BERT时刻"
教育价值：7B规模让学生和小团队也能实验VLA，降低入门门槛
商业价值：初创公司可基于OpenVLA快速构建垂直领域机器人（如餐饮、物流）

4. 3D Diffusion Policy (DP3)

发表机构：MIT、清华大学、上海交通大学
时间：2023年12月
论文链接：CoRL 2025

1) 要解决什么问题

2D图像缺乏深度信息，导致机器人难以理解空间关系（物体遮挡、相对位置等），且对相机视角变化敏感。如何让策略模型具备3D空间推理能力，同时保持高样本效率？

2) 解决思路与已有方法的不同

核心创新：将3D点云表示与**扩散策略（Diffusion Policy）**结合。

技术实现：

输入：稀疏采样的单视角点云（非密集点云，计算高效）
编码器：轻量级Point Transformer提取3D特征
动作生成：扩散模型以3D表示为条件，迭代去噪生成动作序列

与2D方法的差异：

2D CNN/ViT：只能隐式推断深度，易受视角、光照影响
DP3：显式建模3D几何，泛化到新视角、新物体摆放

3) 创新点的直觉 & Why it helps

直觉：人类看到桌上的杯子时，大脑自动构建3D心理模型——即使换个角度看，仍知道杯子在哪、如何抓取。DP3让机器人也拥有这种3D"心智地图"。

为什么有效：

几何不变性：3D点云表示对旋转、平移具有天然不变性
遮挡鲁棒：稀疏点云仍保留关键几何信息，不像2D图像完全丢失被遮挡部分
扩散模型优势：多模态动作分布（一个场景可能有多种合理抓取方式）

实验结果：

72个仿真任务，仅用10个演示，成功率比baseline高24.2%
4个真实任务，40个演示，成功率85%，泛化到新视角、新物体实例

4) 可能的价值

学术价值：证明3D表示对机器人策略的关键性，影响后续SpatialVLA等工作
工业价值：适用于仓储拣选、装配等需要精准空间定位的场景
技术价值：点云编码+扩散模型的组合成为新范式

5. Octo: An Open-Source Generalist Robot Policy

发表机构：UC Berkeley、CMU、Google DeepMind
时间：2024年1月
论文链接：Octo Models

1) 要解决什么问题

现有VLA模型往往针对特定机器人硬件设计，迁移到新传感器配置（如增加一个相机、换灵巧手）时需要重新训练。如何设计一个模块化、易于微调的泛化机器人策略？

2) 解决思路与已有方法的不同

核心设计：Transformer-based扩散策略 + 模块化注意力机制。

架构特点：

灵活输入：支持语言指令或目标图像、观察历史、多相机
扩散解码：生成连续动作分布（而非离散化）
模块化微调：针对新传感器/动作空间，只需调整对应模块

两个版本：

Octo-Small：27M参数，快速推理
Octo-Base：93M参数，更强性能

训练数据：Open X-Embodiment数据集的800k episodes

3) 创新点的直觉 & Why it helps

直觉：像搭积木一样构建机器人策略——视觉模块、语言模块、动作模块可以独立替换或升级，而不影响整体框架。

为什么有效：

模块化注意力：不同模态（vision, language, proprioception）通过独立注意力头处理，再融合
高效微调：新机器人只需微调action decoder和部分transformer层，无需从头训练
扩散策略：连续动作空间建模，适合精细操作

适用场景：

研究者快速测试新硬件配置
工业界从Octo-Small原型快速迭代到Octo-Base生产版本

4) 可能的价值

学术价值：提供灵活的研究平台，降低实验成本
工程价值：模块化设计成为后续VLA架构的设计参考
开源贡献：GitHub代码和预训练权重推动社区快速复现和改进

Part II: 五篇热度最高的前沿论文

这些论文代表了2024-2026年VLA领域的最新突破，引领未来发展方向。

6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots

发表机构：NVIDIA
时间：2025年3月
论文链接：NVIDIA Research

1) 要解决什么问题

人形机器人需要全身协调控制（躯干、双臂、手腕、手指），传统VLA难以处理如此高维的动作空间，且推理速度不足以支持实时控制。如何构建快速、灵巧、全身控制的人形机器人基础模型？

2) 解决思路与已有方法的不同

核心架构：双系统设计（System 1 + System 2）

System 2（慢思考）：

基于NVIDIA-Eagle + SmolLM-1.7B的VLM
处理视觉和语言，生成高层规划（latent cognitive representations）
理解"整理房间"这类抽象任务，分解为子目标

System 1（快反应）：

Diffusion Transformer动作模型
接收System 2的latent vector，生成高频连续控制指令
控制上半身所有关节（肩膀、手肘、手腕、手指）

训练数据混合：

第一视角人类视频（学习人机交互逻辑）
真实机器人轨迹（弥合sim-to-real gap）
GPU加速仿真数据（提供无限数据）
Latent Action Training（从无标注视频学习）

3) 创新点的直觉 & Why it helps

直觉：人类行为也是"双系统"——System 2负责思考"我要做什么"，System 1负责执行"手怎么动"。GR00T N1模仿这种认知架构。

为什么有效：

解耦思考与执行：慢速VLM专注高层推理，快速diffusion专注低层控制，各司其职
实时性：System 1以7Hz生成动作块，配合底层控制器实现平滑执行
全身协调：首个支持整个上半身连续控制的VLA（手腕姿态+手指位置）

真实案例：1X人形机器人在陌生家庭自主整理房间（GTC 2025演示）

4) 可能的价值

工业价值：应对全球5000万+劳动力短缺，适用于物料搬运、包装、检查
开源影响：开放权重（permissive license）加速全球人形机器人研发
社会价值：推动人形机器人从科幻走向现实，1X CEO称其为"伴侣而非工具"

7. VITRA: Scalable VLA Pretraining with Human Videos

发表机构：微软亚洲研究院
时间：2026年1月
论文链接：Microsoft Research

1) 要解决什么问题

机器人训练数据稀缺且昂贵（需要遥操作设备、标注动作参数），而互联网上有海量人类操作视频。如何将非结构化的人类视频转化为机器人可用的训练数据？

2) 解决思路与已有方法的不同

核心方法：自动化重建管道

步骤：

3D手部运动重建：从人类视频中提取第一视角手部轨迹
VLA格式转换：将人手动作映射到与机器人数据一致的结构化格式
预训练VLA：在大规模人类视频上预训练（100万+episodes）
少样本微调：仅用1000+机器人遥操数据即可迁移到真实任务

与已有方法的差异：

传统方法：仅用机器人演示数据，规模受限于硬件和人力
VITRA：利用无限的人类视频资源，实现可扩展的预训练

3) 创新点的直觉 & Why it helps

直觉：人类视频就像"教科书"——虽然手和机械手构造不同，但"抓杯子把手"、"倒水"这些操作逻辑是通用的。VITRA让机器人通过观看人类视频学习这些逻辑。

为什么有效：

零样本预测：预训练模型在未见人手动作上展现更强预测能力
微调效率：仅1000条机器人数据，成功率从30-40%提升至70%+
泛化能力：面对训练中未见物体（新型保温杯、异形玩具），仍保持~70%成功率

实验任务：

随机位置抓取放置：成功率>80%
功能抓取（抓杯子把手）：70%+
倒水、扫地：70%+

4) 可能的价值

学术价值：开创VLA预训练新范式，证明人类视频的巨大潜力
数据价值：互联网视频成为"取之不尽"的训练资源
商业价值：大幅降低机器人训练成本，加速产品化进程

8. Physical Intelligence π0.5: VLA with Open-World Generalization

发表机构：Physical Intelligence
时间：2025年4月
论文链接：Physical Intelligence Blog

1) 要解决什么问题

现有VLA模型在训练环境内表现优异，但面对完全陌生的新家庭/新场景时失效。如何让机器人具备真正的"开放世界泛化能力"——在从未见过的环境中也能执行复杂任务？

2) 解决思路与已有方法的不同

核心策略：异构数据联合训练（Co-training on Heterogeneous Data）

数据来源：

多样环境：100+不同家庭/办公室环境的移动操作数据
多模态网络数据：问答、图像描述、物体检测
多embodiment数据：单臂机器人、无移动底座机器人的数据
语言指导演示：人类通过自然语言逐步指导机器人完成任务

架构设计：

基于π0 VLA（5B参数VLM + action expert）
支持高层语义推理（下一步做什么）和低层运动控制（关节指令）
Chain-of-Thought式推理：模型先输出高层文本动作（“pick up the pillow”），再生成低层连续动作

离散解码 + 连续Flow Matching：

离散pathway：推断高层动作
连续pathway：生成50-step (1秒) 动作chunk

3) 创新点的直觉 & Why it helps

直觉：就像人类进入陌生房间时，会调用已有的"整理经验"（知道枕头放床上、杯子放厨房），而不需要在每个房间都学一遍。π0.5通过在多样环境训练，学到任务的本质而非特定环境的memorization。

为什么有效：

语义理解：网络数据提供"哪些物体该放哪"的常识
任务结构：语言指导演示教会模型任务的高层结构（如整理床铺的步骤）
物理行为迁移：简单机器人的操作技能可迁移到复杂移动平台

缩放研究：在100个训练环境后，模型在新环境的性能接近"在测试环境直接训练"的baseline——证明泛化能力已接近上限。

4) 可能的价值

学术价值：首次系统性证明VLA的开放世界泛化能力
产品价值：支持"即买即用"的家庭服务机器人，无需针对每个家庭定制训练
未来方向：模型可从自主经验改进、在陌生情况主动寻求帮助

9. CoA-VLA: Chain-of-Affordance for Better Reasoning

发表机构：ICCV 2025
时间：2025年
论文链接：ICCV 2025 Paper

1) 要解决什么问题

VLA模型虽能执行语言指令，但缺乏可供性推理（affordance reasoning）——不理解"哪里可以放物体"、“如何避开障碍”。如何让VLA具备类似人类的空间推理能力？

2) 解决思路与已有方法的不同

核心创新：Chain-of-Affordance（CoA）框架

设计思想：

语义识别：从自由文本指令中解析物体名称
空间定位：预测物体的2D位置（grounding）
可供性推理：推断无碰撞路径、可放置区域
双模态注入：将可供性知识转化为视觉可供性（图像标注）和文本可供性（语言描述），通过vision-language co-injection模块注入策略网络

与baseline的差异：

Vanilla VLA：直接从图像+指令生成动作，易碰撞、定位不准
CoA-VLA：显式建模空间约束，生成动作前先推理"哪里安全"

3) 创新点的直觉 & Why it helps

直觉：人类执行"把杯子放桌上"时，会自动排除"边缘易掉落"、"已有物体占据"的位置，选择"平坦、空闲"的区域。CoA-VLA让机器人也进行这种推理。

为什么有效：

精确性：空间grounding提高定位准确度
鲁棒性：碰撞检测避免失败操作
泛化性：识别未见物体姿态、新环境自由空间

实验结果：

超越OpenVLA成功率30.65%（绝对值）
模型参数更小、预训练数据更少，但性能更优

4) 可能的价值

学术价值：将推理（reasoning）引入VLA，启发后续工作
安全价值：降低机器人碰撞风险，适用于人机协作场景
工业价值：提高抓取成功率，减少生产线故障

10. WorldVLA: Autoregressive Action-World Model

发表机构：清华大学、上海交通大学
时间：2025年6月
论文链接：Literature Review

1) 要解决什么问题

传统VLA只预测动作，不理解"物理规律"——不知道"推物体会移动"、“倒水杯子会满”。如何让VLA具备物理世界建模能力，生成更符合物理直觉的动作？

2) 解决思路与已有方法的不同

核心架构：统一动作模型和世界模型

两个组件：

World Model（世界模型）：
- 预测未来图像（conditioned on 当前观察 + 动作）
- 学习环境物理规律
Action Model（动作模型）：
- 生成动作（conditioned on 视觉观察 + 语言指令）
- 利用世界模型的物理理解辅助视觉理解

训练策略：

联合优化：同时训练视频预测和动作预测
自回归框架：动作和图像token交错生成
Autoregressive Action Chunking：通过特殊attention mask，每个动作仅基于视觉输入（减少歧义）

3) 创新点的直觉 & Why it helps

直觉：人类学习新技能时，会在脑海中"预演"——想象"如果我这么做，会发生什么"。WorldVLA让机器人也拥有这种"心理模拟"能力。

为什么有效：

物理理解增强：世界模型提供环境动力学知识，动作模型生成更合理的动作
双向促进：
- 世界模型→动作模型：物理知识提升抓取成功率4%
- 动作模型→世界模型：行为理解降低FVD指标10%
Action Chunking：保持推理速度，多帧历史输入提升性能

实验发现：

有动作条件的世界模型优于纯视频预测模型（减少歧义）
使用2帧历史输入比单帧好

4) 可能的价值

学术价值：将world model引入VLA，开辟新研究方向
仿真价值：世界模型可用于策略训练的"梦境演练"（类似DreamerV3）
长期规划：理解物理规律支持多步任务推理

总结与未来展望

技术演进脉络

第一代（RT-1）：从机器人数据学习，任务特定
第二代（RT-2, RT-X）：融合互联网数据，跨embodiment泛化
第三代（OpenVLA, Octo）：开源基础模型，模块化设计
第四代（GR00T, π0.5）：双系统架构，开放世界泛化
未来方向（WorldVLA, CoA-VLA）：物理推理、可供性理解

核心挑战

数据问题：真实机器人数据昂贵（VITRA用人类视频缓解）
Sim-to-Real Gap：仿真数据难以完全迁移（GR00T混合真实+仿真数据）
实时性：高维动作空间推理速度慢（GR00T双系统、WorldVLA action chunking）
安全性：开放环境中的碰撞风险（CoA-VLA可供性推理）
长期规划：复杂任务需要多步推理（π0.5的chain-of-thought）

未来方向

更大规模预训练：利用全网视频（人类、动物、仿真）
自主学习：从失败经验中改进，减少人类监督
多模态感知：融合触觉（VTLA）、听觉（VLAS）
可解释性：理解VLA的推理过程，提高可信度
边缘部署：压缩模型至消费级硬件（4-bit量化）

结语

VLA模型正将机器人从"工具"转变为"智能体"。从Google DeepMind的RT-2奠基，到NVIDIA GR00T N1的人形机器人突破，再到微软VITRA的预训练新范式——这场革命才刚刚开始。

当机器人能像人类一样理解世界、推理任务、执行操作时，真正的通用机器人助手将不再是科幻。这10篇论文，正是通向未来的路标。

关键词：Vision-Language-Action, VLA模型, 机器人操作, 具身智能, 基础模型, 多模态学习, 迁移学习, 人形机器人

推荐阅读顺序：RT-2 → Open X-Embodiment → OpenVLA → 3D Diffusion Policy → Octo → GR00T N1 → VITRA → π0.5 → CoA-VLA → WorldVLA

VLA机器人革命：解析当下10篇最关键的视觉-语言-动作模型论文

概览

Part I: 五篇Fundamental基础性论文

1. RT-2: New Model Translates Vision and Language into Action

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

2. Open X-Embodiment: Robotic Learning Datasets and RT-X Models

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

3. OpenVLA: An Open-Source Vision-Language-Action Model

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

4. 3D Diffusion Policy (DP3)

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

5. Octo: An Open-Source Generalist Robot Policy

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

Part II: 五篇热度最高的前沿论文

6. NVIDIA Isaac GR00T N1: Open Foundation Model for Humanoid Robots

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

7. VITRA: Scalable VLA Pretraining with Human Videos

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

8. Physical Intelligence π0.5: VLA with Open-World Generalization

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

9. CoA-VLA: Chain-of-Affordance for Better Reasoning

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

10. WorldVLA: Autoregressive Action-World Model

1) 要解决什么问题

2) 解决思路与已有方法的不同

3) 创新点的直觉 & Why it helps

4) 可能的价值

总结与未来展望

技术演进脉络

核心挑战

未来方向

结语

Read more

全网最靠谱有效！！！解决新机型 Copilot 键替代右 Ctrl 键问题

AI 智能编码工具：重塑开发效率的革命，从 GitHub Copilot 到国产新秀的全面解析

什么是Agentic AI？Agentic AI 与传统 AIGC 有什么区别？

开源分享：AI Agent Skills 资源合集，一键安装 Cursor/Claude Code/Copilot 技能包