蚂蚁集团开源具身智能基座模型 LingBot-VLA,用两万小时真机数据证明了机器人学习存在类似大语言模型的缩放定律且远未达到瓶颈。

LingBot-VLA 相较于现有方案具有显著优势,表现出卓越的性能与广泛的泛化能力。在三款不同机器人平台上实现了超越同行的通用操作能力。例如,机器能够打开柔软的收纳布袋,将物品放入袋中并拉上拉链,一气呵成。物理 AI 正在加速发展。
数据规模引发质变
通用机器人领域长期面临一个棘手的难题。大多数机器人只能在特定环境下重复单一动作,一旦环境改变或者更换了机身,之前的技能包就会失效。要打破这个瓶颈,必须让机器人积累广泛经验。
LingBot-VLA 是一个务实的视觉 - 语言 - 动作(VLA)基础模型。团队收集了大约 20,000 小时的真实世界机器人操作数据。这些数据并非来自单一机型,涵盖了 9 种主流的双臂机器人配置。

数据采集的方式多种多样。其中包括 Agibot G1,它拥有两个 7 自由度的机械臂和三个 RGB-D 相机,数据通过 VR 遥操作采集。还有 AgileX,配备了两个 6 自由度机械臂,通过同构臂进行控制采集。Galaxea R1Lite 和 R1Pro 系列则提供了带有立体相机和手腕相机的视角。甚至包括人形机器人 Qinglong 和 Leju KUAVO 4 Pro。这些机器人形态各异,不仅涵盖了桌面固定式机械臂,还包括了拥有全身控制维度的人形机器人。如此多样化的机身结构汇聚在一起,构成了一个极具挑战性的多模态数据集。
过去的研究往往受限于数据规模,难以窥见机器人学习的本质规律。在真实世界中,数据量的增加是否真的能带来智能的提升?答案是肯定的。研究团队对预训练数据的规模进行了系统性的缩放分析。他们将数据量从 3,000 小时逐步增加到 20,000 小时。随着数据量的增长,模型在下游任务中的成功率持续且显著地提升。

最值得注意的是这种增长并没有出现饱和的迹象。即便到了 20,000 小时这个量级,曲线依然保持上扬。这表明目前的机器人性能仍然可以通过增加数据量来进一步压榨。这与大语言模型(LLM)的发展路径如出一辙。只要有足够多且高质量的数据,机器人的通用能力就能不断进化。无需针对每个新任务从头编写代码,通过增加数据量即可提升通用能力。
为了让这些数据发挥最大价值,数据的标注工作也做得非常精细。视频数据被分解为原子的动作片段。人类标注员会去除视频首尾的静止帧,只保留核心动作。利用强大的 Qwen2.5-VL 大模型,团队对这些片段进行了精准的语言描述。比如'从左到右按大小分类方块'或者'用削皮器削柠檬皮'。这种图文对应的精细化处理,让模型能够准确理解人类指令与机械臂动作之间的关联。

通过词云图可以看出,预训练数据涵盖了极其丰富的动作类型。从简单的抓取(Grasp)、放置(Place),到复杂的拧开(Unscrew)、折叠(Fold)。行为上的多样性,是模型能够应对未知任务的基础。
分层架构实现脑手协同
拥有了海量数据,还需要一个聪明的大脑来消化它们。LingBot-VLA 在架构设计上采用了一种脑手协同策略。它将视觉语言模型(VLM)与动作生成模块巧妙地结合在一起,这种架构被称为动作专家(Action Expert)模式。






