蚂蚁集团开源具身智能基座模型 LingBot-VLA，基于两万小时真机数据验证物理 AI 缩放定律

蚂蚁集团开源具身智能基座模型 LingBot-VLA，基于约两万小时真实机器人操作数据，验证了物理 AI 存在类似大语言模型的缩放定律。该模型采用视觉 - 语言 - 动作（VLA）架构，结合 Qwen2.5-VL 与动作专家模块，支持多模态输入及深度感知。在涵盖多种机器人平台的 GM-100 基准测试中，LingBot-VLA 展现出超越现有方案的通用操作能力与数据利用效率，显著提升了任务成功率与进度分。团队同时开源了代码、模型及数据集，为通用机器人发展提供务实范本。

星辰大海发布于 2026/3/20更新于 2026/4/181 浏览

蚂蚁集团开源具身智能基座模型 LingBot-VLA，用两万小时真机数据证明了机器人学习存在类似大语言模型的缩放定律且远未达到瓶颈。

文章配图

LingBot-VLA 相较于现有方案具有显著优势，表现出卓越的性能与广泛的泛化能力。在三款不同机器人平台上实现了超越同行的通用操作能力。例如，机器能够打开柔软的收纳布袋，将物品放入袋中并拉上拉链，一气呵成。物理 AI 正在加速发展。

数据规模引发质变

通用机器人领域长期面临一个棘手的难题。大多数机器人只能在特定环境下重复单一动作，一旦环境改变或者更换了机身，之前的技能包就会失效。要打破这个瓶颈，必须让机器人积累广泛经验。

LingBot-VLA 是一个务实的视觉 - 语言 - 动作（VLA）基础模型。团队收集了大约 20,000 小时的真实世界机器人操作数据。这些数据并非来自单一机型，涵盖了 9 种主流的双臂机器人配置。

文章配图

数据采集的方式多种多样。其中包括 Agibot G1，它拥有两个 7 自由度的机械臂和三个 RGB-D 相机，数据通过 VR 遥操作采集。还有 AgileX，配备了两个 6 自由度机械臂，通过同构臂进行控制采集。Galaxea R1Lite 和 R1Pro 系列则提供了带有立体相机和手腕相机的视角。甚至包括人形机器人 Qinglong 和 Leju KUAVO 4 Pro。这些机器人形态各异，不仅涵盖了桌面固定式机械臂，还包括了拥有全身控制维度的人形机器人。如此多样化的机身结构汇聚在一起，构成了一个极具挑战性的多模态数据集。

过去的研究往往受限于数据规模，难以窥见机器人学习的本质规律。在真实世界中，数据量的增加是否真的能带来智能的提升？答案是肯定的。研究团队对预训练数据的规模进行了系统性的缩放分析。他们将数据量从 3,000 小时逐步增加到 20,000 小时。随着数据量的增长，模型在下游任务中的成功率持续且显著地提升。

文章配图

最值得注意的是这种增长并没有出现饱和的迹象。即便到了 20,000 小时这个量级，曲线依然保持上扬。这表明目前的机器人性能仍然可以通过增加数据量来进一步压榨。这与大语言模型（LLM）的发展路径如出一辙。只要有足够多且高质量的数据，机器人的通用能力就能不断进化。无需针对每个新任务从头编写代码，通过增加数据量即可提升通用能力。

为了让这些数据发挥最大价值，数据的标注工作也做得非常精细。视频数据被分解为原子的动作片段。人类标注员会去除视频首尾的静止帧，只保留核心动作。利用强大的 Qwen2.5-VL 大模型，团队对这些片段进行了精准的语言描述。比如'从左到右按大小分类方块'或者'用削皮器削柠檬皮'。这种图文对应的精细化处理，让模型能够准确理解人类指令与机械臂动作之间的关联。

文章配图