ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键?

ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键?

一、背景和研究动机

在具身智能(Embodied AI)的浪潮中,研究界致力于将强大的视觉-语言模型(VLM)转化为具备机器人操控能力的 Vision-Language-Action (VLA) 模型 。然而,这一转化过程面临着一道巨大的“鸿沟”:上游 VLM 通常依托海量互联网数据预训练,拥有卓越的通用推理能力;而下游 VLA 却需要在具体的物理环境中实现精准的动作控制 。

目前的现状是:即便 VLM 的通用推理能力很强,在迁移至机器人控制任务时,效果往往不如人意 。这引发了一个核心问题:究竟哪些多模态能力和数据对提升机器人的控制表现最关键? 是堆砌更多的通用问答数据,还是专注于特定的域内(机器人第一视角)的多模态推理数据 ?

为解答这一疑问,来自中国科学技术大学、上海人工智能实验室、上海交通大学等机构的研究团队,在 ICLR 2026 发表了最新成果:Vlaser (Vision-Language-Action Model with Synergistic Embodied Reasoning) 。Vlaser 不仅是一个具备协同具身推理能力的 VLA 模型,更是一项关于“如何高效构建机器人大脑”的系统性研究 。团队通过构建高质量的 Vlaser-6M 数据集,在 13 个上游具身推理(Embodied Reasoning)基准测试中取得了最优效果 。

同时,通过将 VLM 在不同配比的 Vlaser-6M 数据集上微调并作为 VLA 训练的初始化权重,研究团队揭示了一个关键洞见:相比于通用的多模态推理数据,缩短感知与推理数据与真实机器人视角的‘‘域差距(Domain Gap)”,才是提升 VLA 性能的核心 。特别地,针对特定具身第一视角的域内(In-domain)数据进行预训练的 VLM,对下游 VLA 的后训练收敛和成功率提升有显著增益 。

由于利用自动化标注管线,针对域内机器人场景生成的 VQA 数据具有低成本、标准化的优势,这一发现很大程度上缓解了 VLA 后训练对大量真机遥操轨迹数据的依赖,为从 VLM 预训练到 VLA 后训练的迁移提供了一种高效的数据范式 。训练数据、自动化标注管线、模型和代码均已开源或即将开源 。

原文链接:ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键?
  • 论文链接:https://arxiv.org/pdf/2510.11027v2
  • 项目主页:https://internvl.github.io/blog/2025-10-11-Vlaser/
  • 代码开源:https://github.com/OpenGVLab/Vlaser

二、核心设计与数据引擎

1. Vlaser-6M 数据引擎:百万级高质量数据

为了武装机器人的大脑,研究团队构建了包含 600 万条数据的数据引擎,覆盖了具身智能所需的三大核心能力 :

  • 具身定位(Embodied Grounding): 包含 150 万条高质量问答对,支持 Bounding Box 和中心点定位,让机器人“看得准” 。
  • 空间智能(Spatial Intelligence): 整合了 120 万条 RoboVQA 和 50 万条空间推理数据,增强机器人对三维空间关系的理解 。
  • 任务规划(Planning): 包含 40 万条规划数据,训练机器人将复杂指令拆解为可执行的子步骤 。
  • 仿真域内数据(In-Domain Data):关键! 针对 WidowX、Google Robot 和 RoboTwin2.0 三个仿真平台,利用 Qwen2.5VL-7B 构建自动化标注管线,生成了 200 万条基于机器人第一视角(In-domain)的 VQA 数据(涵盖具身定位、空间关系与任务规划),用于 VLM 的有监督微调(SFT)。其中一个实例的system prompt和所产生的域内数据如下:

2. 模型架构:Flow Matching 强力驱动

Vlaser 采用了经典的VLM Backbone + Action Expert架构 :

  • VLM Backbone: 基于 InternVL3(2B 和 8B 版本),负责处理视觉和语言输入,提供强大的感知特征 。
  • Action Expert: 引入流匹配(Flow Matching)技术作为动作生成模块。该模块作为独立的 Action Expert,处理机器人状态与动作 Token,实现端到端的动作预测 。

三、实验结果:全方位的 SOTA 与数据范式验证

1. 上游具身推理能力(Embodied Reasoning)评估

Vlaser 模型基于 InternVL3 底座,利用构建的 Vlaser-6M 数据集进行了全参数微调(SFT)。在涵盖 Embodied QA、任务规划(Planning)、具身定位(Embodied Grounding)、空间推理(Spatial Reasoning)及仿真模拟(Simulation)13 个主流具身推理基准的综合评估中,Vlaser 展现了令人瞩目的效果。

  • Vlaser-8B (SOTA): 在同等规模模型中,Vlaser-8B 平均分高达 51.3。这一成绩显著超越了 GPT-4o (34.2)Gemini-2.5-Pro (44.4) 等闭源模型,以及 RoboBrain2.0-7B (37.0)Embodied-R1-7B (38.9) 等同类具身多模态大脑大模型。
  • Vlaser-2B (高效能): 即便是轻量级的 Vlaser-2B,也取得了 45.3 的 SOTA 平均分。值得注意的是,其在具身定位(Embodied Grounding)能力上已与 8B 模型相当。考虑到下游 VLA 模型对推理效率的追求,我们将 Vlaser-2B 选定为探索下游 VLA 迁移规律的基座模型。

2. 下游机器人控制仿真评测:揭秘“域内数据”的决定性作用

为了探究何种数据能真正提升机器人的操控能力,我们基于 Vlaser-2B 设计了一项严谨的自对比消融研究。我们构建了不同的预训练数据配比,并保持下游 VLA 后训练的配方一致,以此剥离出不同数据源的净贡献。

实验设置:

  • 基线模型:InternVL3-2B(无具身数据微调)与 Vlaser-OOD(仅使用 Vlaser-6M 中的域外通用推理数据微调,不含任何仿真域内数据)。
  • 域内数据变体: 针对仿真平台生成的域内(In-Domain)数据,我们细分为三类:具身问答(含规划)、具身空间智能具身定位 (打点、框),分别对应模型 Vlaser-QAVlaser-SpatialVlaser-Grounding
  • 全量模型:Vlaser-All,整合上述三种域内数据进行全量微调。

我们在 Bridge (SimplerEnv)Fractal (SimplerEnv) 以及 RoboTwin2.0 三大仿真平台上进行了广泛验证,结果不仅一致且极具启发性:

  • WidowX 机器人任务:Vlaser-All (2B) 模型的平均成功率飙升至 65.1%,相比于基线 InternVL3-2B (41.8%) 和仅使用通用推理数据的 Vlaser-OOD (43.2%),实现了质的飞跃。
  • Google Robot 任务: 引入域内数据微调的模型展现出全面优势,成功率分别达到 72.9%、72.3%、73.6%,而全量模型 Vlaser-All 更是达到了 76.2%,显著优于基线的 64.0% 和 68.7%。
  • RoboTwin2.0 双臂任务: 在覆盖短、中、长程的 12 个双臂操作任务中,使用域内数据微调的模型相比 Baseline 取得了 +10% 的成功率增益,有力证明了该数据范式对不同机器人实体和任务类型的强大泛化性。

实验结果揭示了一个反直觉但至关重要的规律:

  • 通用推理 ≠ \neq = 控制能力: 仅使用通用具身推理数据(Vlaser-OOD)虽然提升了上游 VQA 分数,但并未在下游控制任务中带来明显的性能提升,其成功率与基线模型持平。这表明,常见的具身推理基准测试与底层闭环控制性能之间不存在显著的正相关
  • 域内感知是核心: 相反,所有引入域内数据(In-Domain)的模型 — 无论是 QA、空间还是定位数据,都带来了显著的性能提升。这说明,互联网数据与机器人实体之间的“域差距(Domain Gap)”是限制性能的瓶颈。通过在同一观察域内增强模型对特定的具身第一视角图片的感知能力,可以有效打破这一瓶颈。
  • 全能数据配方: 整合所有类型的域内数据(Vlaser-All)能进一步推高成功率天花板。这表明,一个涵盖通用问答、精细定位和空间智能的多元化域内数据组合,是促进 VLA 策略迁移、提升任务成功率的最佳实践。

四、总结

本研究提出了 Vlaser,一种协同具身推理与端到端控制的基础视觉-语言-动作模型,并通过构建 Vlaser-6M 数据集在 13 项具身推理基准中实现了 SOTA 性能 。通过系统性的消融实验,我们揭示了 VLM 向 VLA 迁移的关键定律:通用的多模态具身推理能力与底层控制性能无显著正相关,而缩短感知数据与真实机器人视角之间的域差距才是提升控制成功率的决定性因素 。基于此,本工作证明了**利用自动化管线生成的标准化、低成本的机器人第一视角 VQA 数据(In-Domain Data),能够有效替代部分昂贵的真机遥操数据用于模型预热 。**这意味着未来的具身智能 Scaling 不应仅依赖于堆砌通用的互联网数据,研究重心应转向构建低成本、自动化的域内数据生成管线,通过对齐感知域来弥合基础模型与物理世界之间的鸿沟,从而实现从 VLM 到 VLA 的高效迁移 。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Read more

WebStorm对个人免费开放

WebStorm对个人免费开放

前端开发的普惠革命:JetBrains WebStorm 非商业免费政策深度解析 2024 年 10 月 24 日,正值程序员节来临之际,JetBrains 抛出重磅消息:旗下旗舰级前端开发 IDE WebStorm 正式对非商业用途用户全面免费开放。这一举措不仅延续了 RustRover 的免费许可模式,更标志着专业级 Web 开发工具向大众化普及迈出了关键一步,为全球千万前端开发者带来了实质性利好。 一、政策内核:清晰界定的免费边界与权益 1. 非商业用途的精准定义 JetBrains 在 Toolbox 订阅协议中明确划分了免费使用的适用场景,覆盖群体远超传统教育优惠范畴: * 核心免费场景:包括前端技术学习与技能提升、无商业收益的开源项目贡献、技术博客 / 视频教程等内容创作、个人兴趣导向的 Web 开发(如自制工具、创意 demo)。值得注意的是,即使内容创作通过广告产生间接收益,仍属于非商业范畴。 * 商业付费边界:任何直接或间接获取经济收益的开发活动均需付费,

ClawdBot入门指南:Web控制台Config→Models→Providers模型切换实操

ClawdBot入门指南:Web控制台Config→Models→Providers模型切换实操 1. 什么是ClawdBot?一个真正属于你的本地AI助手 ClawdBot不是另一个云端API调用工具,也不是需要反复注册、绑定手机号的SaaS服务。它是一个能完整运行在你自己的设备上的个人AI助手——从模型推理、对话管理到多渠道接入,全部离线可控。 它的后端核心由vLLM驱动,这意味着你能享受到接近商用级的推理速度和显存利用率,同时完全掌握数据主权。不需要上传任何聊天记录,不依赖外部服务器稳定性,也不用担心某天服务突然下线。你装好,它就在;你关机,它就停;你改配置,它立刻响应。 更关键的是,ClawdBot的设计哲学是「可理解、可调试、可演进」。它的配置不是藏在层层GUI背后的黑盒,而是以清晰结构化的JSON文件呈现;它的模型切换不靠神秘按钮,而是一次明确的路径导航:Config → Models → Providers;它的扩展不依赖插件市场,而是通过标准OpenAI兼容接口,轻松对接你本地部署的任意vLLM、Ollama或FastChat服务。 换句话说,ClawdBo

和智慧生活商城系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

和智慧生活商城系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

💡实话实说: C有自己的项目库存,不需要找别人拿货再加价。 摘要 随着信息技术的飞速发展和电子商务的普及,智慧生活商城系统逐渐成为现代商业运营的重要组成部分。传统的商城管理模式面临着效率低下、数据冗余、用户体验差等诸多问题,亟需通过信息化手段进行优化升级。智慧生活商城系统旨在整合线上线下资源,为用户提供便捷、高效的购物体验,同时为商家提供智能化的管理工具。该系统通过先进的信息管理系统,实现商品管理、订单处理、用户交互等核心功能的自动化与智能化,从而提升整体运营效率和服务质量。关键词:智慧生活商城、信息管理系统、电子商务、智能化、SpringBoot。 智慧生活商城系统采用SpringBoot作为后端框架,结合Vue.js前端技术和MySQL数据库,构建了一套高效、稳定、可扩展的全栈解决方案。SpringBoot提供了强大的后端支持,简化了开发流程,提高了系统的可维护性;Vue.js则以其响应式特性和组件化开发模式,为用户提供了流畅的交互体验;MySQL作为关系型数据库,确保了数据的安全性和一致性。系统功能涵盖用户管理、商品分类与展示、购物车与订单管理、支付集成以及数据分析等模

前端GEO优化:AI时代的SEO新战场

前端GEO优化:AI时代的SEO新战场

前端工程师的GEO入门指南:在AI搜索时代优化内容可见度 1. 什么是GEO?前端为何要关注? 作为前端开发者,你可能已经熟悉SEO(搜索引擎优化),但GEO(生成式引擎优化)是一个新概念。简单来说,GEO是通过优化内容结构、语义表达和技术特征,提高其被ChatGPT、文心一言等大语言模型在生成回答时检索到、理解和引用的概率。 前端工作者需要关注GEO,因为:我们的工作不再只是让内容对人类友好,还需要让AI易于理解和引用。当用户向AI提问时,你的内容能否成为AI答案的引用来源,直接决定了你在AI时代的可见度。 2. GEO与传统SEO的核心区别 理解GEO与SEO的差异是学习的第一步: 维度传统SEOGEO(生成式引擎优化)目标提升搜索引擎排名提升内容被AI引用的概率优化对象搜索引擎爬虫和排名算法AI大模型(如GPT-4等)内容偏好关键词密度、外链数量语义相关性、内容权威性成功指标关键词排名、点击率AI引用频率、品牌提及量 前端工作在GEO时代的变化:我们不再只是优化标签和关键词,而是需要让内容机器可读性更强,结构化更清晰。 3. 前端工作者必备的GEO核