机器人为什么总在“最后一厘米”失败?RoboBrain 2.5 给出解法

机器人为什么总在“最后一厘米”失败?RoboBrain 2.5 给出解法

过去一年,具身智能的“视觉理解 + 语言推理”进步明显,但从实验室演示走向真实部署,经常遇到“看得见”但“做不对”的问题。这源于两个长期被低估的关键短板:空间维度的度量盲区,以及时间维度的过程建模不足。

在空间不准上,模型虽能理解2D图像中的目标与关系,却缺乏将其转化为真实尺度下可执行3D轨迹的能力,导致抓取、装配等操作因深度、距离等物理度量不准而失败;在过程不稳上,多数模型仍将动作生成简化为静态序列预测,依赖稀疏的成功标签,无法对操作过程中出现的打滑、偏移等动态变化做出实时评估与调整,致使长任务难以稳定完成。

这就要求新一代具身模型,需要把空间能力从“2D 指点”升级为“精确 3D 规划”,满足物理世界的度量约束与可执行性要求。

智源研究院正式发布新一代具身智能大脑基础模型 RoboBrain 2.5。作为 RoboBrain 系列的最新版本,RoboBrain 2.5 在延续通用感知、空间推理与时序建模能力底座的基础上,通过更大规模的高质量时空监督训练,完成了两项面向真实物理世界的关键升级:Precise 3D Spatial Reasoning(精确 3D 空间推理)与 Dense Temporal Value Estimation(稠密时序价值预测),让机器人不仅能理解任务,更能在物理约束与过程反馈中把任务做对,推动具身智能从“能看懂、能说清”,迈向“能落手、做得准、做得稳”。

RoboBrain 2.5

01 RoboBrain2.5:空间能力与时间能力的协同升级

RoboBrain2.5在具身智能的两项关键能力维度上实现系统性升级:Spatial(空间)与Temporal(时间)。空间侧强调 Depth in Sight —— 从 2D grounding 走向具备真实尺度约束的 3D 规划与轨迹生成;时间侧强调 Time in Mind —— 从结果监督走向可泛化、可闭环的稠密进度与价值评估。

二者形成有机协同:前者保障动作在几何意义上可执行,后者保障执行过程中可感知、可纠错、可恢复,共同将具身系统从 demo 级成功,推进到更接近真实部署需求的稳定可靠。

  • Depth in Sight:精确 3D 空间理解

传统具身模型多将空间输出限制在“单点 / 单目标”层面,即预测一个目标位置作为动作触发条件。RoboBrain 2.5 将空间输出接口扩展为完整操作过程的轨迹级表达:模型不再只给出一个落点,而是输出有序的关键点序列,用于描述从起始状态到目标状态的完整操作流程,从而在表示层面同时编码空间规划与步骤结构。

这一能力被拆解为三类互补的空间技能:

  1. 3D Spatial Referring:定位目标在图像中完成目标对象与关键部位的 3D 定位,为后续动作提供“落点依据”。
  2. 3D Spatial Measuring:理解真实尺度估计真实世界的绝对度量量(如距离、间隙、悬停高度等),满足装配、贴合、避障等任务对“厘米/毫米级”约束的要求。
  3. 3D Spatial Trace Generation:生成可执行轨迹输出“符合碰撞约束的可执行关键点轨迹”,让机器人具备更强的几何可行性与动作连贯性。

RoboBrain 2.5 采用可解耦的 (u, v, d) 表示:每个点由图像平面坐标 (u, v) 与绝对深度 d构成,并可通过相机内参直接投影到 3D 坐标系,从而避免让大模型“暗自学习相机几何”,让训练更直接、输出更可控、系统对接更工程化。更重要的是,这一表示还可向下兼容:去掉深度就是 2D 轨迹,只保留起终点可变成 3D/2D referring 数据,使得多任务协同训练更自然,进一步夯实通用具身能力底座。

图片
  • Time in Mind:稠密时序价值预测与闭环可靠性

真实物理世界中的长时任务,并不缺少动作序列,而是缺乏过程级监督:当前执行到了哪一步?是在有效推进、停滞、偏离,还是已经发生失败?为此,RoboBrain 2.5 引入 Dense Temporal Value Estimation(稠密时序价值预测),基于视觉观测对任务进度进行步级别、连续评估,为下游控制与策略学习提供可随时调用的价值信号。

长时程操作需要的不只是最终成功信号,而是连续、细粒度的反馈来引导复杂中间状态。RoboBrain 2.5 通过稠密价值估计补上了这块短板,为闭环控制与高效强化学习提供基础,实现了从“稀疏成功标签”到“稠密进度反馈”的跃进。

为降低长轨迹执行中的误差累积、提升多视角鲁棒性,RoboBrain 2.5 从三个互补视角生成并融合进度估计信号:

  1. 增量式(Incremental):精细捕捉局部动态,但易累积漂移。
  2. 前向锚定(Forward-anchored):以初始状态为全局参照,更稳定。
  3. 后向锚定(Backward-anchored):以目标状态为参照,对接近完成阶段更敏感。

三者融合后,得到更具抗漂移能力的价值信号,用于支持长时闭环执行。

在 Online RL 场景,策略会探索训练数据没覆盖到的状态,价值模型可能输出“虚高信号”,引发 reward hacking 风险。RoboBrain 2.5 引入双向一致性校验(Bi-directional consistency checking),以不同时间锚定视角间的一致性作为可靠性代理,有效降低 OOD 状态下价值幻觉对学习过程的误导。

图片

02 渐进式双阶段训练路线,实现“先通用、再精确”

RoboBrain 2.5 延续并强化渐进式双阶段训练路线,以先构建强泛化通用能力,再引入严格物理约束的方式,系统性提升具身智能在真实直接的可执行性与可靠性。

  • 阶段 1(Foundational Spatiotemporal Learning,通用时空基础)

RoboBrain 2.5 先通过大规模通用时空学习搭建“Generalist Brain”,把具身智能在真实环境中最通用、最底层的能力先打牢——既能稳定理解视觉语义与语言指令,又能完成 2D grounding 并形成对三维空间的定性认知,同时具备基础的任务规划与时间逻辑理解(包括基于对比学习的时间价值判断)。这一阶段的作用是提供一个强鲁棒、强泛化的初始化,让模型先“看得懂、想得通”,为后续引入更严格的物理约束与精确监督打下可迁移的通用底座。

  • 阶段 2(Specific Spatiotemporal Enhancement,特定时空增强)

在通用能力稳定之后,RoboBrain 2.5 将训练重心进一步压向“物理可执行性”与“闭环可控性”,通过两条强化路径把语义推理落到真实动作层面:一方面引入面向度量的 3D 轨迹学习(Metric-Aware 3D Tracing),让模型从定性空间关系迈向定量几何约束,能够学习绝对 3D 坐标、深度轨迹以及可度量距离,从而输出在真实尺度下可执行的操作关键点与轨迹;另一方面升级时序建模为稠密价值估计(Dense Value Estimation),把原先的两两比较式时间价值学习推进为显式的 Hop/进度预测,使模型具备可直接用作价值函数(critic)的在线反馈能力,进而支持策略排序、过程监控与错误恢复等闭环需求。与此同时,通过在这一阶段引入数据 replay,将第一阶段的部分数据混入训练,抑制“学精确能力时遗忘通用能力”的风险,实现“通用不掉线、精确再跃迁”的协同增益。

图片

RoboBrain 2.5 的训练数据分布。左侧饼图展示了数据集的层级构成,按领域划分为时序(红色)、通用(青绿色)和空间(蓝色)。右侧柱状图以对数坐标展示各具体能力维度/任务的训练样本数量。

在多项空间推理与时序价值估计基准任务上,RoboBrain 2.5 取得了新的SOTA表现。这并非单点能力的提升,而是空间(可执行)与时间(可闭环)两条能力链路的同步补齐,使模型整体更接近真实机器人系统对“可控性与可靠性”的核心需求。

图片

在空间推理与时序价值估计等关键基准上,RoboBrain 2.5 的优势更体现为“整体补齐”。对通用基线而言,2D 空间推理平均分75.82高于Gemini-3-Pro-Preview(66.14)Qwen3-VL-8B-Inst.(64.18)GPT-5.2(49.33);对具身基线而言,2D 平均分从RoboBrain-2.0(54.96)Mimo-Embodied(58.97)提升至75.82,并在跨视图对应能力CrossPoint榜单上呈现更为明显的领先。进一步在更强调可执行性的3D任务上,RoboBrain 2.5 在TraceSpatial 取得3D Start/End/Success = 83/63/44,显著高于Gemini-3-Pro-Preview(30/25/7)Qwen3-VL-8B-Inst.(30/18/6)与 GPT-5.2(23/19/0),凸显其在真实尺度几何约束与可执行轨迹生成上的优势;此外在时序价值估计中,RoboBrain 2.5 在多个数据源上保持更强的正负一致性(如DROID 90.82/90.07、LIBERO 98.97/98.94),相比通用模型常见的“VOC+ 较高但 VOC− 偏弱”(如GPT-5.2:91.45/15.29),更有利于闭环学习与在线纠错。

图片

真实世界评测验证了 RoboBrain 2.5 在接触丰富任务(contact-rich tasks)中展现出更强的 zero-shot 鲁棒性,能更有效地将 demo 级成功转化为部署级可靠性。这对产业落地尤为关键:很多失败并不是“看不懂指令”,而是“过程不稳、空间不准”,RoboBrain 2.5 正面命中这两类核心问题。

在工程可扩展性方面,智源研究院基于其众智FlagOS多芯片统一AI系统软件栈,推出了面向具身智能的训推一体化多芯片框架 FlagOS-Robo。基于此框架,本次 RoboBrain2.5 项目在包括摩尔线程(Moore-Threads)在内的多种AI芯片集群上,完成了完整的端到端训练与对齐验证。实验结果表明,其训练损失值(loss)对齐,训练趋势一致,最终loss差异仅为 0.62%。在下游任务的多个评测集上,模型效果也实现了对齐。这为项目更大规模的持续迭代与产业部署奠定了坚实的工程基础。同时,借助 FlagOS-Robo,用户可以将基于各类AI芯片平台(如摩尔线程、华为昇腾等)的训练成果,无缝迁移至多种端侧AI芯片平台(如天数智芯、英伟达等)进行推理验证,从而实现 “训练-推理跨芯片” 的灵活交叉使用。这充分证明了该框架在利用多元异构芯片进行大模型训练时的可用性与易用性。

03具身智能的下一步,是“物理可验证性 + 过程可度量性”

RoboBrain 2.5 传递出一个更明确的方向:具身智能迈向通用与规模化,关键不只在更会推理,更在于与物理世界对齐、并具备可持续的闭环优化能力。面向下一阶段,团队将继续围绕世界模型式的预测与规划、更丰富本体与真实场景的验证迭代、适配不同部署需求的模型形态演进,以及数据—模型协同的自增强机制等方向推进,让具身智能从能力领先走向工程可用与规模化落地。

RoboBrain2.5的技术突破,根植于智源在具身智能领域的长期深耕与系统专研。为赋能具身智能技术研发,智源已经构建出以具身大脑为核心,自底向上全栈具身智能技术体系,包括能够跨异构本体数据采集以及标准化一站式平台,具身大小脑以及VLA等具身基座模型,还有具身智能评测等,为具身技术生态提供了一套可复现、可对齐的公共基础设施,持续降低从研究到产业化落地的门槛,加速实现具身智能的产业与社会价值。

下载与使用:

  • 项目主页:https://superrobobrain.github.io
  • 技术报告:https://arxiv.org/abs/2601.14352
  • Github:https://github.com/FlagOpen/RoboBrain2.5
  • 模型权重:https://huggingface.co/collections/BAAI/robobrain25
  • RoboBrain2.5多芯片适配:https://huggingface.co/FlagRelease

Read more

OpenClaw 新手指南:从零开始的 AI 机器人搭建完全攻略

OpenClaw 新手指南:从零开始的 AI 机器人搭建完全攻略 想随时随地通过微信、飞书、Telegram 等平台与 AI 助手对话?OpenClaw 帮你实现。 为什么选择 OpenClaw? OpenClaw 是一个开源的自托管 AI 网关,让你可以在自己服务器上运行一个 central hub,连接所有聊天平台到强大的 AI 模型(如 Claude、GPT、Pi、Kimi 等)。 核心优势: * ✅ 数据完全掌控(自托管,隐私安全) * ✅ 多平台统一管理(一个网关服务所有渠道) * ✅ 无代码扩展(通过技能系统) * ✅ 24/7 可用(开机自启动) * ✅ 日志和记忆(支持长期对话) 10个核心技巧详解 技巧 1:快速安装与配置 适用场景:

基于2-RSS-1U的双足机器人并联踝关节分析与实现

基于2-RSS-1U的双足机器人并联踝关节分析与实现

"当你的机器人开始像人类一样思考如何走路时,你会发现,原来最复杂的不是大脑,而是脚踝。"这句话在机器人学界越来越成为共识。论文ASAP中的研究也证实,在sim2real中,偏差最大的正是踝关节控制。 参考文献:On the Comprehensive Kinematics Analysis of a Humanoid Parallel Ankle Mechanism 结构变体:Structural design and motion analysis of parallel ankle joints for humanoid robots 脚踝革命:深入解析人形机器人高性能并联踝关节 传统的单轴踝关节设计,就像给机器人穿了一双"高跟鞋"——虽然能走,但走得很僵硬,很危险。我们需要的是像人类脚踝一样的灵活性:既能前后摆动(pitch),又能左右倾斜(roll)

最新 neo4j 5.26版本下载安装配置步骤(新手必备)

最新 neo4j 5.26版本下载安装配置步骤(新手必备)

目录 初识:neo4j 安装环境要求 一、下载Neo4j 二、配置环境变量 三、启动测试 四、常用命令及配置 创作不易,禁止转载抄袭!!!违者必究!!! 创作不易,禁止转载抄袭!!!违者必究!!! 创作不易,禁止转载抄袭!!!违者必究!!! 初识:neo4j Neo4j是一个高性能的NoSQL图形数据库,它将结构化数据存储在网络(从数学角度称为图)上而不是传统的表中。‌ Neo4j是一个嵌入式的、基于磁盘的、具备完全事务特性的Java持久化引擎,特别适合处理具有复杂关系的数据‌。 安装环境要求 * 操作系统:Windows 10/8/7、macOS 10.13或更高版本、Linux(Ubuntu、CentOS、Red Hat 等) * JDK 17 或更高版本(Neo4j

【本地Docker部署开源低代码开发神器Appsmith与远程访问在线使用】

【本地Docker部署开源低代码开发神器Appsmith与远程访问在线使用】

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结 java 核心技术,jvm,并发编程 redis,kafka,Spring,微服务等常用开发工具系列:常用的开发工具,IDEA,Mac,Alfred,Git,typora 等数据库系列:详细总结了常用数据库 mysql 技术点,以及工作中遇到的 mysql 问题等新空间代码工作室:提供各种软件服务,承接各种毕业设计,毕业论文等懒人运维系列:总结好用的命令,解放双手不香吗?能用一个命令完成绝不用两个操作数据结构与算法系列:总结数据结构和算法,不同类型针对性训练,提升编程思维,剑指大厂 非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。💝💝💝 ✨✨ 欢迎订阅本专栏 ✨✨ 博客目录 * 前言