机器人为什么总在“最后一厘米”失败？RoboBrain 2.5 给出解法

优质文章学习记录

09 Apr 2026 — 13 min read

过去一年，具身智能的“视觉理解 + 语言推理”进步明显，但从实验室演示走向真实部署，经常遇到“看得见”但“做不对”的问题。这源于两个长期被低估的关键短板：空间维度的度量盲区，以及时间维度的过程建模不足。

在空间不准上，模型虽能理解2D图像中的目标与关系，却缺乏将其转化为真实尺度下可执行3D轨迹的能力，导致抓取、装配等操作因深度、距离等物理度量不准而失败；在过程不稳上，多数模型仍将动作生成简化为静态序列预测，依赖稀疏的成功标签，无法对操作过程中出现的打滑、偏移等动态变化做出实时评估与调整，致使长任务难以稳定完成。

这就要求新一代具身模型，需要把空间能力从“2D 指点”升级为“精确 3D 规划”，满足物理世界的度量约束与可执行性要求。

智源研究院正式发布新一代具身智能大脑基础模型 RoboBrain 2.5。作为 RoboBrain 系列的最新版本，RoboBrain 2.5 在延续通用感知、空间推理与时序建模能力底座的基础上，通过更大规模的高质量时空监督训练，完成了两项面向真实物理世界的关键升级：Precise 3D Spatial Reasoning（精确 3D 空间推理）与 Dense Temporal Value Estimation（稠密时序价值预测），让机器人不仅能理解任务，更能在物理约束与过程反馈中把任务做对，推动具身智能从“能看懂、能说清”，迈向“能落手、做得准、做得稳”。

RoboBrain 2.5

01 RoboBrain2.5：空间能力与时间能力的协同升级

RoboBrain2.5在具身智能的两项关键能力维度上实现系统性升级：Spatial（空间）与Temporal（时间）。空间侧强调 Depth in Sight —— 从 2D grounding 走向具备真实尺度约束的 3D 规划与轨迹生成；时间侧强调 Time in Mind —— 从结果监督走向可泛化、可闭环的稠密进度与价值评估。

二者形成有机协同：前者保障动作在几何意义上可执行，后者保障执行过程中可感知、可纠错、可恢复，共同将具身系统从 demo 级成功，推进到更接近真实部署需求的稳定可靠。

Depth in Sight：精确 3D 空间理解

传统具身模型多将空间输出限制在“单点 / 单目标”层面，即预测一个目标位置作为动作触发条件。RoboBrain 2.5 将空间输出接口扩展为完整操作过程的轨迹级表达：模型不再只给出一个落点，而是输出有序的关键点序列，用于描述从起始状态到目标状态的完整操作流程，从而在表示层面同时编码空间规划与步骤结构。

这一能力被拆解为三类互补的空间技能：

3D Spatial Referring：定位目标在图像中完成目标对象与关键部位的 3D 定位，为后续动作提供“落点依据”。
3D Spatial Measuring：理解真实尺度估计真实世界的绝对度量量（如距离、间隙、悬停高度等），满足装配、贴合、避障等任务对“厘米/毫米级”约束的要求。
3D Spatial Trace Generation：生成可执行轨迹输出“符合碰撞约束的可执行关键点轨迹”，让机器人具备更强的几何可行性与动作连贯性。

RoboBrain 2.5 采用可解耦的 (u, v, d) 表示：每个点由图像平面坐标 (u, v) 与绝对深度 d构成，并可通过相机内参直接投影到 3D 坐标系，从而避免让大模型“暗自学习相机几何”，让训练更直接、输出更可控、系统对接更工程化。更重要的是，这一表示还可向下兼容：去掉深度就是 2D 轨迹，只保留起终点可变成 3D/2D referring 数据，使得多任务协同训练更自然，进一步夯实通用具身能力底座。

Time in Mind：稠密时序价值预测与闭环可靠性

真实物理世界中的长时任务，并不缺少动作序列，而是缺乏过程级监督：当前执行到了哪一步？是在有效推进、停滞、偏离，还是已经发生失败？为此，RoboBrain 2.5 引入 Dense Temporal Value Estimation（稠密时序价值预测），基于视觉观测对任务进度进行步级别、连续评估，为下游控制与策略学习提供可随时调用的价值信号。

长时程操作需要的不只是最终成功信号，而是连续、细粒度的反馈来引导复杂中间状态。RoboBrain 2.5 通过稠密价值估计补上了这块短板，为闭环控制与高效强化学习提供基础，实现了从“稀疏成功标签”到“稠密进度反馈”的跃进。

为降低长轨迹执行中的误差累积、提升多视角鲁棒性，RoboBrain 2.5 从三个互补视角生成并融合进度估计信号：

增量式（Incremental）：精细捕捉局部动态，但易累积漂移。
前向锚定（Forward-anchored）：以初始状态为全局参照，更稳定。
后向锚定（Backward-anchored）：以目标状态为参照，对接近完成阶段更敏感。

三者融合后，得到更具抗漂移能力的价值信号，用于支持长时闭环执行。

在 Online RL 场景，策略会探索训练数据没覆盖到的状态，价值模型可能输出“虚高信号”，引发 reward hacking 风险。RoboBrain 2.5 引入双向一致性校验（Bi-directional consistency checking），以不同时间锚定视角间的一致性作为可靠性代理，有效降低 OOD 状态下价值幻觉对学习过程的误导。

02 渐进式双阶段训练路线，实现“先通用、再精确”

RoboBrain 2.5 延续并强化渐进式双阶段训练路线，以先构建强泛化通用能力，再引入严格物理约束的方式，系统性提升具身智能在真实直接的可执行性与可靠性。

阶段 1（Foundational Spatiotemporal Learning，通用时空基础）

RoboBrain 2.5 先通过大规模通用时空学习搭建“Generalist Brain”，把具身智能在真实环境中最通用、最底层的能力先打牢——既能稳定理解视觉语义与语言指令，又能完成 2D grounding 并形成对三维空间的定性认知，同时具备基础的任务规划与时间逻辑理解（包括基于对比学习的时间价值判断）。这一阶段的作用是提供一个强鲁棒、强泛化的初始化，让模型先“看得懂、想得通”，为后续引入更严格的物理约束与精确监督打下可迁移的通用底座。

阶段 2（Specific Spatiotemporal Enhancement，特定时空增强）

在通用能力稳定之后，RoboBrain 2.5 将训练重心进一步压向“物理可执行性”与“闭环可控性”，通过两条强化路径把语义推理落到真实动作层面：一方面引入面向度量的 3D 轨迹学习（Metric-Aware 3D Tracing），让模型从定性空间关系迈向定量几何约束，能够学习绝对 3D 坐标、深度轨迹以及可度量距离，从而输出在真实尺度下可执行的操作关键点与轨迹；另一方面升级时序建模为稠密价值估计（Dense Value Estimation），把原先的两两比较式时间价值学习推进为显式的 Hop/进度预测，使模型具备可直接用作价值函数（critic）的在线反馈能力，进而支持策略排序、过程监控与错误恢复等闭环需求。与此同时，通过在这一阶段引入数据 replay，将第一阶段的部分数据混入训练，抑制“学精确能力时遗忘通用能力”的风险，实现“通用不掉线、精确再跃迁”的协同增益。

RoboBrain 2.5 的训练数据分布。左侧饼图展示了数据集的层级构成，按领域划分为时序（红色）、通用（青绿色）和空间（蓝色）。右侧柱状图以对数坐标展示各具体能力维度/任务的训练样本数量。

在多项空间推理与时序价值估计基准任务上，RoboBrain 2.5 取得了新的SOTA表现。这并非单点能力的提升，而是空间（可执行）与时间（可闭环）两条能力链路的同步补齐，使模型整体更接近真实机器人系统对“可控性与可靠性”的核心需求。

在空间推理与时序价值估计等关键基准上，RoboBrain 2.5 的优势更体现为“整体补齐”。对通用基线而言，2D 空间推理平均分75.82高于Gemini-3-Pro-Preview（66.14）、Qwen3-VL-8B-Inst.（64.18）、GPT-5.2（49.33）；对具身基线而言，2D 平均分从RoboBrain-2.0（54.96）、Mimo-Embodied（58.97）提升至75.82，并在跨视图对应能力CrossPoint榜单上呈现更为明显的领先。进一步在更强调可执行性的3D任务上，RoboBrain 2.5 在TraceSpatial 取得3D Start/End/Success = 83/63/44，显著高于Gemini-3-Pro-Preview（30/25/7）、Qwen3-VL-8B-Inst.（30/18/6）与 GPT-5.2（23/19/0），凸显其在真实尺度几何约束与可执行轨迹生成上的优势；此外在时序价值估计中，RoboBrain 2.5 在多个数据源上保持更强的正负一致性（如DROID 90.82/90.07、LIBERO 98.97/98.94），相比通用模型常见的“VOC+ 较高但 VOC− 偏弱”（如GPT-5.2：91.45/15.29），更有利于闭环学习与在线纠错。

真实世界评测验证了 RoboBrain 2.5 在接触丰富任务（contact-rich tasks）中展现出更强的 zero-shot 鲁棒性，能更有效地将 demo 级成功转化为部署级可靠性。这对产业落地尤为关键：很多失败并不是“看不懂指令”，而是“过程不稳、空间不准”，RoboBrain 2.5 正面命中这两类核心问题。

在工程可扩展性方面，智源研究院基于其众智FlagOS多芯片统一AI系统软件栈，推出了面向具身智能的训推一体化多芯片框架 FlagOS-Robo。基于此框架，本次 RoboBrain2.5 项目在包括摩尔线程（Moore-Threads）在内的多种AI芯片集群上，完成了完整的端到端训练与对齐验证。实验结果表明，其训练损失值（loss）对齐，训练趋势一致，最终loss差异仅为 0.62%。在下游任务的多个评测集上，模型效果也实现了对齐。这为项目更大规模的持续迭代与产业部署奠定了坚实的工程基础。同时，借助 FlagOS-Robo，用户可以将基于各类AI芯片平台（如摩尔线程、华为昇腾等）的训练成果，无缝迁移至多种端侧AI芯片平台（如天数智芯、英伟达等）进行推理验证，从而实现 “训练-推理跨芯片” 的灵活交叉使用。这充分证明了该框架在利用多元异构芯片进行大模型训练时的可用性与易用性。

03具身智能的下一步，是“物理可验证性 + 过程可度量性”

RoboBrain 2.5 传递出一个更明确的方向：具身智能迈向通用与规模化，关键不只在更会推理，更在于与物理世界对齐、并具备可持续的闭环优化能力。面向下一阶段，团队将继续围绕世界模型式的预测与规划、更丰富本体与真实场景的验证迭代、适配不同部署需求的模型形态演进，以及数据—模型协同的自增强机制等方向推进，让具身智能从能力领先走向工程可用与规模化落地。

RoboBrain2.5的技术突破，根植于智源在具身智能领域的长期深耕与系统专研。为赋能具身智能技术研发，智源已经构建出以具身大脑为核心，自底向上全栈具身智能技术体系，包括能够跨异构本体数据采集以及标准化一站式平台，具身大小脑以及VLA等具身基座模型，还有具身智能评测等，为具身技术生态提供了一套可复现、可对齐的公共基础设施，持续降低从研究到产业化落地的门槛，加速实现具身智能的产业与社会价值。

下载与使用：

项目主页：https://superrobobrain.github.io
技术报告：https://arxiv.org/abs/2601.14352
Github:https://github.com/FlagOpen/RoboBrain2.5
模型权重：https://huggingface.co/collections/BAAI/robobrain25
RoboBrain2.5多芯片适配：https://huggingface.co/FlagRelease

机器人为什么总在“最后一厘米”失败？RoboBrain 2.5 给出解法

优质文章学习记录

Read more

OpenClaw 新手指南：从零开始的 AI 机器人搭建完全攻略

基于2-RSS-1U的双足机器人并联踝关节分析与实现

最新 neo4j 5.26版本下载安装配置步骤（新手必备）

【本地Docker部署开源低代码开发神器Appsmith与远程访问在线使用】