论文阅读-RGMP: Recurrent Geometric-prior Multimodal Policy for Generalizable Humanoid Robot Manipulation

目录

1. 论文概要

1.1 题目

1.2 作者

1.3作者单位及邮箱

1.4 摘要

2.研究问题

2.1研究问题1

2.2研究问题2

3.主要贡献

3.1提出GSS(Geometric‑priorSkillSelector)

3.2提出ARGN(Adaptive Rotation‑basedGaussianNetworkforvisuomotorcontrol)

3.3综合真实机器人评估

4.研究方法

4.1 GSS (Geometric-prior Skill Selector)

4.1.1动机(Motivation)

4.1.2GSS的两个阶段

4.1.3GSS的流程示例

4.2 ARGN (Adaptive Recur sive Gaussian Network)

4.2.1动机(Motivation)

4.2.2 ARGN 框架


1. 论文概要

1.1 题目

RGMP:面向通用型(可泛化)人形机器人操作的循环几何先验多模态策略

论文原文链接:https://arxiv.org/abs/2511.09141
Code —https://github.com/xtli12/RGMP.git (代码开源链接)

1.2 作者

1.3作者单位及邮箱

第一作者单位:武汉大学计算机科学学院

通讯邮箱:{xtli312,wenkehuang,yemang,jxuan,miao.li}@whu.edu.cn

1.4 摘要

人形机器人在执行多样化人类级技能方面展现出巨大潜力。然而,当前研究主要依赖于数据驱动的方法,这些方法需要大规模训练数据集才能实现鲁棒的多模态决策能力与可泛化(generalizable)的视觉运动控制。此类方法因忽视未知场景中的几何推理能力,且对训练数据中机器人-目标关系的建模效率低下,导致训练资源被大量浪费,引发广泛担忧。

为应对这些局限性,本文提出递归几何先验多模态策略(RGMP)——一个端到端的框架,它将几何语义技能推理数据高效的视觉运动控制相统一。在感知能力方面,我们设计了几何先验技能选择器(Geometric-prior Skill Selector),该模块将几何归纳偏置注入视觉语言模型中,仅需极少量的空间常识调优,即可为未见场景生成自适应的技能序列。为实现数据高效的机器人运动合成,我们引入了自适应递归高斯网络(Adaptive Recursive Gaussian Network),该网络将机器人-物体交互参数化为一个紧凑的高斯过程层次结构,通过递归编码多尺度空间关系,即使从稀疏演示数据中也能生成灵巧且数据高效的运动轨迹。

在我们的人形机器人平台桌面双臂机器人上的评估表明,RGMP框架在泛化测试中取得了87%的任务成功率,并且其数据效率达到当前最优模型的5倍(此指标如何计算的?)。这一性能凸显了其卓越的跨领域泛化能力,为开发更具通用性和数据效率的机器人系统铺平了道路。

问题1:

提出的RGMP框架如何将几何语义技能推理与数据高效视觉运动控制相结合?

问题2:

在感知能力方面,我们设计了几何先验技能选择器(Geometric-prior Skill Selector),该模块将几何归纳偏置注入视觉语言模型中,仅需极少量的空间常识调优,即可为未见场景生成自适应的技能序列。如何具体实现的?

问题3:

为实现数据高 效机器人运动合成,我们引入自适应递归高斯网络,将 机器人‑物体交互参数化为高斯过程的紧凑层次结构,该结构递归编码多尺度空间关系,即使从稀疏演示中也能 生成灵巧、数据高效的运动合成。如何具体实现的?

2.研究问题

当前研究主要依赖数据驱动方法,需要大量训练数据集才能实现稳健的多模态决策能力泛化视觉运动控制。这些方法因忽视未见场景中的几何推理以及训练数据中机器人‑目标关系的低效建模而引发担忧,导致训练资源严重浪费。

2.1研究问题1

传统的视觉语言模型(VLMs)如PaLM‑E 和 指令BLIP 在从语言‑视 觉输入中解析语义意图方面展现出显著能力。这些模型利用大规模预训练生成基于视觉观察的任务计划,但它们将抽象指令与情境适宜的机器人技能关联的能力仍然受限。

例如,当面对未见场景中形状 各异的靶标时,这些模型在技能选择(如抓取与捏取)的歧义解析上存在困难。

原因:空间物体几何(如 边界框、形状)与语义任务规范之间整合不足,而在动态环境中,技能可行性依赖于泛化的空间推理,这一差距被进一步放大。

由此,提出研究问题1:

I) How can robots leverage spatial geometric reasoning to enable feasible skill selection?

机器人如何利用空间‑几何推理 来 支持 可行的技能选择?

2.2研究问题2

从有限的演示中学习精确的动作策略仍然是一个开放性的挑战。

现有研究:虽然扩散模型(diffusion models 基于Transformer的架构轨迹生成方面显示出潜力,但它们对大量训练数据(10k+轨迹) 的依赖以及计算复杂度(1–5Hz推理速率)限制了实际部署。模仿学习方法(Zhang等人, 2018年)通过利用人类先验知识部分缓解了这一问题,但它们往往过拟合于演示特定的特征(泛化能力弱),在未见过的物体上仅达到 40–60%的成功率。

关键:任务不变的视觉特征(例如基于上下文的特征)与任务特定的运动模式进行解耦。

由此,提出研究问题2:

II) Howcanthe inherent mechanisms of robot learn the gen eralized ability with limited demonstrations?

机器人的内在机制如何通过有限的演示学习泛化能力

3.主要贡献

3.1提出GSS(Geometric‑priorSkillSelector)

一个几何先验技能选择器:

通过低秩几何适配器增强视觉语言模型(VLM),从预训练库中选择参数化技 能。通过注入形状级别的常识,GSS优先选择满足潜在几何约束 条件的技能,从而实现与人类对齐的推理,而无需特定任务的微调。

3.2提出ARGN(Adaptive Rotation‑basedGaussianNetworkforvisuomotorcontrol)

一个自适应递归高斯网络(即插即用的数据高效视觉运动模型):

通过自适应衰减机制旋转嵌入(RoPE)来调节潜在表示,以捕获时间一 致潜在空间中方向性空间依赖关系。分层融合模块保留多尺度视觉线索,并将它们输入到高斯混合编码器中,该编码器将6‑自由度轨迹分解为紧凑的全协方差混合,从而在严重数据稀缺的情况下实现显式的目标条件密度建模。

3.3综合真实机器人评估

RGMP在两个物理机器人平 台上进行严格评估,通过联合耦合几何语义推理与递归高斯特 征重新加权,展现出鲁棒性能。与扩散策略相比,RGMP在 泛化测试中实现87%的成功率,并表现出5×更高的数据效 率。

4.研究方法

RGMP(Recurrent Geometric-prior Multimodal Policy)

循环几何先验多模态策略:

一个端到端的框架,将几何语义技能推理数据高效的视觉运动控制相结合。

框架的整体输入:

(1)人类的自然语音指令

(2)机器人的视觉感知(图像)

框架的整体输出:

(1)机器人执行任务的语音?

(2)机器人的任务执行

此框架包含两个核心组件

(1)GSS (Geometric-prior Skill Selector) 

使用几何常识语言指令视觉线索转换为可执行技能。

(2)ARGN (Adaptive Recur sive Gaussian Network)

处理视觉输入预测操作动作策略学习直接从RGB中推断3D空间关系,通过将视觉线索动作关联起来,依赖于高效的隐式表示而不是显式3D重建。

4.1 GSS (Geometric-prior Skill Selector)

几何先验技能选择器

提升机器人的感知能力:几何归纳偏置注入视觉语言模型,通过极少的空间常识微调生成适用于未见场景的适应性技能序列。

4.1.1动机(Motivation)

机器人领域,一个关键挑战在未见场景中对形状各异的物体进行细粒度技能选择(例如,抓取与捏取)。

目前研究:传统视觉语言模型(VLMs)能够实现目标识别和定位,由于忽略了几何先验和视觉-动作映射,导致无法将语义观察应用到准确的动作。

这促使我们开创性提出GSS框架,它通过新的几何-对象分解机制几何推理语义任务规划联系起来。

4.1.2GSS的两个阶段

第一个阶段:(调用两次VLM)

使用VLM来解析人类的语音指令 I,使机器人能够在观察到的图像中识别和定位目标对象(标注边界框)。-------->输出O

第二个阶段:

基于第一阶段获得的边界框系统分析目标对象的常识信息,包括其相对位置及其形状信息「来 自Yolov8n‑seg(Yaseen2024)模型ϕ()。-------->行动计划(actionplan)P

随后,机器人系统根据GSS的输出[行动计划(actionplan)P]技能库中选择预训练的技能模型(从Grasp抓取、Lift up提升、Pinch捏取三个预训练的技能模型中选择

规划函数通过以下方式运行:



P是生成的行动计划(actionplan),

I表示当前用户指令,

O是 当前视觉观察(由VLM用边界框标注的 RGB图像),

C代表一个预定义的上下文(指令、提示和常识),它由n个示例组成,以实现上下文学习。

预定义的上下文C 示例如下图:

4.1.3GSS的流程示例

当指令是“我想芬达”时,GSS流程如下:

(1)遵循上下文“请在指令中框定目标对象”来从各种其他物品中识别芬达”,

(2)应用 YOLOv8n‑seg来获取芬达的形状信息

(3)VLM随后通过将其已建立的上下文框架C基于几何的先验推理相结合来合成行动计划(action plan)P。

4.2 ARGN (Adaptive Recur sive Gaussian Network)

自适应递归高斯网络

实现数据高效机器人运动合成:机器人‑物体交互参数化为高斯过程的紧凑层次结构,该结构递归编码多尺度空间关系,即使从稀疏演示中也能生成灵巧、数据高效的运动合成。

4.2.1动机(Motivation)

在机器人任务中,从机器人的视觉视角理解空间关系至关重要。

机器人必须识别场景中的哪些部分对应其末端执行器的位置。

目前研究:先前方法由于视觉运动表示学习中的固有局限性,往往难以揭示未见场景中不同图像区域之间的潜在关系,这限制了泛化能力。

为解决此问题,我们提出了ARGN框架,该框架旨在自适应地建模机器人在未见环境中与目标物体之间的全面空间依赖关系,同时在训练数据有限的情况下减轻过拟合问题

4.2.2 ARGN 框架

ARGN应用递归操作以建立全局连接,该连接建立了观测图像的空间记忆

这种记忆机制能够识别与任务执行最相关的末端执行器位置。然而,递归计算本质上会遭受梯度消失问题,增加训练难度,并需要大量数据来缓解这一限制。

为解决此问题,我们提出了一 种自适应衰减机制(AdaptiveDecayMechanism,ADM),以动态控 制历史记忆衰减率,防止关键空间记忆的消失,并自适应地增强任务关键区域的权重。

第一阶段:

输入F0由空间混合模块处理,其中 ADM生成内容自适应衰减因子W来调节记忆保留。

Read more

前端编程三剑客HTML、CSS、JavaScript 三者的关系详解

前端编程三剑客HTML、CSS、JavaScript 三者的关系详解

作为程序员,如果你是想单纯学习HTML,JavaScript或者CSS,其实它们是一家的三兄弟。你了解 HTML、CSS、JavaScript三者的关系吗,我们可以用“网页的三层架构”来通俗理解,三者分工明确、协同工作,共同构建出完整且交互丰富的网页。         精美的网页如果比作是一栋功能完备的房屋,那么 HTML 就是这栋房子坚实的砖混框架与墙体结构,它划定了房间的格局、门窗的位置,是房屋能立起来的基础骨架;CSS 是房屋的装修装饰 —— 从墙面的乳胶漆、地板的材质,到家具的风格、软装的搭配,让房屋拥有美观的样貌和舒适的视觉体验;而 JavaScript,就是让这栋房屋真正 “活” 起来的水电系统、智能设备与安防设施,是控制灯光的开关、调节温度的空调、感应开合的门窗,让房屋不再是冰冷的建筑,而是能响应需求、具备交互功能的宜居空间。         下面从核心定位、分工对比、协同关系三个维度详细讲解。         文章最后,举例说明了三者结合实现一个表格的功能,你能分清程序中哪个部分是CSS吗? 一、三者定位 把网页比作一座“房

开源WebUploader插件如何扩展PHP实现多线程分片上传加速?

前端老哥外包救星:原生JS大文件上传组件(IE9兼容+20G断点续传) 兄弟,作为甘肃接外包的前端程序员,我太懂你现在的处境了——客户要20G大文件上传,还要文件夹层级保留、IE9兼容、加密传输,预算还卡得死死的。网上找的代码全是“文件上传半成品”,文件夹功能要么丢层级,要么IE9直接崩。别慌!我熬了半个月啃下的原生JS+Vue3全栈方案,今天把前端核心代码全盘托出(后端接口文档也给你备好了),保证你能直接集成到项目里,客户验收时直竖大拇指! 一、方案核心(专治外包项目的“奇葩需求”) 1. 功能全覆盖(客户看了直点头) * 20G级大文件传输:分片上传(10MB/片),断点续传(localStorage+后端数据库双存储进度,关浏览器/重启电脑不丢)。 * 文件夹层级保留:递归遍历文件树(前端生成相对路径),后端按/父文件夹/子文件路径存储(IE9用“伪路径+元数据”方案兜底)。 * 加密传输:

SAP与Java系统间Webservice交互的实战指南

1. 为什么SAP和Java需要“握手”?聊聊Webservice的桥梁作用 如果你在企业里待过,尤其是制造业、零售或者大型集团,大概率会碰到两个“巨无霸”系统:一个是后台的ERP核心SAP,另一个是前台的各类Java应用。SAP管着财务、物料、生产这些核心命脉,数据严谨得像瑞士钟表;而Java系统则灵活多变,可能是电商网站、移动APP后台,或者是内部的管理平台。问题来了,SAP里的物料价格变了,怎么实时同步到官网的Java商城?Java端下了个新订单,又如何立刻写入SAP生成销售凭证?总不能靠人工在两个系统之间来回粘贴复制吧。 这时候,Webservice 就登场了,它就像是两个系统之间约定好的一种“打电话”协议。我把它理解成一种“系统普通话”:不管SAP说的是德语(ABAP),Java说的是英语(Java),它们都通过一种标准的格式(XML)和传输方式(通常是HTTP)来交换信息。你不需要知道对方家里(系统内部)是怎么装修的,只要按照公开的“电话号码簿”(WSDL文件)拨号,

部署OpenClaw首选远程软件——UU远程:从准备到落地,新手也能轻松上手

部署OpenClaw首选远程软件——UU远程:从准备到落地,新手也能轻松上手

前言 在企业为客户远程部署、技术博主带粉丝实操教学、远程技术支持等真实场景中,稳定、低延迟、高同步的远程工具是完成 AI 工具部署的关键。本地部署无需依赖云服务器,成本更低、更安全,但传统远程软件往往延迟高、操作卡顿,严重影响部署效率与体验。 本文将以OpenClaw轻量 AI 辅助服务工具为部署对象,全程依托网易 UU 远程实现流畅远程控制与协助,详细讲解网易 UU 远程的核心优势,从 UU 远程环境准备、OpenClaw 远程部署,到基于网易UU远程的实时监视 OpenClaw 状态,零门槛、无复杂配置。借助网易 UU 远程的低延迟与高稳定性,企业可高效为客户远程交付,博主可轻松带粉丝同步实操,新手也能跟着完整落地。 本篇文章分别从准备工作、远程部署、远程监视三个维度进行实操教学,一步步拆解如何运用远程UU进行远程部署openclaw。 一、网易UU远程介绍 网易UU远程是网易出品的一款轻量化、零配置、高稳定的远程控制工具,区别于传统远程工具(