基于视觉机器人操作中的主动感知旨在将摄像头移动到信息量更大的观测视角,从而为下游任务提供高质量的感知输入。现有的大多数主动感知方法依赖于迭代优化,导致耗时耗力,且与特定任务的目标紧密耦合,限制其迁移性。本文提出一种通用的单样本多模态主动感知框架,用于机器人操作。该框架能够直接推断最优视角,包含数据采集流程和最优视角预测网络。具体而言,该框架将视角质量评估与整体架构解耦,从而支持异构任务需求。最优视角通过对候选视角进行系统采样和评估来定义,之后通过域随机化构建大规模训练数据集。此外,开发一个多模态最优视角预测网络,利用交叉注意机制来对齐和融合多模态特征,并直接预测摄像头姿态调整。本文提出的框架应用于视角受限环境下的机器人抓取任务,能够显著提高抓取成功率。
姿态估计
与基于几何推理的传统分析方法相比,基于深度学习的抓取姿态估计方法由于深度学习的进步,在成功率、鲁棒性和泛化能力方面取得了显著提升。
根据用作网络输入的三维表示,现有方法大致可分为基于截断符号距离场(TSDF)的方法和基于点云的方法。Breyer 提出体素抓取网络(VGN),该网络以 TSDF 为输入,直接预测体素空间内的抓取质量、方向和宽度。此外,Yu 以 VGN 为基线,引入可信机器人抓取问题,并提出一种可信度对齐框架,以提高预测抓取概率与实际抓取成功结果之间的一致性。另一方面,Fang 提出一种基于点云的抓取网络,该网络以 TSDF 为输入,直接预测体素空间内的抓取质量、方向和宽度。Fang 发布大规模点云抓取数据集 GraspNet-1Billion,并开发 GraspNet 抓取姿态估计框架,为通用物体抓取研究提供一个统一的基准。基于此基准,Fang 进一步提出 AnyGrasp,它利用跨视图几何一致性和物体质心建模来提高抓取稳定性。Wu 提出 Economic Grasp,通过一种经济的监督策略选择关键训练样本,从而实现更高效的训练。
然而,大多数现有模型都是为俯视视角下的桌面抓取而设计的。当直接应用于冰箱或橱柜等半封闭环境时,由于训练数据与实际应用场景之间存在显著差异,无法获得可靠的抓取姿态,因为这些环境无法提供俯视视角,且相机初始姿态随机。在视角受限的环境中,选择一个最优的观测视角来为抓取姿态估计模型提供更丰富的信息输入至关重要。
主动视觉
对于视点受限环境下的机器人抓取,主动感知能够获取更多信息丰富的物体观测数据,从而更好地支持抓取姿态估计。Breyer 提出一种由遮挡线索驱动的闭环次优视点规划策略,该策略逐步更新场景重建,并在线决定是继续观察还是执行抓取。Zhang 提出一种基于 affordance 驱动的次优视点方法(ACE-NBV),该方法在视点一致性假设下,利用新视点合成来预测未观测视点的抓取 affordance 分布,并通过最大化虚拟抓取质量来选择下一个视点。Ma 引入神经抓取场,该方法在相机运动过程中构建抓取分布的在线神经场表示,并通过瞄准高不确定性区域来规划下一个视点。
这些方法通常需要多个优化步骤才能达到期望的观测视点,这会增加时间和运动成本。此外,此类方法与机器人抓取紧密耦合,难以推广到其他任务。
通过单样本视角调整实现有效的感知,仍然是一个具有挑战性的问题。为了解决这个问题,从人类执行日常任务的方式中汲取灵感。当任务意图或指令出现时,人类通常首先调整自身位置并朝向任务目标,将注意力集中在相关区域。这种行为使他们能够获取更全面、更具区分性的信息,从而促进后续行动,如图所示。

值得注意的是,这种调整过程通常只需一步即可完成。这种效率归功于人类长期积累的经验,使他们能够直接判断哪些视角有利于感知目标物体。相比之下,现有的机器人系统通常缺乏这种单样本感知能力,而且尚未建立一个能够统一建模各种任务场景下这种能力的框架。
本文提出一种数据驱动的多模态主动感知框架,该框架能够直接预测最优观测视角,仅需一次重观察即可提升感知精度,并可泛化至不同任务。具体而言,首先构建一个最优视角定义和数据采集流程。最优观测视角通过对候选视角进行采样,并使用任务相关的质量函数对其进行评估来确定,该质量函数可根据不同的任务需求进行调整。随后,通过域随机化构建大规模训练数据集。值得注意的是,该流程无需人工标注,从而显著降低数据集创建成本,并有助于快速适应新任务。其次,提出一种多模态最优观测视角预测网络,称为 MVP-Net。该网络利用交叉注意机制,自适应地对齐和融合多模态特征,同时突出显示感知关键区域,从而实现高效的主动感知。最后,将该框架应用于视角受限环境下的机器人抓取任务,因为该任务对观测视角高度敏感。
整体主动感知框架旨在学习策略 π : (O, L) → T,该策略以当前观测值 O 和指定目标对象的自然语言指令 L 作为输入,并输出所需的相机姿态调整 T。整个实现过程包含三个阶段:(a) 合成数据集构建。开发用于网络训练和评估的大规模逼真数据集;(b) 感知与预处理。获取环境观测数据并结合语义信息进行预处理;(c) 网络架构构建。构建一个基于 Transformer 的网络,将预处理后的多模态视觉信息映射到所需的相机姿态调整。本文使用视角受限环境中的机器人抓取任务来验证整个流程。如图所示:






