GR-RL:面向长时域机器人操作的灵巧与精确
引言
随着具身智能技术的发展,在精细场景或高精度操作下,单纯视觉语言动作模型(VLA)的局限性日益显现。越来越多的工作开始结合「VLA + RL」以提升精度与泛化能力。例如,PI 公司发布的 π*0.6 展示了基于演示数据的离线 RL 预训练及在线 RL 后训练流程。
VLA 具备较强的泛化能力,而强化学习(RL)则提供精准度。两者的结合旨在兼备泛化与精准。然而,目前 VLA 的泛化能力仍有限,往往需要大量数据微调。对于未来半年内的落地应用,面对精细活,结合 VLA 和 RL 是更优解:通过 RL 微调 VLA,让模型模仿人类演示时更精准,而非机械模仿。
第一部分 GR-RL 框架
1.1 背景与挑战
现有 VLA 策略在实际部署中存在两个基本不足:
- 精确灵巧性:对可变形物体的毫米级控制仍未解决。
- 长时域鲁棒性:多步操作中误差累积,与高精度灵巧操作结合时问题突出。
以穿鞋带任务为例,机器人需具备足够的灵巧性操作可变形物体、实现毫米级控制精度,并具备长时序操作能力以应对多样化情境。经典方法使用预定义动作原语,但在未见配置下的泛化能力和失败恢复能力仍是未解之谜。字节跳动提出的 GR-3 虽具有强泛化能力,但在精度、灵巧性和长时域鲁棒性要求高的情况下仍会失败。
作者观察到存在两个关键瓶颈:
- 次优的人类演示:在极端精确场景下,人类演示者动作放慢、犹豫,引入噪音。
- 训练与推理不匹配:标准离线训练预测固定长度序列,但推理时需后处理平滑(如时序集成),导致模型训练与推理不一致。
1.2 核心方法
GR-RL 采用多阶段强化学习增强的训练流程,用于筛选、增强并强化次优及不匹配的人类演示数据。
1.2.1 离线 RL:基于任务进度评估器的数据过滤
为防止策略记忆次优行为,利用离线 RL 学习任务进展模型,并用其过滤有害数据。
- 分布式 Critic 训练:采用 TD3+BC 算法训练 Critic,对成功和失败的轨迹共同训练一个评价器模型。在每个回合结束时给予稀疏奖励,预测的价值反映任务进展程度。
- 数据筛选:利用价值结果仅保留对任务正向推进有贡献的状态转换,剔除其余数据。采用分布式评价器在离线稀疏奖励场景下显著提升鲁棒性。
- 稀疏奖励定义: $$r(o_t, l, s_t, a_t) = \begin{cases} \gamma^{T-t} \mathbb{I}(\tau), & t > T-k \ 0, & t \leq T-k \end{cases}$$ 其中 $\mathbb{I}(\cdot)$ 为指示函数,判断轨迹是否成功。通过对成功和失败数据进行时序差分学习,评论器作为鲁棒的任务进度评估器。
- 次优样本剔除:若序列中存在大于阈值 $\delta$ 的数值下降,将该样本定义为次优并从数据集中剔除。
1.2.2 模仿学习:形态对称数据增强
在离线训练阶段,利用双臂任务设置中的形态对称性进行数据增强。
- 图像观测:水平翻转图像,交换左手腕与右手腕图像。
- 状态与动作:根据世界坐标系的镜像对称转换本体感知状态和动作数据。
- 语言指令:翻转空间描述,如将'左边的孔'改为'右边的孔'。
1.2.3 在线 RL 调整:对齐策略部署
在部署分块策略时,通常采用系统级后处理方法(如时间集成),这导致了训练与部署之间的不匹配。为适应差异,通过封闭环的在线交互使模型主动探索和自我改进。
- 潜在空间探索:在长时序、高精度操作任务中,直接在原始动作空间添加噪声难以成功。作者在潜在空间中进行结构化探索,引导训练好的流策略。
- 噪声空间蒸馏 Q 函数:在共享的 VLM 骨干网络后添加噪声预测器,用于预测动作 DiT 的初始噪声。为避免生成超出分布的噪声,当输出偏离原始正态分布超过阈值时进行惩罚。
- 离策略与在策略缓冲区:维护离策略缓冲区和在策略缓冲区,从两者中平均采样批次以实现高效的离线到在线自适应。
1.3 模型结构
GR-RL 采用混合 Transformer 架构,由 VLA 模型 $\pi_\theta$ 和多任务评价器 $Q_\phi$ 组成,总参数量 50 亿。
- 评论者:因果 Transformer,遵循 Q-chunking,为每个动作块预测 Q 值块。分布式评论者将值视为具有上下界的离散分布,捕捉真实世界轨迹的不确定性。
- 策略:生成长度为 k 的动作片段,控制具有移动底盘的双臂机器人。遵循 GR-3 架构设计,采用 Qwen2.5-VL-3B-Instruct 作为 VLM 骨干,并通过扩散 Transformer (DiT) 预测动作片段。
1.4 局限性与结论
局限性
- 行为漂移:在稀疏且噪声较大的奖励条件下,策略行为在在线强化学习过程中可能变得不稳定。
- 蒸馏优化:将改进后的策略蒸馏至基础 VLA,有望获得既强大又具通用性的操作策略。
结论
GR-RL 是一种面向机器人学习的框架,用于构建具备专长的 VLA 策略,以实现长时序的灵巧和精确操作。关键洞见在于数据采集与策略推理之间的不匹配需要在线对齐。据作者所知,GR-RL 是首个能够基于学习的方法实现系鞋带的策略。


