GR-RL：基于离线 RL 与在线微调的机器人系鞋带 VLA 策略

GR-RL：面向长时域机器人操作的灵巧与精确

引言

随着具身智能技术的发展，在精细场景或高精度操作下，单纯视觉语言动作模型（VLA）的局限性日益显现。越来越多的工作开始结合「VLA + RL」以提升精度与泛化能力。例如，PI 公司发布的 π*0.6 展示了基于演示数据的离线 RL 预训练及在线 RL 后训练流程。

VLA 具备较强的泛化能力，而强化学习（RL）则提供精准度。两者的结合旨在兼备泛化与精准。然而，目前 VLA 的泛化能力仍有限，往往需要大量数据微调。对于未来半年内的落地应用，面对精细活，结合 VLA 和 RL 是更优解：通过 RL 微调 VLA，让模型模仿人类演示时更精准，而非机械模仿。

第一部分 GR-RL 框架

1.1 背景与挑战

现有 VLA 策略在实际部署中存在两个基本不足：

精确灵巧性：对可变形物体的毫米级控制仍未解决。
长时域鲁棒性：多步操作中误差累积，与高精度灵巧操作结合时问题突出。

以穿鞋带任务为例，机器人需具备足够的灵巧性操作可变形物体、实现毫米级控制精度，并具备长时序操作能力以应对多样化情境。经典方法使用预定义动作原语，但在未见配置下的泛化能力和失败恢复能力仍是未解之谜。字节跳动提出的 GR-3 虽具有强泛化能力，但在精度、灵巧性和长时域鲁棒性要求高的情况下仍会失败。

作者观察到存在两个关键瓶颈：

次优的人类演示：在极端精确场景下，人类演示者动作放慢、犹豫，引入噪音。
训练与推理不匹配：标准离线训练预测固定长度序列，但推理时需后处理平滑（如时序集成），导致模型训练与推理不一致。

1.2 核心方法

GR-RL 采用多阶段强化学习增强的训练流程，用于筛选、增强并强化次优及不匹配的人类演示数据。

1.2.1 离线 RL：基于任务进度评估器的数据过滤

为防止策略记忆次优行为，利用离线 RL 学习任务进展模型，并用其过滤有害数据。

分布式 Critic 训练：采用 TD3+BC 算法训练 Critic，对成功和失败的轨迹共同训练一个评价器模型。在每个回合结束时给予稀疏奖励，预测的价值反映任务进展程度。
数据筛选：利用价值结果仅保留对任务正向推进有贡献的状态转换，剔除其余数据。采用分布式评价器在离线稀疏奖励场景下显著提升鲁棒性。
稀疏奖励定义： $$r(o_t, l, s_t, a_t) = \begin{cases} \gamma^{T-t} \mathbb{I}(\tau), & t > T-k \ 0, & t \leq T-k \end{cases}$$ 其中 $\mathbb{I}(\cdot)$ 为指示函数，判断轨迹是否成功。通过对成功和失败数据进行时序差分学习，评论器作为鲁棒的任务进度评估器。
次优样本剔除：若序列中存在大于阈值 $\delta$ 的数值下降，将该样本定义为次优并从数据集中剔除。

1.2.2 模仿学习：形态对称数据增强

在离线训练阶段，利用双臂任务设置中的形态对称性进行数据增强。

图像观测：水平翻转图像，交换左手腕与右手腕图像。
状态与动作：根据世界坐标系的镜像对称转换本体感知状态和动作数据。
语言指令：翻转空间描述，如将'左边的孔'改为'右边的孔'。

1.2.3 在线 RL 调整：对齐策略部署

在部署分块策略时，通常采用系统级后处理方法（如时间集成），这导致了训练与部署之间的不匹配。为适应差异，通过封闭环的在线交互使模型主动探索和自我改进。

潜在空间探索：在长时序、高精度操作任务中，直接在原始动作空间添加噪声难以成功。作者在潜在空间中进行结构化探索，引导训练好的流策略。
噪声空间蒸馏 Q 函数：在共享的 VLM 骨干网络后添加噪声预测器，用于预测动作 DiT 的初始噪声。为避免生成超出分布的噪声，当输出偏离原始正态分布超过阈值时进行惩罚。
离策略与在策略缓冲区：维护离策略缓冲区和在策略缓冲区，从两者中平均采样批次以实现高效的离线到在线自适应。

1.3 模型结构

GR-RL 采用混合 Transformer 架构，由 VLA 模型 $\pi_\theta$ 和多任务评价器 $Q_\phi$ 组成，总参数量 50 亿。

评论者：因果 Transformer，遵循 Q-chunking，为每个动作块预测 Q 值块。分布式评论者将值视为具有上下界的离散分布，捕捉真实世界轨迹的不确定性。
策略：生成长度为 k 的动作片段，控制具有移动底盘的双臂机器人。遵循 GR-3 架构设计，采用 Qwen2.5-VL-3B-Instruct 作为 VLM 骨干，并通过扩散 Transformer (DiT) 预测动作片段。

1.4 局限性与结论

局限性

行为漂移：在稀疏且噪声较大的奖励条件下，策略行为在在线强化学习过程中可能变得不稳定。
蒸馏优化：将改进后的策略蒸馏至基础 VLA，有望获得既强大又具通用性的操作策略。

结论

GR-RL 是一种面向机器人学习的框架，用于构建具备专长的 VLA 策略，以实现长时序的灵巧和精确操作。关键洞见在于数据采集与策略推理之间的不匹配需要在线对齐。据作者所知，GR-RL 是首个能够基于学习的方法实现系鞋带的策略。

GR-RL：基于离线 RL 与在线微调的机器人系鞋带 VLA 策略

GR-RL：面向长时域机器人操作的灵巧与精确

引言

第一部分 GR-RL 框架

1.1 背景与挑战

1.2 核心方法

1.2.1 离线 RL：基于任务进度评估器的数据过滤

1.2.2 模仿学习：形态对称数据增强

1.2.3 在线 RL 调整：对齐策略部署

1.3 模型结构

1.4 局限性与结论

局限性

结论

更多推荐文章

相关免费在线工具

GR-RL：基于离线 RL 与在线微调的机器人系鞋带 VLA 策略

GR-RL：面向长时域机器人操作的灵巧与精确

引言

第一部分 GR-RL 框架

1.1 背景与挑战

1.2 核心方法

1.2.1 离线 RL：基于任务进度评估器的数据过滤

1.2.2 模仿学习：形态对称数据增强

1.2.3 在线 RL 调整：对齐策略部署

1.3 模型结构

1.4 局限性与结论

局限性

结论

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具