机器人操作VLA模型的强化学习：综述

25年12月来自新加坡南洋理工、北邮和清华的论文'A Survey on Reinforcement Learning of Vision-Language-Action Models for Robotic Manipulation'。

构建能够执行各种操作任务的通用机器人系统的愿景已通过视觉-语言-动作模型（VLA）得到显著推进。VLA利用大规模预训练，通过模仿学习获取通用的视觉运动先验知识。然而，目前的预训练VLA仍需微调才能适应实际部署，因为传统的模仿学习由于依赖于状态和动作覆盖范围有限的已收集数据集，难以实现分布外（OOD）泛化。强化学习（RL）利用自探索和结果驱动优化来增强VLA的OOD泛化能力。本文概述RL如何弥合预训练和实际部署之间的差距，并全面介绍RL-VLA的训练范式。分类体系围绕四个核心维度展开，反映从学习到部署的完整生命周期：RL-VLA架构、训练范式、实际部署以及基准测试和评估。首先，介绍RL-VLA组件的关键设计原则，包括动作、奖励和转换建模。其次，回顾在线、离线和测试时RL范式，分析它们在提升VLA泛化能力方面的有效性和挑战。第三，考察实际部署框架，从仿真-到-真实的迁移到安全探索、自主恢复和人机协同。最后，总结基准测试方法，重点指出尚未解决的挑战，并概述构建通用机器人系统的发展路径。

为了说明将强化学习（RL）方法扩展到VLA模型时存在的差距，形式化RL-VLA问题，详细描述其状态表示、动作空间、奖励函数和环境动态。将机器人操作任务形式化为马尔可夫决策过程（MDP），由元组(S, A, p, r, γ)定义。强化学习的目标是学习一个由θ参数化的策略π_θ(a_t | s_t)，以最大化预期折现收益J(π)，其中 τ = (s_0, a_0, s_1, a_1, . . .) 是由策略生成的轨迹，T 是任务范围。在 RL-VLA 的背景下 [41][42]，这种形式是高度专门化的。状态 S 是多模态且高维的，通常定义为 s_t = (ovis_t , oprop_t , l_task )，包含视觉观测（例如，RGB 图像、点云）、本体感觉信息（例如，关节角度、末端执行器姿态）和语言指令。动作 A a_t 由 VLA 的解码器根据其内部隐状态生成。值得注意的是，VLA 通常使用扩散解码器或动作token化器等机制输出动作块 a_t:t+k−1，而不是单步动作 [43]。奖励 r(s_t, a_t) 对优化至关重要，它通常将稀疏的二元任务成功信号与密集的、基于过程的奖励（例如，到目标的距离）相结合，以提供更丰富的学习信号 [28]。最后，转移模型 p(s_t+1 | s_t, a_t) 可以在仿真中定义，也可以由真实世界机器人感知到的物理交互隐式确定 [44]。

为最优决策而开发的强化学习算法主要分为三大类。基于价值的方法，例如深度 Q 网络 (DQN) [45]，侧重于估计价值函数，以确定每个状态或状态-动作对的预期累积奖励。相比之下，策略梯度方法，例如近端策略优化 (PPO) [46]，通过计算预期收益相对于策略参数的梯度来直接优化策略。最后，诸如软A-C（SAC）[47]之类的Actor- Critics方法，通过同时学习价值函数（Critics）和策略（Actors）来结合这些方法。这些方法可以是无模型的，直接从交互中学习策略；也可以是基于模型的，首先学习转移模型p。算法还可以根据在线策略（从当前策略数据学习）或离线策略（从回放缓冲区学习）来区分。

尽管强化学习（RL）取得了显著进展，但将RL与VLA模型集成仍然面临着独特的挑战，需要进一步研究。早期关于RL-VLA的研究已经奠定了重要的基础，并展示了有前景的方向。这些研究涵盖了多种范式，包括离线、在线和测试时RL。在离线强化学习（RL）领域，策略从预先收集的固定数据集中学习。ReinboT [21] 通过预测密集回报来更好地利用混合质量数据，从而整合了强化学习原理。而 CO-RFT [22] 则引入分块强化学习（Chunked RL），这是一个新框架，它扩展时间差分（TD）学习，使其与许多VLA中固有的动作分块机制兼容。对于在线强化学习，它通过试错主动收集新经验来改进策略。VLA-RL [23] 通过提出轨迹级强化学习公式并使用VLM作为机器人流程奖励模型来解决稀疏奖励挑战，从而利用在线改进。类似地，SimpleVLA-RL [24] 提供一个高效的强化学习框架，其中包含增强探索的策略，使策略能够发现演示数据之外先前未见过的模式。最后，测试时方法可以增强部署时的策略：V-GPS [26] 引入价值引导策略转向（Value-Guided Policy Steering），它使用离线学习的价值函数对策略的动作进行重排序，而无需任何权重更新；Hume [27] 实现一个双系统模型，该模型通过在运行时采样和选择最佳动作候选来执行价值引导的系统-2 思维。尽管 VLA-RL 领域取得开创性的贡献和令人瞩目的进展，但在这些系统能够在动态、开放的物理环境中稳健运行之前，仍然存在着巨大的挑战，这为进一步的研究留下了广阔的空间。

如图所示RL-VLA的分类：

请添加图片描述

尽管基于模仿学习的预训练使得VLA模型在各种操作任务中都能取得优异的性能，但其泛化能力仍然受限于离线数据覆盖范围的不足，尤其是在OOD状态下。为了解决这一限制，近期研究将预训练的VLA模型与强化学习（RL）相结合，将开环推理转化为由在线反馈驱动的闭环优化过程。在这种架构下，策略与环境交互，收集轨迹，并通过奖励引导的更新逐步调整自身行为。

动作

在RL-VLA中，动作模型充当视觉观察和物理交互动作之间的桥梁。虽然预训练的VLA通常以开环方式生成动作，但强化学习进一步引入任务级监督，使得策略能够通过交互和反馈进行调整，从而提升泛化能力。基于对操作动作空间的预测方法，强化学习（RL）在动作生成改进中可以发挥不同的作用，从自回归动作模型中的token级监督，到生成式动作模型中的序列级优化，再到结合高层推理和低层控制的双-系统VLA中的层级协调。

1）自回归模型：自回归VLA遵循语言建模范式，将机器人操作建模为离散token空间中的序列决策过程，其中动作通过对下一个token的预测逐步生成。强化学习可以直接利用自回归VLA输出的token预测概率，通过token级监督和奖励驱动机制实现更稳定的策略优化。该范式在机器人场景中展现出更优的任务适应性和泛化能力，并启发了一系列后续工作[22]–[24]、[28]、[48]，这些工作探索自回归RL-VLA在在线微调和离线策略改进方面的应用。具体而言，TGRPO [48] 将策略梯度目标重写为基于优势加权的token级交叉熵损失，从而能够在不改变动作头形式的前提下，对 VLA 动作生成进行稳定的强化学习微调。CO-RFT [22] 进一步利用动作概率的时空动态特性，解决了自回归 VLA 离散动作预测中轨迹一致性较差的问题。

潜在挑战：尽管自回归 VLA 为强化学习训练目标提供了直接的动作预测概率，但离散的动作token使得自回归 VLA 难以进行灵巧操作。粗粒度的token设计会导致 VLA 失去灵巧控制，而细粒度的token划分会降低动作 token之间的区分度，从而显著增加动作预测的难度。

生成式动作VLA：为了解决离散动作预测中时间一致性差的问题，近期的研究人员致力于利用基于扩散的 [133]–[135] 或流匹配 [5]、[34]、[136] 动作头直接生成动作轨迹。然而，生成式动作头无法提供明确的动作预测概率，导致生成式RL-VLA 的优化目标难以实现。近期的研究致力于重新参数化生成式动作头的输出，以近似动作预测概率，从而使强化学习能够监督VLA算法。πRL [25] 采用流随机微分方程 (Flow-SDE) 或流噪声 (Flow-Noise) 干预措施来消除过程中的噪声，生成动作分配的近似概率，这与现有的强化学习策略更新相一致。为了进一步提高 RL-VLA 的训练稳定性，一些研究人员研究了训练过程中样本的影响。 FPO [49] 利用每个样本的变化来替换动作概率，从而缩小了流匹配头与强化学习更新策略之间的差距，同时增强了收敛稳定性。ARFM [50] 提出了一种动态缩放因子调整策略来更新每个样本的权重，提高了样本利用效率，并实现了更稳定的RL-VLA训练。

潜在挑战：由于生成式可变长度算法依赖于近似密度或基于损失的智体，且这些智体仅在高奖励区域进行调整，因此它们的更新是由局部采样且不完美的信号驱动，而不是由全局动作分布驱动。因此，智能体与预训练行为之间的微小偏差会在多步生成和迭代更新过程中累积，最终扭曲或破坏原始动作分布的部分区域。

双-系统模型：为了进一步增强VLA理解人类指令和执行长时域任务的能力，研究人员提出双-系统VLM-VLA架构。具体而言，高层任务规划VLM理解人类意图并生成逐步子任务，而底层动作控制VLA提供操作轨迹。然而，VLM和VLA之间的价值不匹配会导致双系统性能低下。近期研究采用强化学习（RL）来促进两个系统之间的双向价值对齐，确保VLM生成的子任务能够被VLA执行。Hume[27]利用RL训练一个高层任务规划系统，该系统能够从多个采样动作中选择最优动作，从而显著提高底层控制的可行性。

潜在挑战：双系统VLA面临的一个核心挑战是实现高层VLM规划器和底层VLA控制器之间可靠的价值对齐。它们异质的表征和时间尺度通常会导致语言规划中的值估计与控制层返回值出现偏差，从而导致联合强化学习训练不稳定和协调效果欠佳。

奖励

强化学习中的奖励是量化任务成功并指导策略优化的基本学习信号，它决定学习策略的梯度方差和收敛效率，并塑造整体学习动态。RL-VLA 利用奖励驱动的反馈来克服模仿学习的局限性，从而能够有效地泛化到 OOD 场景。然而，奖励的稀疏性和延迟导致 VLA 在策略优化方面存在困难，这严重阻碍 RL-VLA 的部署。为了应对上述挑战，最近的研究方法通过构建密集且信息丰富的奖励信号来有效地指导策略优化，这些奖励信号可以根据其来源大致分为内在奖励和外在奖励。

内在奖励：内在奖励是基于规则的自监督信号，源自数据集或智体与环境之间的交互，鼓励智体探索和构建其行为。通过提供自我激励的反馈，内在奖励使RL-VLA能够在外部奖励稀疏或延迟的情况下保持稳定的学习并探索有意义的行为。现有方法可根据奖励动机大致分为基于势函数的奖励塑造和探索驱动的奖励。

基于势函数的奖励塑造（PBRS）：PBRS 提出利用辅助势函数将原始奖励信号修改为：r′(s, a, s′) = r(s, a, s′) + γΦ(s′) − Φ(s)，其中 Φ 表示势函数 [16], [137]。 PBRS 通过势差重塑奖励模式，在不改变最优策略的前提下提供更密集、信息更丰富的反馈，从而显著提升训练稳定性和收敛效率。近期方法中的势函数可以手动设计，例如使用目标距离 [138] 和能量减少等启发式信号；也可以从数据中学习，例如近似值函数 [139] 和潜在进展估计器。前者具有可解释性和简洁性，而后者具有适应性，但可能引入不稳定性。

探索驱动的奖励：探索驱动奖励通过赋予探索行为额外的内在价值来鼓励智体探索新的或不确定的状态，从而增强智体发现未知动态的能力，并避免过早收敛到次优策略。好奇心-驱动方法 [140]、[141] 会奖励智体访问预测误差较高的状态，以此表明存在新的环境动态。随机网络蒸馏 (RND) [51]、[142] 通过测量智体对状态的熟悉程度（通过固定随机网络上的预测误差）来扩展这一思想。基于计数的方法 [52] 也类似地奖励访问不足的状态，以确保对状态空间的系统性覆盖。

潜在挑战：尽管内在奖励具有自主性，但它们与任务目标缺乏明确的关联。这可能导致不当和不一致的行为，例如奖励操纵 [143] 和高维空间中的奖励崩溃 [144]，或者导致策略利用易于获取的内在奖励而不推进任务进展。此外，内在奖励依赖于自我探索，并且在大多数新状态与任务无关的长时程操作任务中效率低下。

外在奖励：外在奖励是指利用外部感知信息（例如语言指令、视觉观察和人类反馈）来指导智体的行为，从而促进策略与任务目标的一致性。与依赖于内部探索动态产生的内在奖励不同，外在奖励通过外部反馈或结构化解释直接编码任务目标，从而实现更贴近实际且更易于解释的策略优化。现有方法可以根据其监督来源大致分为人类导向奖励和模型生成奖励。

人类导向奖励：人类导向奖励代表人类偏好，通过策略更新确保智体与人类价值观保持一致，从而更有效地满足人类需求。基于人类反馈的强化学习 (RLHF) [145] 基于行为对之间的人类偏好比较来训练奖励模型。SEED [146] 应用 RLHF 通过评估性反馈来克服奖励稀疏性问题。除了静态偏好数据集之外，交互式方法会在训练过程中主动向人类用户征求意见。DemPref [17] 迭代地查询策略生成轨迹上的偏好标签，从而提高人类反馈回路中的样本效率。Sirius [110] 和 Transic [106] 使用户能够在训练过程中改进学习的奖励函数，从而实现人机协同的奖励塑造。

模型生成的奖励：模型生成的奖励主要利用预训练的基础模型而非人类反馈，这使得智体的行为与基础模型的常识保持一致，并实现了跨不同环境的可扩展监督。奖励转换器（translator） [147] 将语言指令和交互数据转换为参数化的奖励代码，从而将自然语言任务规范与机器人强化学习连接起来。Eureka [18] 通过 LLM 生成的提议和环境反馈迭代地演化奖励代码，其在各种操作技能方面通常优于专家设计的奖励。近期研究[148]也证明了利用LLM/VLM作为代理（proxy）来学习有效奖励函数而无需人工干预的潜力。DVD[149]通过区分人类和机器人视频中的任务相似性来学习多任务奖励，实现了零样本泛化。视频生成模型提供一种替代方法：VIPER[54]从专家演示中学习视频预测transformer，并将模型的似然性用作奖励；而TeViR[150]采用文本-到-视频的扩散模型生成预测图像序列，并通过将其与实际观测结果进行比较来计算奖励。其他方法利用VLM进行时间推理和对比学习：GVL[55]将奖励估计表述为视频帧的时间顺序；ReWiND[151]使用倒放帧来增强任务序列，以提高对故障的鲁棒性；VLAC[53]通过负样本的对比学习来增强可解释性。基于查询的方法，例如 RoboCLIP [56]、RL-VLM-F [152] 和 RG-VLM [153]，直接查询VLM，从图像观测和文本任务描述中生成奖励，展现出强大的生成能力，能够捕捉任务进展。这些方法的核心原则是奖励分布一致性：当智体的行为与从专家数据或互联网规模视频中学习到的分布相匹配时，它们会获得更高的奖励。
潜在挑战：外部奖励提供外部任务监督，但在可扩展性、可靠性和一致性方面面临着持续的挑战。无论是人工对齐的奖励还是模型生成的奖励，都容易出现错误设定、域偏移和感知噪声等问题，这限制它们在复杂的现实世界环境中的有效性。

转换建模

强化学习中的转换建模旨在刻画基于动作的环境动态，使智体能够根据真实的物理后果和相应的奖励推断动作序列。对于强化学习-视觉语言动作（RL-VLA）系统而言，转换建模进一步增强了VLA智体执行预测性部署并通过模拟器评估动作序列的能力，从而克服传统VLA智体在推理长期动态和因果动作-效果关系方面的局限性。现有的转换建模方法可以分为基于物理的模拟器和基于未来预测模式的神经世界模型。

1）基于物理的模拟器：基于物理的模拟器通过精确的物理建模显式地复制环境动态，该建模定义了环境中每个对象的属性和交互，从而在给定特定动作的情况下预测精确的状态转换。现有研究利用对象和场景断言，将真实世界的场景结构和对象参数迁移到模拟器中。这种一致性显著增强了RL-VLA策略从模拟环境到物理环境的迁移能力。通过利用精细的力学和动力学引擎，诸如Isaac Sim [57] 和 Gazebo [58] 等模拟器可以根据动作序列精确生成环境转换。

潜在挑战：构建高保真模拟器需要大量的人工投入和精确的物理标注，而基于物理的展开式计算成本仍然很高，限制了它们在数据密集型学习系统中的可扩展性。

2）基于学习的世界模型：基于学习的世界模型采用数据驱动的方法进行转换建模，直接从大规模操作演示中学习预测未来状态，而不是依赖于显式的物理规则。世界模型将环境动态编码为潜表示或像素级观测，并可以根据当前状态和动作生成合理的展开式。当前的世界模型可分为基于状态的方法、基于观测的方法以及它们在VLA框架中的集成形式。

基于状态的方法：基于状态的方法将环境编码成一个紧凑的潜状态空间，从而高效地对状态转换进行建模。这使得模型能够预测长时程动态和奖励，而无需重建完整的视觉观测。PlaNet [154] 采用循环状态空间模型构建了一个动态世界模型，能够预测动作序列的未来潜在状态和奖励。Dreamer [59] 和 DreamerV2 [155] 进一步提高了潜在状态空间的表达能力，从而增强了长时程规划的质量和基于模型的强化学习（MBRL）的整体性能。TransDreamer [156] 用基于 Transformer 的模型替换了循环架构，以实现更稳定的长时程预测。然而，这些方法将图像重建视为辅助目标，因此对精确的视觉观测建模关注有限。因此，它们在真实场景中的生成能力有限，无法充分利用大规模视频数据。
基于观察的方法：基于观察的方法直接对像素级的观察转换进行建模，从而能够生成保持几何和视觉保真度的逼真环境展开。这种范式更适合表示真实世界的物理特性，并能使奖励与视觉预测保持一致。iVideoGPT [60] 利用大型自回归视频预测模型 [157]，并对预训练模型进行微调以适应机器人场景。预训练的视觉世界模型与学习的奖励模型相结合，可以作为MBRL任务的神经模拟器。GWM [61] 和 iMoWM [62] 融合了多模态数据，以更好地表示环境的三维几何结构，从而提高 MBRL 任务的性能。这些模型在各种任务中展现出强大的泛化能力，并通过提高视觉质量和奖励预测精度来增强MBRL性能，因为奖励本质上与反映物理世界理解的视觉保真度密切相关。然而，仅仅依赖于从真实世界数据分布中学习而忽略强物理先验会降低这些模型的可靠性，尤其是在复杂或分布外的场景中。EmbodiedDreamer [63] 通过引入 PhysAligner 和 VisAligner 来解决这一局限性。PhysAligner 结合基于物理的模拟器先验，以提供物理上一致的转换动力学，而 VisAligner 则使用视频绘制技术来增强生成观测结果的真实感。虽然这种方法提高了物理精度，但物理模拟器的引入降低了计算效率，而计算效率通常是基于学习的世界模型所受益的。

VLA 设计方法：将世界模型集成到VLA框架中，可以弥合语言条件推理与物理环境理解之间的鸿沟。世界模型预测未来的观测转换，而奖励模型则通过强化学习（RL）评估和优化由VLA生成的动作。VLA-RFT [65] 基于VLA动作序列生成多个展开，并采用GRPO优化框架[19]，利用世界模型预测的奖励来更新VLA模型。World-Env [66] 构建了一个RL-VLA流水线，其中VLA模型生成动作序列，世界模型预测未来的观测，视觉语言模型生成语义反映，并应用LOOP优化策略[158]进行策略细化。 WMPO [67] 提出一种基于世界模型的策略优化框架，该框架通过生成像素级的想象轨迹，并利用学习奖励模型预测的奖励，通过 GRPO 优化策略，从而实现 VLA 模型的强化学习，所有操作均无需与真实环境交互。

潜在挑战：尽管近年来取得了一些进展，但世界模型在不同场景、身体形态和机器人形态上的泛化能力仍然较差。融入来自人类知识或高保真模拟器的物理先验信息对于提高可靠性至关重要，然而，如何在数据驱动学习和物理一致性动力学之间取得平衡，仍然是构建稳健且可迁移模型的核心挑战。

强化学习（RL）训练是使VLA能够从大规模预训练数据中泛化OOD的关键步骤。现有的RL-VLA训练范式可以根据智体获取和利用环境反馈的方式分为三类：在线RL-VLA，即在训练过程中与环境直接交互；离线RL-VLA，即专注于从静态数据集中学习，无需进一步的环境交互；以及测试-时RL-VLA，即模型在部署过程中调整其行为，而无需更改其参数。下表总结代表性RL-VLA工作的细节。

请添加图片描述

在线 RL-VLA

在线RL-VLA范式支持交互式策略学习，其中智体持续与环境交互以收集轨迹，并根据观察的奖励和状态转换进行自我更新。在线RL-VLA的试错过程赋予预训练的VLA自适应闭环控制能力，从而有效地将VLA扩展到真实的OOD环境。现有关于在线RL-VLA的研究主要集中在五个方向：策略优化、样本效率、训练稳定性、学习框架和主动探索。

1）策略优化：策略优化决定了VLA如何根据环境奖励更新其策略，直接影响在线RL-VLA的稳定性和效率。激进的优化可能会破坏预训练动作空间中的训练稳定性，而过于保守的策略则需要过多的交互并增加成本。最近的研究通过采用PPO变体来缓解这种权衡，从而提高学习效率和稳定性。一方面，FLaRe [68] 将PPO算法应用于后训练的VLA模型，是该领域的奠基性工作；随后，RLRC [69] 也利用PPO来微调VLA模型。最近，RIPT-VLA [41] 将Leave-One-Out（RLOO）优势估计与PPO相结合用于训练后优化，无需形状奖励或价值函数即可实现高效学习。另一方面，VLA-RL [23] 使用 PPO 算法对自回归 VLA 模型进行微调，同时引入机器人过程奖励模型 (RPRM) 以提供密集奖励，从而提高学习效率。SimpleVLA-RL [24] 引入 GRPO 算法，实现更稳定的策略更新，并在 LIBERO 基准测试中取得了显著的性能提升。至关重要的是，一项实证研究 RLVLA [42] 比较 DPO、PPO 和 GRPO 算法在 VLA 模型在线强化学习微调中的应用，并提供了令人信服的证据，表明与标准的监督式微调相比，强化学习微调在分布外（OOD）场景下显著增强了模型的泛化能力。DeepThinkVLA [72] 引入了具有因果注意机制的 CoT，并采用 GRPO 进行策略优化，以使完整的推理-动作序列与期望结果在因果关系上保持一致。对于基于流匹配的 VLA 模型，一些研究也探索专门的策略优化算法。 FPO [49] 提出一种流策略优化算法，该算法在基于流匹配的 VLA 模型中实现了重要性采样，以提高策略优化效率。πRL [25] 为基于流匹配的 VLA 模型引入两种在线强化学习算法：Flow-Noise 将去噪过程建模为离散时间马尔可夫决策过程 (MDP)，而 Flow-SDE 将去噪与智体-环境交互相结合。其他工作也探索了强化学习对齐。GRAPE [71] 通过生成定制成本并基于轨迹数据优化策略，使 VLA 与偏好对齐。RobustVLA [73] 提出了一种轻量级的在线强化学习后训练方法，通过雅可比正则化和平滑正则化项来增强 VLA 模型对扰动的鲁棒性和可靠性。

潜在挑战：现实世界任务的多样性和动态性显著扩展了动作空间，这给在线强化学习 VLA 中的策略优化带来了挑战。真实世界环境展现出非平稳动态和多模态噪声，使得当前的策略优化方法（通常针对模拟或静态基准测试设计）难以维持稳定可靠的更新。

样本效率：样本效率衡量 RL-VLA 在有限预算下学习有效策略的能力，这对于交互成本高昂的在线 RL-VLA 至关重要。现有方法侧重于利用演示先验知识和设计更密集的监督信号。RLDG [75] 将人类专家演示与在线 RL 微调相结合，以提高样本效率。RLDG 通过从在各种数据集上训练的通用策略中提炼知识，利用有针对性的先验知识探索和利用，加速新任务的学习。iRe-VLA [74] 采用两阶段训练流程，首先进行监督式微调预热，然后进行在线强化学习，显著减少了在复杂操作任务中达到熟练性能所需的交互次数。VLAC [53] 将 Actor-Critic 架构集成到单个 VLM 模型中，实现了动作生成以及密集进度增量和完成信号预测，极大地提高了在线强化学习微调期间的样本效率。DAFT [77] 引入人类反馈来干预探索过程，并构建了语言-干预对数据集，极大地加速了在线强化学习 VLA 中的策略学习。Generalist [78] 提出了一种结合 SFT 和在线强化学习自改进的多阶段训练流程，其中使用精心设计的奖励函数来确保无监督学习。 SRPO [79] 引入了一种自-参照的强化学习框架，该框架利用策略自身成功的轨迹作为自参照来获得渐进式奖励，无需奖励标签。

潜在挑战：尽管现有方法已取得进展，但当前在线RL-VLA的样本效率在可扩展性和泛化能力方面仍然有限。大多数方法侧重于提高特定任务或环境中的数据利用率，而未能有效地将学习到的行为迁移到不同的目标或领域，这阻碍了大规模 RL-VLA 利用共享经验在新环境中扩展学习。

主动探索：主动探索旨在设计高效的探索策略，引导智体部署性能增益更高的动作样本，从而解决传统 RL-VLA 中随机部署引入的冗余成本。现有方法可以利用语义、潜在层和信息差距来指导探索策略。 Plan-Seq-Learn [80] 使用 LLM 生成高层任务规划，将其转化为运动规划路径点，并训练一个基于视觉的底层强化学习策略来跟随这些路径点，从而引导探索行为朝向与任务相关的空间。SIME [173] 在强化学习微调阶段引入模态级探索，使机器人能够在推理空间中生成超越预训练策略典型输出的多样化多模态交互行为。SOE [83] 学习任务相关因素的潜在表示，并将探索限制在有效动作流形内，从而确保安全性、多样性和有效性。ASID [82] 使用主动探索策略高效地收集少量信息丰富的真实世界数据，识别环境的未知物理参数，从而创建一个更精确的模拟器来训练鲁棒的控制策略。 RESample [84] 自动生成具有挑战性的分布外数据，利用探索性采样创建故障和恢复轨迹，迫使模型学习如何从标准离线数据集中不会遇到的错误中恢复。PLD [81] 采用混合部署方案，将残余干预偏向于基础策略频繁访问的状态，使收集的轨迹与通用策略的部署分布保持一致，同时捕捉恢复行为。

潜在挑战：当前方法从高维且常受无关噪声污染的潜表示中生成探索策略，这降低了指导的质量并限制了探索的有效性。此外，在现实世界中，安全的主动探索仍然难以实现，因为此类指导既不完全可解释也不受约束，可能导致潜在的危险行为，从而损害环境或机器人。

训练稳定性：稳定的在线 RL-VLA 训练能够确保策略更新的一致性，防止策略训练过程中因振荡收敛而导致的泛化能力下降。现有研究主要通过扩大样本缓冲区大小和降低样本分布方差来实现稳定的在线训练。RIPT-VLA [41] 利用动态 Rollout 采样，这是一种拒绝采样机制，可以解决在线 RL 微调过程中 rollout 返回值方差过大导致的不稳定性。ConRFT [85] 引入离线 RL 预训练，利用 HIl-SERL [44] 框架在进行在线微调之前稳定初始策略。类似地，PA-RL [86] 提出一个统一的框架，该框架使用通用损失函数直接优化动作和在线微调，从而将策略改进与模型参数更新解耦，提高了训练稳定性。 TGRPO [48] 更进一步，提供轨迹级估计，称为轨迹级分组相对策略优化 (Trajectory-wise Group Relative Policy Optimization)，以减少策略更新的方差并增强训练过程中的稳定性。另一种提高训练稳定性的方法是使用基于世界模型的强化学习 (RL)。World-Env [66] 和 VLA-RFT [65] 都利用学习的世界模型作为模拟器来生成合成的展开场景，从而降低与真实世界交互相关的方差和不稳定性。

潜在挑战：现有的稳定在线 RL-VLA 训练方法仍然局限于简单的短时程操作任务（例如，拿起积木），无法扩展到复杂的长时程任务（例如，制作三明治）。这是因为长时程任务要求 VLA 在整个时间序列中保持交互的一致性，任何单个错误都可能导致失败。随着任务复杂性和时间深度的增加，实现训练稳定性的难度显著增加。

在线 RL-VLA 基础设施：受 RL 在微调 LLM/VLM 方面展现出的良好性能的启发，最新的研究也对在线 RL-VLA 学习流程的基础设施进行了探索。 RLinf [87] 和 RLinf-VLA [28] 提出一种灵活的基础设施，支持大规模 VLA 模型的高效在线强化学习 (RL) 微调，并支持各种策略优化算法和模型架构。这些框架提高了训练效率，并允许整合额外的学习信号，例如人类反馈和安全约束。来自 LLM 的学习框架，包括 vLLM [174] 和 VeRL [175]，也已被应用于 VLA，以进一步增强其能力。

潜在挑战：现有的在线 RL-VLA 基础设施通常绑定到特定的架构或优化方法，限制了跨框架的适应性。自回归 VLA 和生成式 VLA 在奖励获取方面的差异进一步增加了统一支持的复杂性。虽然一些基于 LLM 的 RL 系统已被应用于 VLA，但由于多模态观测、实时控制和物理约束等因素，迁移这些系统仍然很困难。因此，构建更通用、更灵活的在线RL-VLA基础设施（infra）仍然是一个开放的挑战。

离线RL-VLA

离线强化学习在静态数据集上训练价值评估模型，无需与环境交互，因此适用于高风险或资源受限的环境。与简单地模仿演示的基于模仿学习（IL）价值评估模型不同，离线RL-VLA方法能够从丰富的过往经验中优化长期奖励，从而提高OOD的泛化能力。这需要包含完整马尔可夫决策过程（MDP）元组的大型数据集[176]–[178]，然而许多现有数据集源IL或SFT流程，缺乏丰富的奖励、动态信息和失败案例，限制了价值估计和策略泛化。目前，离线RL-VLA的研究主要沿着两个方向发展：数据利用和目标优化。

1）数据利用：数据利用侧重于在离线学习的约束下，有效利用静态数据集来改进策略。由于无法收集新的交互数据，离线RL-VLA的有效性很大程度上取决于训练算法如何利用现有轨迹来逼近最优策略。现有研究主要探索两个互补的方向：定制表示以增强奖励，以及保守约束以确保稳定性。

定制表示：定制表示方法主动调整离线数据集或相关的奖励信号，以更好地与策略优化目标保持一致。通过重塑轨迹或生成特定任务的成本，现有方法使VLA模型能够从静态数据集中提取更多信息丰富的训练信号。ReinboT [21] 通过修改离线数据集来最大化累积奖励，从而增强VLA的性能，实现了比标准行为克隆更稳健的决策。π0∗.6 [88] 通过预训练值函数，利用失败和成功数据，以二值化值来约束VLA。NORA-1.5 [89] 引入离线直接偏好优化，以使用模型生成的奖励来优化VLA。

保守约束：保守约束方法限制策略更新，以防止偏离离线数据集覆盖的数据分布。通过限制对未见状态或动作的外推，现有方法可以减少分布偏移，从而提高策略学习的可靠性并更好地利用静态数据。ConRFT [85] 将行为克隆与 Cal-QL [179] 相结合，以实现从小数据集学习时的稳定值估计。类似地，CO-RFT [22] 利用 Cal-QL 的校准机制，将策略训练限制在训练数据支持的范围内，从而减轻分布偏移。

潜在挑战：离线RL-VLA的挑战通常源于数据集的整理。由于VLA策略严重依赖于数据质量和结构，不平衡的数据集会加剧分布偏移并限制学习。如果没有精心整理，离线数据集会表现出任务覆盖不均、行为分布偏差和奖励信号不完整等问题，导致在OOD环境中泛化能力差。

2）目标函数修改：目标函数修改方法调整强化学习目标函数，以使学习信号与新的架构相匹配或支持数据集增强。现有工作主要探索架构感知目标函数设计和数据驱动的目标函数自适应。

架构感知目标函数设计：随着VLA越来越多地采用各种不同的架构，设计针对不同结构的强化学习目标函数对于充分发挥其潜力至关重要。受离线强化学习在基于Transformer的模型（如Q-Transformer和PAC [90]、[91]）上成功应用的启发，当前研究致力于通过离线强化学习优化各种结构的模型。 ARFM [50] 为 VLA 上的离线强化学习引入了一种基于流的训练目标，并通过自适应平衡因子控制强化学习的影响。
数据驱动的目标自适应：这些方法利用强化学习目标来扩充离线数据集，生成更多高质量的轨迹以改进后续 VLA 的优化，从而增强离线数据集的多样性和覆盖范围。RL-100 [92] 采用离线强化学习目标来保守地控制在线 PPO 代理，生成新的高质量数据，这项技术可能适用于训练后的 VLA。另一种策略是基于模型的离线强化学习 (MBRL)，其中使用从静态数据集中学习到的动态模型来生成合成的展开轨迹。
潜在挑战：尽管架构感知目标扩展了不同模型结构的能力，但它们会增加复杂性，并且在没有统一的离线RL-VLA 框架的情况下迁移效果不佳。数据驱动的目标自适应也存在分布漂移的风险，因为不准确的生成器可能会产生低质量的样本，从而降低训练缓冲区的质量并破坏学习的稳定性。这些局限性凸显了对更具泛化性的目标和数据管理策略的需求。

测试-时 RL-VLA

测试时RL-VLA训练范式指的是VLA在部署期间通过轻量级更新或适配器模块来调整其行为，从而有效地解决了在实际部署中进行完整模型微调的高昂成本问题。这种训练范式使VLA能够快速适应新的状态，无需大量训练即可提高鲁棒性和泛化能力。现有方法可以根据其自适应机制大致分为价值引导、内存缓冲区引导和结构化规划三类。

价值引导：价值引导方法利用预训练的奖励或价值函数在测试时调整VLA，直接影响动作选择，从而在无需完全更新策略的情况下高效地适应新任务。例如，V-GPS [26] 利用预训练的价值函数对基础策略中的动作候选进行重新排序，最终选择预测值最高的动作，从而调整模型行为以趋向最优。Hume [27] 框架引入'价值引导思维'过程，作为双-系统架构的一部分。它生成多个动作候选，并采用专门的价值查询头，基于估计的状态-动作值选择最有希望的动作候选。

内存缓冲区引导：为了进一步提高测试阶段的探索效率，最近的研究提出内存缓冲区引导机制，该机制在推理过程中检索相关的历史经验，从而提高探索效率和知识重用。STRAP [93] 实现一个紧凑且表达力强的模式库，该模式库存储具有代表性的时空模式，并富含历史、结构和语义信息，并在推理过程中基于与当前输入的相似性检索轨迹子段。 RA-DT [94] 存储过去经验的外部记忆，并仅检索相关的子轨迹以进行上下文决策。ReSA [95] 通过内在质量评估，从回放缓冲区中识别并选择性地模仿高质量的成功轨迹，从而确保智体始终与最终任务目标保持一致。

规划引导的自适应：规划引导的自适应方法通过显式推理可能的未来动作序列来提高测试时的性能，从而选择更有可能实现任务目标的动作，利用基础 VLA 作为初始建议，并通过模拟部署或基于价值的评估来优化动作。VLA-Reasoner [96] 提出了一种插件框架，该框架在测试时增强了 VLA 模型的规划能力。它利用在线蒙特卡洛树搜索（MCTS），以基础策略的初始动作预测为探索起点，通过模拟未来结果有效地寻找更优动作。该价值函数的另一种用途是用于进度监控，而非主动选择动作。贝尔曼（Bellman）- 引导重试（BGR）[97] 就是一个例子，它采用一个单独训练的价值函数来估计完成时间。在测试阶段，该函数持续监控自身预测的不一致性，从而能够检测到机器人何时偏离成功轨迹并触发纠正动作。

潜在挑战：现有的规划引导自适应方法需要预先推断未来的动作序列，这会带来显著的计算成本并限制实时部署。此外，评估大量动作候选集的需求进一步增加了开销，降低了在动态环境中的响应速度。

真实世界部署是指在真实世界动态环境下，在物理机器人上运行RL-VLA模型，从而实现非结构化环境中的安全自主运行。近期研究利用基于训练交互源的仿真-到-真实迁移和真实世界强化学习，来应对样本效率、安全性和硬件约束方面的挑战。

仿真-到-真实迁移

仿真-到-真实迁移使得在仿真环境中训练的VLA能够有效地泛化到物理机器人，从而解决分布偏移问题。目前弥合仿真-到-真实迁移差距的方法大致可以分为域随机化和数字孪生，它们在感知和环境动态方面都能实现高效的迁移。

域随机化：域随机化 (DR) 采用随机仿真参数来模拟真实世界部署中遇到的感知多样性，旨在缩小仿真与真实世界之间的差距。具体而言，DR [180] 通过在策略训练 [98] 和数据采集 [99] 期间随机化一系列仿真参数（例如光照条件、背景纹理和执行器噪声）来应对不确定性。例如，SimpleVLA-RL [24] 证明，在各种任务仿真中应用 DR 可以让策略实现零样本迁移到真实机器人，而无需额外的微调。

数字孪生：数字孪生 (DT) 创建物理系统的同步虚拟副本，从而实现安全且可扩展的策略训练，同时缩小仿真与真实世界之间的差距。Real-Is-Sim [100] 维护一个动态数字孪生，并持续使用真实传感器数据流进行校正，以确保策略始终在熟悉的仿真域状态下运行。 RialTo [101] 利用少量真实数据构建即时仿真，并采用逆蒸馏强化学习来增强操作策略的鲁棒性。RoboTwin [102] 使用生成框架，利用 3D 生成模型和 LLM，将单个 2D 图像转换为多样化的交互式数字孪生模型，作为双臂操作的基准。此外，DT-CycleGAN [104] 将数字孪生与 CycleGAN [181] 相结合，以最大限度地减少仿真机器人和真实机器人之间的视觉和动作一致性差距，从而实现有效的零样本仿真-到-真实迁移，用于视觉抓取。最后，DREAM [103] 提出一种使用可微GS 的真实-仿真-真实框架，以创建高保真数字孪生模型，从而实现物体质量识别和力感知抓取策略训练的同步进行。

潜在挑战：尽管取得了显著进展，但迁移策略的性能仍然不如其仿真对应策略。例如，SimpleVLA-RL [24] 显示出仿真与实际之间存在显著差距，在物理机器人上的成功率远低于仿真结果。这表明仅靠仿真不足以实现可靠的 VLA 实际部署。

真实世界强化学习

真实世界强化学习旨在直接在物理机器人上训练操作策略，使其能够学习在真实传感器反馈和物理动力学环境下可靠运行的技能。与仿真相比，真实世界强化学习能够提供更真实的学习信号，但也由于部署效率有限和安全风险而带来了重大挑战。现有方法提出了人机交互强化学习、可逆性、自主恢复和安全探索等策略来应对样本效率、环境重置和安全方面的挑战。

人机交互强化学习：人机交互（HiL）强化学习将人类的专业知识融入策略学习过程，以加速真实世界强化学习。与纯粹的自主探索不同，HiL 方法利用人类干预来纠正机器人的动作并安排学习任务，从而加快策略收敛速度。实证研究表明，通过人工纠正干预[44]、[77]、人工恢复辅助或人工课程设计[23]、[111]等方式融入人类专业知识，有助于稳定学习、减少不安全的探索并加速收敛，从而弥合脆弱的自主学习与物理环境所需的结构化适应性之间的差距。

人工纠正干预：人工纠正干预利用实时反馈在机器人学习过程中进行指导，通过有针对性的纠正帮助机器人从错误中恢复并改进复杂的行为，从而实现更快的技能学习和更安全的探索。HIL-SERL[44]引入人机交互强化学习，其中系统利用人工纠正反馈快速获得精确灵巧的操作技能。CR-DAgger[105]引入一种柔顺的力敏界面，用于平滑的人工纠正，并利用力反馈学习残差策略以增强接触丰富的操作。 TRANSIC [106] 被提出作为一种仿真-到-现实的框架，它通过在线人工纠正来学习自适应策略迁移；Genie Centurion [107] 通过VLM检测任务失败，并在必要时请求人工协助，从而将纠正干预扩展到多个机器人。最近，ConRFT [85] 开创性地将人机交互干预集成到用于真实世界机器人操作的VLA强化学习 (RL) 中，它结合离线和在线人工纠正的 RL 微调。DAFT [77] 将纠正干预扩展到用于 VLA 的 RL，将自然语言反馈转换为语义相关的纠正动作。VLAC [53] 进一步探索人机引导的探索，其中多个机器人在人类监督下于真实环境中学习关键行为，从而加速策略适应并提高稳定性。

人工辅助恢复：指在现实世界强化学习中，当自主恢复不可靠时，需要人工干预来重置机器人或环境。早期的机器人强化学习研究[182][183]严重依赖频繁的人工重置，这严重限制长期、高接触操作任务的可扩展性，而精确的环境重置在这些任务中至关重要。为了缓解这一问题，后续研究探索半自动恢复流程，将人机交互与脚本化的重置或运动基元相结合，从而在人工监督下实现自主恢复，同时保持安全保障[184]。ARMADA[108]和RaC[109]进一步集成基于学习的恢复模块，使机器人能够检测故障状态，并在无法自主恢复时请求人工引导的恢复。最近，在现实世界的RL-VLA中，Generalist [78] 通过限制辅助功能，仅在机器人进入不可逆状态或长时间无法完成任务时才执行重置操作，从而最大限度地减少人为干预。类似地，VLAC [53] 也让人类观察 VLA 策略频繁失效的位置，并手动重置机器人和物体，从而实现有针对性的重新初始化，以继续进行强化学习探索。

人类课程任务设计：这种方法应用课程学习原则，将任务结构化为由简到繁，以促进稳定高效的策略习得。在现实世界的强化学习中，人类监督者通过选择子任务或调整难度边界来设计课程，以平衡安全性和学习效率 [185]。最近的进展朝着半自动化课程的方向发展，其中大语言模型辅助人类分解复杂任务。 CurricuLLM [186] 利用大语言模型自动将复杂的机器人技能分解为分层子任务，并将任务进度与人类指定的难度级别相匹配。同时，Sirius [110] 引入一种人机协同自主框架，在该框架中，人类操作员可以动态地设计和控制部署课程，使其适用于各种真实世界的任务，从而确定哪些技能可以在无需干预的情况下安全尝试。在车队规模下，MT-Opt [111] 通过优先处理低效技能并根据性能指标控制部署阈值，实现了课程任务设计的操作化。VLA-RL [23] 将人类课程设计原则融入强化学习（RL），用于模拟环境中 VLA 的后训练。然而，现实世界中RL-VLA 的课程任务设计仍然很大程度上未被探索，尤其是在人类教师如何在物理约束下构建多模态目标和部署阈值方面。

潜在挑战：现有的人机协作强化学习方法仍然严重依赖人工干预样本来确保安全稳定的学习，导致人工成本高昂且可扩展性差 [187]。这种依赖性限制持续训练，阻碍在现实世界环境中的大规模部署，凸显对更自主、自给自足的学习机制的需求。

2）可逆性和自主恢复：可逆性和自主恢复使机器人能够自主处理故障状态并继续学习，无需外部干预，从而减少了现实世界强化学习中的手动重置和人工成本。通过在任务失败后自主恢复到可行状态，机器人可以保持与环境的持续交互，从而提高样本效率和长期适应性。现有方法可以根据恢复机制分为无重置学习、功能可逆性和语义感知恢复。

无重置学习：无重置学习旨在通过鼓励智体保持在状态空间的可恢复区域内来避免外部重置。一种自然的方法是引入辅助重置策略，在失败后将智体驱动回某些初始状态，从而无需人工协助即可继续训练。LNT [112] 训练目标条件重置策略，将智体恢复到初始状态分布。VaPRL [188] 结合课程学习来处理越来越具有挑战性的任务，LSR [189] 通过判别器驱动的学习方案促进技能多样性，而 MEDAL [113] 则在一个统一的框架中利用演示来指导任务和重置策略。IBC [114] 扩展这一思想，直接从演示中学习重置目标，而无需密集监督。除了显式重置策略之外，R3L [115] 采用多起点训练策略，允许智体重新访问不同的初始条件，从而提高对探索失败的鲁棒性。 MTRF [190] 将无需重置的强化学习视为多任务学习问题，其中任务的设计使得它们的终止状态可以作为其他任务的有效初始状态。

功能可逆性：功能可逆性强调机器人能够逆转其动作，并在发生干扰后将环境恢复到可恢复或可继续执行任务的状态。一些方法学习处理常见故障情况（例如物体掉落或抓取滑脱）的恢复技能，以便在中断后可以恢复任务目标的进展 [191]。Sharma 提出了状态熵最大化 [113]，通过内在正则化鼓励多样化但可逆的探索。Recovery RL [118] 学习一种恢复策略，该策略会进行干预，防止机器人进入不安全或不可逆的状态。PAINT（主动智体干预）[192] 扩展了这种方法，通过训练分类器来预测潜故障并提前触发纠正措施或安全重置。除了显式可逆性标注之外，Lynch [191] 还学习针对操作故障（例如物体掉落或抓取滑脱）的恢复技能，从而实现任务进度的无缝恢复。最近的多模态模型进一步将语义指导集成到恢复中——像 PaLM-E [116] 这样的语言条件策略允许机器人根据高级指令生成纠正行为。

语义-觉察恢复：语义-觉察恢复强调对操作时空动力学进行推理，使机器人能够在正在进行的任务的上下文中解释故障原因并规划适当的恢复行为。例如，Matsuoka [193] 构建一个具有时间依赖性效用的故障本体，用于在滑脱或位移期间选择恢复动作。DAS [194] 使用语义场景图来解释空间和关系故障上下文，以进行纠正规划。RECOVER [117] 结合本体、逻辑和语言模型来在线检测故障并生成可解释的恢复计划。Ahmad [195] 集成视觉语言模型和行为树，用于实时推理和自主纠正。

潜在挑战：尽管自主故障恢复是可行的，但由于不稳定的长周期训练、部分可观察性以及现实世界交互固有的不可逆性，可逆性和恢复仍然很困难。这些问题阻碍了在复杂环境中进行可靠的故障检测、因果推理和故障恢复执行[188]。

安全探索：现实世界中的强化学习必须确保智体的经验收集过程避免与物理环境发生不安全的交互。安全探索将策略搜索限制在与任务相关且可逆的状态空间区域，从而确保有效学习的同时避免灾难性后果。现有方法大致可分为保守安全评估器、结构化任务分解和实时安全执行，这些方法在安全保障和学习效率之间取得了权衡。

保守安全评估器：保守安全评估器提供了一种原则性的机制，用于评估现实世界探索过程中行动建议的风险，通常会训练一个辅助评估器来估计违反安全约束的可能性。Recovery RL [118] 引入了学习的恢复区域：机器人可以从这些状态空间区域安全地返回到正常运行状态。此外，SLAC [119] 通过在低保真模拟中预训练与任务无关的潜在动作空间，建立了一个安全且具有时间结构的先验行为，从而约束现实世界的探索。

结构化任务分解：结构化任务分解将复杂的机器人训练任务分解为更简单的子任务，以便进行可控的安全检查。例如，GRAPE [71] 利用视觉-语言模型将复杂的操纵任务分解为可解释的阶段，并使用语义关键点自动推导出时空安全约束。类似地，[196] 采用评估器机制来概率性地确定整个训练过程中安全约束的满足情况。

实时安全执行：实时安全执行通过在执行层面直接应用控制理论安全约束来确保强化学习探索的安全性。例如，带有参考限制的阻抗控制器 [44] 可以实时限制末端执行器的力和速度，即使强化学习策略提出激进的动作，也能防止不安全的接触。此外，SafeVLA [120] 是一种集成安全方法 (ISA)，它利用约束马尔可夫决策过程 (CMDP) 范式，从最小最大化的角度优化视觉-语言-动作 (VLA)，以应对已识别的安全风险，从而实现安全性和性能之间的权衡。

潜在挑战：一个持续存在的挑战是如何将高级语义推理与低级安全保障相结合。目前的框架难以将抽象的、基于语义的规则（例如，小心处理易碎物品）与必须执行物理约束的具体低级控制策略（例如，特定的扭矩或速度限制）联系起来。这种脱节在分布偏移的情况下尤为关键。当智体遇到新的状态时，要同时确保语义目标和物理安全就变得异常困难。

基准测试和评估对于评估强化学习-视觉语言动作（RL-VLA）的进展至关重要。由于这些系统具有具身性和多模态特性，标准化评估必须综合考虑算法性能、交互保真度和实际部署能力。现有工作大致可分为基于仿真和基于真实世界的基准测试，并辅以一系列量化效率、安全性和自主性的评估指标。

仿真数据集和基准测试

通过强化学习优化机器人基础模型需要与环境进行大量交互。为了支持这一过程，人们使用各种仿真基准测试来评估强化学习算法的有效性。这些基准测试通常包括合成场景、基于物理的仿真、物体操作任务、任务执行过程和智能体与环境的交互。

单臂操作基准测试：主要操作基准测试的概述见表II。基准测试对于VLA中可扩展的强化学习训练至关重要，其中并行环境可以实现快速的样本收集并缩短实际学习时间，类似Gym的API确保了标准化和可复现的评估，而GPU加速渲染则提供了大规模的高保真观测和逼真的动力学。LIBERO [121] 和 Meta-World [122] 是两个常用的套件，支持多任务和长时程控制的强化学习训练。ManiSkill [123], [197] 是一个接触丰富的、物理精确的仿真套件，并配有专家演示，以扩展强化学习数据。BEHAVIOR [198] 和 RoboVerse [199] 都提供了大量不同的任务，用于可扩展的强化学习训练和具有挑战性的测试。RoboCasa [200] 专注于家庭场景，提供逼真的场景，使机器人能够学习鲁棒且可迁移的策略。Colosseum [124] 基于 RLBench [201] 构建，涵盖各种扰动轴（例如，外观、光照），而 Franka Kitchen [125] 使用 MuJoCo [202] 厨房来研究长时程操作，例如打开烤箱燃烧器和打开橱柜。CALVIN [126] 提供了一个标准评估，在三个环境中进行训练，并在剩余的一个环境中进行测试，支持强化学习训练和跨场景泛化测试。 SIMPLER [127] 提供经过专门校准的仿真环境，能够模拟常见的机器人配置和狭窄间隙，而无需完整的数字孪生模型。配套的仿真与实际实验研究表明，SIMPLER 的性能与实际机器人的成功率之间存在很强的相关性。

双臂操作基准：RoboTwin [102] 是一个双臂操作基准，它将真实的远程操作演示与基于单张图像生成的数字孪生场景相结合，提供对齐的仿真/实际任务定义和指标。此外，RoboTwin 2.0 [99] 通过自动化专家数据管道、包含多个实例的精选对象集以及涵盖多种机器人形态的双臂基准测试，扩展了该平台的功能。结构化的领域随机化（例如，杂乱、光照、背景）和多模态大型语言模型增强了强化学习训练的鲁棒性。

真实世界数据集和基准测试

VLA 算法的进步很大程度上依赖于高质量真实世界数据集的可用性。随着时间的推移，研究人员已经收集了涵盖多种传感器模式、任务和环境条件的各种数据集，这些数据集构成了推动真实世界机器人技术发展的关键资源。这些数据集捕捉了机器人与环境之间的多模态交互，包括视觉、本体感觉和触觉反馈等感觉输入，以及相应的动作和上下文信息。

通用强化学习套件：LeRobot [128] 提供一个通用的开源基础架构，它统一了数据集组织、数据采集工具和用于强化学习的集成训练-评估流程，并将可部署的策略工件打包，从而降低了硬件实验的成本。 SERL [129] 是一套基于真实机器人的强化学习套件，它集成了一个强大的离策略视觉学习器，并结合了奖励设定、自动重置和安全控制等实用组件，从而能够完成诸如 PCB 插入和电缆布线等标准化任务。它证明了可以在硬件上高效地训练出稳健的策略。

域特定基准测试：这些基准测试针对特定任务在可复现条件下的长时域控制、泛化能力和仿真-到-真实环境的保真度。RoboTwin2.0 [99] 支持在多种双臂机器人形态和广泛的任务集上进行标准化的机器人上评估，并发布了一个生成器、一个精心整理的多实例对象库以及一系列协议，以促进可复现的真实世界研究。 FurnitureBench [130] 通过可重复的硬件设置、3D 打印部件和清晰的协议，实现了家具组装的标准化，涵盖了抓取、插入、拧螺丝等独立技能以及完整的组装过程。RoboCup@Home [131] 则构建一个不断发展的家用服务机器人竞赛框架，该竞赛同时追踪机器人在物理技能和更高层次认知能力方面的进步。FMB [132] 专注于可重复的 3D 打印物体，这些物体需要分阶段的技能，例如抓取、夹具辅助的重新定向和精确插入。这些技能数据通过 Franka Panda 机器人收集，并发布多条专家轨迹、多视图 RGB-D 图像和 CAD 资产，以便通过标准化的长期评估来评估机器人对未知几何形状和位置的泛化能力。

评估指标

评估 RL-VLA 系统的性能需要能够同时捕捉传统 RL 目标和现实世界机器人独特的多模态和具身挑战的指标。与仅关注累积奖励的传统基准不同，RL-VLA 评估必须考虑可解释性、物理效率和人机交互动态。有几个常用的指标：

(1) 成功率：它衡量智体达到目标（通常定义为任务完成或与指令语义一致）的episode比例。它清晰地指示整体策略能力，并应用于模拟和真实场景。
(2) 平均episode收益：该指标评估每个回合的预期累积奖励，反映学习的效率和稳定性。它仍然是大多数强化学习模型（包括视觉语言条件控制[23]）的标准目标。
(3) 安全成本：由 SafeVLA [120] 提出，该指标衡量训练和部署过程中风险或约束违规的程度。它量化了可能损坏机器人或环境的不安全行为、碰撞或状态转换，是衡量策略在实际操作中安全性和可靠性的关键指标。
(4) 周期时间：由 RLDG [75] 和 CO-RFT [22] 提出，周期时间量化实际学习周期的时间效率——衡量系统完成数据收集、策略更新和部署的速度。它提供衡量实际训练吞吐量和系统级可扩展性的重要指标。
(5) episode长度：ConRFT [85] 使用episode长度作为任务鲁棒性的代理指标，表明智体是否能够维持连贯的动作序列而不会过早失败或终止。较短的平均任务长度通常表明策略不稳定或探索不安全。
(6) 干预率：由 ConRFT [85] 提出，该指标衡量人类监督员在实际训练或部署期间的干预频率。较低的干预率意味着更高的自主性和更安全的探索——这是具身强化学习在物理环境中运行的关键要素。

潜在挑战：目前实际强化学习中的评估协议通常侧重于任务级指标，例如成功率和回合回报，而忽略了反映实际部署性能的系统级指标。一个全面的框架还应该包含推理延迟 [92] 和运行时稳定性等因素，这些因素对于评估策略在具身环境中运行的效率和安全性至关重要。

尽管RL-VLA取得令人瞩目的进展，但在此类系统能够在动态、开放的物理环境中稳健运行之前，仍然存在诸多挑战。

扩展到长时程任务：目前的RL-VLA系统难以处理长时程任务，因为强化学习仅监督最终动作，缺乏对中间推理过程的指导。有前景的解决方案包括类似思维链的监督和记忆检索机制[93]、[94]、[203]、[204]，这些机制将结构化推理与序列建模相结合，帮助智能体回忆先前的经验，并在较长的轨迹中保持时间一致性。

基于模型的RL用于VLA：由于奖励稀疏且延迟，以及样本效率有限，目前的RL-VLA系统效率仍然不高，严重依赖大量的模拟运行来进行策略更新。有前景的解决方案在于基于模型的强化学习，其中预测性世界模型学习环境动态，以生成信息丰富的奖励和合成状态，从而实现更快、更具可扩展性的训练[65]–[67]。

高效且可扩展的真实机器人训练：由于并行化程度有限以及对人工监督的严重依赖（用于安全运行和重置）[44]、[53]，在物理机器人上训练RL-VLA仍然效率低下且成本高昂。有前景的解决方案包括用于自动故障处理的推理智能体、用于安全探索的反应式智能体，以及结合真实世界到模拟器运行的多机器人共享训练，以提高样本效率，同时减少人工干预[78]。

可靠且可复现的RL-VLA：由于多模态强化学习对设计选择、超参数和随机环境动态高度敏感[22]、[205]，RL-VLA系统通常表现出不稳定的优化和较差的可复现性。提高可靠性需要一致的训练流程、受控的评估环境以及算法设置的标准化报告，以确保在不同机器人平台上进行公平比较并获得可复现的结果。

安全且风险感知的RL-VLA：由于不完善的感知、延迟的控制以及探索过程中有限的监督所带来的不可逆风险[118]，确保现实世界RL-VLA的安全性仍然具有挑战性。有前景的解决方案结合了预测性风险建模、基于约束的策略优化和语言条件安全推理，以实现具身智体的安全可靠部署[120]、[206]。

机器人操作VLA模型的强化学习：综述

如图所示RL-VLA的分类：

动作

奖励

转换建模

在线 RL-VLA

离线RL-VLA

测试-时 RL-VLA

仿真-到-真实迁移

真实世界强化学习

仿真数据集和基准测试

真实世界数据集和基准测试

评估指标

更多推荐文章

相关免费在线工具

机器人操作VLA模型的强化学习：综述

如图所示RL-VLA的分类：

动作

奖励

转换建模

在线 RL-VLA

离线RL-VLA

测试-时 RL-VLA

仿真-到-真实迁移

真实世界强化学习

仿真数据集和基准测试

真实世界数据集和基准测试

评估指标

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具