PPO-VLA:强化学习如何让机器人“看得更懂、抓得更准”?

PPO-VLA:强化学习如何让机器人“看得更懂、抓得更准”?

一项来自清华大学的实证研究表明,相比传统的监督微调,使用PPO算法进行强化学习微调,能使VLA模型在语义理解和执行鲁棒性方面的分布外泛化能力提升高达42.6%。

论文:What Can RL Bring to VLA Generalization? An Empirical Study 链接:https://arxiv.org/abs/2505.19789 代码:https://rlvla.github.io

想象一下,你让一个家用机器人“把桌上的苹果放进碗里”。在实验室里,它可能完成得很好。但一旦进入你家,面对从未见过的餐桌纹理、一个形状奇特的“碗”、或者在你下达指令时苹果被意外碰歪了位置,它还能顺利完成吗?

这正是当前VLA模型面临的泛化挑战。这类模型通过整合视觉感知、语言理解和机器人控制,已成为具身人工智能领域的明星。然而,其主流训练方法——监督微调,本质上是在模仿专家演示数据。当环境稍有变化,微小的误差便会累积,导致机器人“不知所措”。

来自清华大学的研究团队提出并系统性地回答了这个问题:强化学习能为VLA的泛化带来什么? 他们的研究不仅构建了一个严格的评估基准,更通过大量实验揭示:以近端策略优化为代表的强化学习微调,能显著提升VLA模型在语义理解和动作执行上的鲁棒性,为打造真正适应复杂现实世界的机器人智能体提供了关键洞见。

一、 问题核心:SFT的“模仿”瓶颈与RL的“试错”潜力

VLA模型通常基于在互联网海量数据上预训练的大模型(如LLaMA、CLIP),再在机器人演示数据集上进行监督微调。这个过程就像教孩子学写字:给他看很多遍“正确”的笔画,希望他能模仿出来。

然而,这种方法的根本局限在于 “分布偏移下的复合误差” 。训练数据中的场景、物体、指令是有限的。一旦测试环境与训练数据有出入(例如出现了新物体、新背景或物体位置偏移),模型基于“记忆”做出的动作就可能出错。在需要连续决策的机器人任务中,一个步骤的小偏差会引发后续步骤的更大错误,最终导致任务失败。

相比之下,强化学习走的是另一条路:让智能体在与环境的直接交互中,通过试错来学习如何最大化任务奖励。它不局限于模仿已有的“正确”答案,而是主动探索,学习从错误中恢复,从而可能获得超越演示数据的、更鲁棒的行为策略。

尽管RL在语言模型等领域已展现出卓越的泛化能力,但其在VLA模型上的具体收益一直缺乏系统性评估。清华团队的这项研究,正是为了填补这一空白。

二、 方法探路:为何PPO成为VLA微调的“最优解”?

研究首先面临一个关键选择:在众多适用于大模型的RL算法中,哪种最适合VLA?团队测试了三种代表性算法:

  • • 近端策略优化:经典的在线策略梯度算法,通过交互采样数据并优化策略。
  • • 组相对策略优化:一种无需显式价值函数、通过组内样本比较来估计优势的方法,在部分NLP任务中表现优异。
  • • 直接偏好优化:一种流行的离线对齐算法,利用偏好数据直接优化策略。

图片

本研究的基模型——OpenVLA架构。它将视觉编码器与语言模型结合,直接输出离散化的机器人动作词元。

实验在一个典型的“拾取-放置”任务上进行。结果如图3所示,PPO的表现显著且稳定地优于GRPO和DPO。

图:不同RL算法在VLA微调中的性能对比。PPO及其变体(PPO-ORZ)展现出明显优势。

图:不同RL算法在VLA微调中的性能对比。PPO及其变体(PPO-ORZ)展现出明显优势。

研究者分析认为,机器人任务是一个部分可观测的马尔可夫决策过程,每个动作都会顺序地、非平稳地改变环境状态。GRPO基于固定初始状态采样的组内比较,在这种动态环境中可能变得不稳定。而DPO依赖高质量的离线偏好数据,在机器人任务稀疏奖励的设置下,难以有效区分轨迹优劣,且存在严重的分布偏移问题。

因此,PPO凭借其稳定在线学习和高效利用奖励信号的能力,被确立为VLA微调的首选算法。

高效PPO-VLA训练方案的精炼

选定PPO后,研究团队进一步优化,提炼出一套高效、实用的微调方案,核心包含三个设计:

1、共享骨干的演员-评论家架构:直接在预训练的VLA模型(演员)上,附加一个轻量的多层感知机作为评论家头,两者共享Transformer骨干网络。具体而言,评论家接收模型第一个动作词元位置对应的隐藏向量 ,来预测状态价值 。这种设计在保持性能的同时,比独立评论家网络节省了约83%的显存,训练速度提升35%。

2、必要的VLA预热:直接使用在通用数据集上预训练的VLA模型进行RL训练,初期效率低下。研究者先用少量目标任务的演示数据对模型进行监督微调预热,这能使RL收敛所需的环境交互步数减少约50%。

3、最少的PPO更新轮次:实验发现,在每次收集的数据批次上,仅进行1轮PPO更新(即 epoch=1)就能达到最佳样本效率。增加更新轮次不会带来性能提升,反而线性增加训练时间。

图:预热与最小PPO轮次设计对训练效率的影响。预热大幅加速收敛,而单轮更新在保证性能的前提下最为高效。

图:预热与最小PPO轮次设计对训练效率的影响。预热大幅加速收敛,而单轮更新在保证性能的前提下最为高效。

这套方案使得在单个NVIDIA A100 GPU上微调一个7B参数的VLA模型仅需约42小时,具备了很强的实用性。

三、 系统评估:RL在哪些方面真正超越了SFT?

为了全面评估泛化能力,研究者构建了一个涵盖三个维度的严格基准:

  • • 视觉泛化:测试面对未见过的桌面背景、叠加动态纹理或噪声时的鲁棒性。
  • • 语义泛化:测试对未见过的物体、容器以及多样化语言指令的理解能力。
  • • 执行泛化:测试在物体/容器初始位置变化、机器人初始姿态变化、甚至任务中途物体被意外移动等情况下的鲁棒性。

在训练中,模型会接触到上述三个维度有限范围内的随机变化。而在测试时,则专门引入分布外的挑战,例如全新的物体、桌子纹理和干扰项。

关键结果:RL全面领先,尤其在语义与执行层面

首先,研究者探索了监督微调的性能上限。如图6所示,随着演示数据量增加,SFT性能在约1.6万条轨迹后达到平台,无法再通过增加数据获得显著提升。

图:监督微调性能随数据规模的变化。在分布内和分布外场景下,性能均在约16k条轨迹后饱和。

图:监督微调性能随数据规模的变化。在分布内和分布外场景下,性能均在约16k条轨迹后饱和。

随后,他们将达到饱和的SFT模型(SFT-16k)与PPO微调的模型进行全方位对比。核心结论清晰有力:

RL微调不仅在训练分布上达到与最佳SFT相当的水平,更在分布外泛化上实现了大幅超越。 具体而言,在未见过的物体和桌子测试中,RL相比SFT性能提升了42.6%。

更细致的分维度对比如图7和下表所示:

泛化维度

具体任务

SFT成功率

RL成功率

RL相对提升

视觉

背景变化 (OOD Table)

0.80

0.83

+3.8%

动态噪声 (强)

0.47

0.60

+27.7%

语义

未见物体 (Single)

0.57

0.83

+45.6%

多物体选择

0.50

0.77

+54.0%

未见容器

0.70

0.90

+28.6%

执行

物体/容器位置偏移

0.63

0.93

+47.6%

机器人初始位姿变化

0.73

0.97

+32.9%

任务中物体重定位

0.20

0.63

+215%

表:SFT与RL在各类分布外任务上的性能对比。RL在语义和执行泛化上优势显著。

图:(a) SFT与RL在各任务上的详细性能对比(雷达图更直观展示了RL在执行和语义维度的优势)。

图:(a) SFT与RL在各任务上的详细性能对比(雷达图更直观展示了RL在执行和语义维度的优势)。

分析解读:

1、视觉泛化相当:RL并未在视觉扰动上表现出显著优势。研究者认为,这是因为两种方法的训练都包含了类似的视觉随机化,模型从中学习的视觉鲁棒性水平相近。

2、语义泛化显著提升:面对全新物体,RL表现远优于SFT。这表明通过试错,RL学习到的是更本质的“抓取”技能,减少了对特定物体外观的依赖。

3、执行泛化巨大优势:这是RL最亮眼的地方。尤其是在“任务中物体重定位”这种极端动态干扰下,RL的成功率是SFT的三倍以上。RL智能体学会了在抓取失败或目标移动后主动调整、重新尝试,而SFT智能体则倾向于机械地执行预设动作流程。

定性洞察:RL学到了更丰富的策略空间

为何RL能获得更好的泛化能力?可视化分析提供了线索。

图:SFT与RL训练轨迹覆盖范围对比。RL的末端执行器轨迹(颜色表示旋转)在空间中的探索范围更广、更多样。

图:SFT与RL训练轨迹覆盖范围对比。RL的末端执行器轨迹(颜色表示旋转)在空间中的探索范围更广、更多样。

如图8所示,SFT模型的轨迹分布紧密聚集在演示数据提供的运动规划路径周围,本质上是“模仿”。而RL模型的轨迹则覆盖了更广阔的工作空间和更多样的姿态,这是其通过探索学到的、更丰富的技能集。

图9的案例生动展示了这种差异:

1、在强视觉噪声下,SFT智能体抓取后因定位困难而反复掉落物体;RL智能体则能克服干扰完成放置。

2、面对未见物体,SFT智能体出现困惑行为(试图抓取已持有的物体);RL智能体则能顺利执行。

3、当物体被意外移动,SFT智能体“无视”变化继续原计划导致失败;RL智能体则能重新定位并成功抓取。

图:SFT与RL在具体挑战性场景下的行为对比。RL展现出更强的适应和恢复能力。

图:SFT与RL在具体挑战性场景下的行为对比。RL展现出更强的适应和恢复能力。

四、 结论与展望:通向更通用机器人智能的强化学习之路

这项来自清华大学的研究通过严谨的实证分析,明确了强化学习在提升VLA模型泛化能力中的独特价值:

  • • 算法有效性:PPO是当前微调VLA模型最有效的RL算法,优于DPO和GRPO。
  • • 性能增益:相比监督微调,RL能显著提升模型对语义变化和执行干扰的鲁棒性,同时在视觉泛化上保持相当水平。
  • • 实用方案:研究提出了一套高效的PPO-VLA微调方案,具备实际应用可行性。

一个值得注意的技术细节是评论家网络的设计。研究发现,使用共享骨干网络,并取第一个动作词元对应的隐藏状态作为评论家输入,在性能和效率上达到了最佳平衡。

这一设计充分利用了VLA模型因果Transformer的特性,其中第一个动作词元的位置可能聚合了为生成整个动作序列所需的综合状态信息。

这项工作的意义在于,它系统性地验证了强化学习作为突破VLA模型“模仿学习”天花板的关键工具。尽管当前实验限于仿真环境中的单一任务,但其揭示的原理——通过试错探索获得更本质、更鲁棒的技能表示——为未来开发能适应复杂、开放世界环境的通用具身智能体指明了方向。

下一步,将RL微调与仿真到真实的迁移技术结合,在物理机器人上验证其泛化能力,将是激动人心的前沿。

Read more

算法训练之哈希表

算法训练之哈希表

♥♥♥~~~~~~欢迎光临知星小度博客空间~~~~~~♥♥♥ ♥♥♥零星地变得优秀~也能拼凑出星河~♥♥♥ ♥♥♥我们一起努力成为更好的自己~♥♥♥ ♥♥♥如果这一篇博客对你有帮助~别忘了点赞分享哦~♥♥♥ ♥♥♥如果有什么问题可以评论区留言或者私信我哦~♥♥♥✨✨✨✨✨✨ 个人主页✨✨✨✨✨✨         这一篇博客开启算法学习的另外一个篇章——哈希表,准备好了吗~我们发车去探索算法的奥秘啦~🚗🚗🚗🚗🚗🚗 目录 前言😁 哈希表基础概念😍    适用场景😊 实现方式😁 关键注意事项😜 容器使用参考博客🐷 两数之和😊 判断是否为字符串重排😋 存在重复元素Ⅱ🤪 字母异位词分组😀 总结🙃 前言😁 哈希表基础概念😍            哈希表是一种用于存储数据的容器,本质是通过键值对(key-value)的形式组织数据。它的核心优势在于能实现元素的快速查找,理想情况下时间复杂度可达 O(1),远超二分查找的 O(log N)。 适用场景😊         当需要频繁查找某个特定元素时(例

By Ne0inhk
【LeetCode经典题解】二叉树层序遍历:从思路拆解到代码实现,手把手教你搞定!

【LeetCode经典题解】二叉树层序遍历:从思路拆解到代码实现,手把手教你搞定!

🎁个人主页:User_芊芊君子 🎉欢迎大家点赞👍评论📝收藏⭐文章 🔍系列专栏:Java.数据结构 【前言】 二叉树的层序遍历是面试高频考点之一,它要求“逐层、从左到右”访问树的所有节点,最终返回每层节点值组成的二维列表。本文将通过一段代码,图文并茂的方式拆解其实现思路与核心逻辑。 文章目录: * 一、二叉树层序遍历 * 二、思路分析 * 1.初始化“容器” * 2.空树处理: * 3.辅助:队列 * 4.循环逻辑处理 * 4.1 外层循环 * 4.2 内层循环 * 三、代码展示 * 四、总结 一、二叉树层序遍历 二叉树层序遍历遵循“从上到下,从左到右”的原则访问树的所有节点,

By Ne0inhk
【Linux篇章】再续传输层协议TCP:用技术隐喻重构网络世界的底层逻辑,用算法演绎‘网络因果律’的终极推演(通俗理解TCP协议,这一篇就够了)!

【Linux篇章】再续传输层协议TCP:用技术隐喻重构网络世界的底层逻辑,用算法演绎‘网络因果律’的终极推演(通俗理解TCP协议,这一篇就够了)!

📌本篇摘要 * 本篇将根据TCP协议报文的格式来对TCP更深入的了解,学习它的三次握手,四次挥手,滑动窗口等等,到最后能更加深入理解之前写TCP通信的时候,底层到底是如何进行的,读完本篇将会对之前TCP网络通信编程有更深入的认识。 🏠欢迎拜访🏠:点击进入博主主页 📌本篇主题📌:再续TCP协议 📅制作日期📅:2025.12.20 🧭隶属专栏🧭:点击进入所属Linux专栏 一.TCP协议格式 -TCP 全称为 传输控制协议(Transmission Control Protocol). 人如其名, 要对数据的传输进行一个详细的控制。 下面看TCP报文的格式: 下面我们来一个个介绍下这些字段及作用: 1. 🔍十六位窗口大小 * 这里我们知道对于tcp来说,如果接收缓冲区满了,再发送机会被丢弃,因此发送前需要知道对的的接收缓冲区的剩余长度。 * 按量按需发送,必须知道对方的接受缓冲区中剩余空间的大小,因此每次发送的tcp报文都要带有自己剩余接收缓冲区的长度! 2.🔍4位首部长度 * 首先我们要知道tcp光报头就至少20字节(不包含

By Ne0inhk

轨迹数据压缩的Douglas-Peucker算法(附代码及原始数据)

机场出租车调度问题:数学建模实战解析 大家好!今天咱们来聊聊一个特别接地气的数学建模题目——机场的出租车调度问题。这是2019年全国大学生数学建模竞赛的C题,题目看着简单,实际上藏着不少玄机。咱们一起拆解这个题目,看看怎么用数学模型来解决现实生活中的难题。 问题背景:机场出租车的那些事儿 想象一下你刚从飞机下来,拖着行李箱走到出租车候客区,发现有两条队:一条是"短途专用通道",另一条是普通队。为什么会有这样的设计?背后其实是一套复杂的调度系统在运作。 题目给我们几个核心信息点: 1.大多数机场出租车司机会在"蓄车池"排队等待 2.机场管理人员会采集乘客目的地信息 3.对于短途乘客(比如目的地小于某个阈值d),会给司机"补偿"或安排他们优先接客 4.司机可以自主选择是否去"短途专用通道"排队 核心问题就是要我们设计一套合理的调度方案,在乘客等候时间、司机收益和机场管理效率之间找到平衡。 技术原理:排队论与博弈论的双剑合璧

By Ne0inhk