最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

最新TRO 2026|G3M:Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

论文:Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation
期刊:IEEE Transactions on Robotics (TRO 2026)
单位:北京理工大学
DOI: 10.1109/TRO.2026.3658211
👉 文章链接:
https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ
我在里面做了更详细的模块拆解与实验分析。

一、问题背景:视频数据能不能替代昂贵的机器人动作数据?

在机器人模仿学习(Imitation Learning)中,一个核心瓶颈是:

  • 高质量 action-labeled 机器人数据采集成本极高
  • 人工示教效率低
  • 跨机器人迁移困难

相比之下:

  • 人类操作视频海量存在
  • 无标注视频易获取
  • 包含丰富的物理与行为知识

问题在于:

视频没有动作标签,如何转化为可用于策略学习的监督信号?

这篇TRO 2026论文提出了一种非常有意思的解决方案:


G3M:Graph-to-Graphs Generative Modeling

在这里插入图片描述

核心思想:

不再从“像素预测像素”,
而是从“图”预测“图”。

二、方法核心:从视频帧构建图结构

传统视频预训练方法的问题:

  • 在 pixel-level 建模
  • 忽略物体之间结构关系
  • 难以表达拓扑与交互
  • sim-to-real gap 大

G3M 的核心改进是:

  1. 将视频帧抽象为图结构
  2. 预训练模型生成未来图
  3. 使用生成图指导控制策略

三、Graph 表示设计

每一帧构建图:

1️⃣ Object Vertices(物体节点)

  • 分割模型提取 mask
  • 在物体区域均匀采样点
  • 表示物体状态

2️⃣ Visual Action Vertices(视觉动作节点)

创新点在这里。

不是直接用机器人关节状态,而是:

  • 人类视频 → 提取指尖关键点
  • 机器人视频 → 提取 gripper 关键交互点

这本质上是在建模:

物体与“交互点”的拓扑关系

这样可以实现:

  • 跨机器人迁移
  • 跨人机迁移
  • 抽象“操作本质”

四、Property-Aware Hierarchical Graph Modeling

论文解决两个难点:

难点1:物体属性差异

软体、刚体、弹性物体行为不同。

做法:

  • 使用历史H帧图
  • GNN提取对象特征
  • LSTM建模时间依赖
  • 自动预测物体属性

这样无需手动标注物理参数。


难点2:局部结构 vs 长距离依赖

提出 Hierarchical Graph:

  • 局部节点
  • 聚类形成全局 root 节点
  • root-to-root fully connected
  • leaf-to-root 双向连接

实现:

  • 保留局部精细结构
  • 同时建模全局空间关系

五、Graph-Image Interaction

Graph embedding 在空间域
Image embedding 在像素域

如何对齐?

论文提出:

  • 为 graph 和 image 加 2D positional encoding
  • 使用 cross-attention 建立空间-像素桥梁

核心公式:

 Ẑh = CrossAttention(Zh + PEh, Zo + PEo) 

实现:

空间-像素语义对齐

六、使用 Diffusion 生成未来图

未来状态是多模态的。

因此采用:

  • Diffusion Transformer (DiT)

预测:

p(G_t:t+F | Z_graph, Z_img, Z_text)

只生成:

  • 顶点位置
  • 边根据距离自动构建

这是一个非常优雅的设计。


七、Graph-Guided Policy

策略输入:

  • 未来图序列
  • 当前图像
  • 机器人 proprioception

通过 Transformer 融合后输出动作。

本质:

先预测未来结构
再让策略学习如何到达该结构

八、实验结果

1️⃣ LIBERO 130任务

  • 仅用 20% action-labeled 数据
  • 超越 ATM、UniPi 等方法
  • 平均提升 >19%

2️⃣ 真实机器人实验

  • 提升 >23%
  • 显著增强鲁棒性

3️⃣ 跨机器人迁移

Franka → UR:

  • 提升 >35%

说明图表示确实学到了“交互本质”。


九、核心贡献总结

  1. 提出 Graph-to-Graphs 视频预训练框架
  2. 引入 Action-informed transferable graph
  3. 提出 property-aware hierarchical graph modeling
  4. 设计 graph-image interaction 机制
  5. 显著提升低数据场景性能

十、方法思考

G3M 的真正价值在于:

  • 把视频预训练从“像素级预测”升级为“结构级建模”
  • 利用图的 relational inductive bias
  • 抽象交互点而非依赖机器人形态

这是一种非常值得关注的方向。


更多技术拆解

本文为论文技术结构梳理版本。

如果你想看更完整的公众号深度解读版(包含完整架构图 + 关键模块解析):

👉 公众号文章链接:

https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ

我在公众号里做了更详细的模块拆解与实验分析。


作者:石去皿
公众号:AI软开笔记

Read more

MBA培训管理系统低代码实战指南

MBA培训管理系统低代码实战指南

目录 * MBA培训管理系统开发实战指南 * 前言 * 第一部分:系统架构与组织管理 * 第01讲:系统概述与架构设计 * 第02讲:部门管理——组织架构的基石 * 第03讲:部门管理进阶——子部门与完整操作 * 第04讲:人员管理——企业管理的核心 * 第05讲:岗位管理——职责体系的构建 * 第06讲:角色管理——权限控制的基础 * 第07讲:页面管理与权限分配 * 第二部分:CRM客户管理 * 第08讲:用户登录与门户路由 * 第09讲:页面权限校验 * 第10讲:线索管理——销售的源头活水 * 第11讲:渠道管理——外部合作的桥梁 * 第12讲:线索分配——销售的精准对接 * 第13讲:门户管理——员工登录与工作台 * 第14讲:跟进管理——销售的日常工作 * 第15讲:公海池管理——客户资源的科学流转 * 第16讲:商机管理—

Flash Table实测:JAI赋能低代码开发,重塑企业级应用构建范式

Flash Table实测:JAI赋能低代码开发,重塑企业级应用构建范式

目录 * 🔍 引言 * 1.1 什么是Flash Table * 1.2 低代码平台的进化与FlashTable的革新 * ✨FlashTable背景:为什么需要新一代低代码平台? * 2.1 传统开发的痛点 * 2.2 低代码平台的局限 * 2.3 FlashTable的差异化定位 * 💻 FlashTable安装:Docker部署&Jar包部署 * 3.1 基础环境要求 * 3.2 Docker部署(推荐方案) * 3.3 Jar包部署(无Docker环境) * 3.4 常见问题 * 📚FlashTable功能深度评测:从案例看真实能力 * 4.1 数据孤岛?FlashTable 自动化匹配字段 * 4.2 FlashTable复杂表单的开发挑战 * 4.3

FPGA教程系列-Vivado AXI4-Stream Data FIFO核解读测试

FPGA教程系列-Vivado AXI4-Stream Data FIFO核解读测试

FPGA教程系列-Vivado AXI4-Stream Data FIFO核解读测试 FIFO depth (FIFO 深度): 定义了 FIFO 能存储多少个数据字(Data Words)。 注意:实际占用的存储资源取决于深度乘以数据宽度(TDATA width)。 Memory type (存储器类型): Auto * 决定用 FPGA 内部的哪种资源来实现 FIFO。 * Auto: 让 Vivado 综合工具根据 FIFO 的大小自动选择(通常小 FIFO 用分布式 RAM/LUTRAM,大 FIFO 用块 RAM/BRAM)。 * Block RAM: 强制使用 BRAM。 * Distributed RAM: 强制使用 LUT 搭建的

【ROS 2】运行 ROS 2 机器人 ( ROS 2 机器人示例 - 海龟仿真器 | ROS 节点分析工具 - rqt | ros2 run 命令解析 | ros2 run 基础格式和完整格式 )

【ROS 2】运行 ROS 2 机器人 ( ROS 2 机器人示例 - 海龟仿真器 | ROS 节点分析工具 - rqt | ros2 run 命令解析 | ros2 run 基础格式和完整格式 )

文章目录 * 一、ROS 2 机器人示例 - 海龟仿真器 * 1、启动海龟仿真器节点 * 2、启动控制节点 * 3、ROS 节点分析工具 - rqt * 二、ros2 run 命令解析 * 1、设计理念 * 2、ros2 run 基础格式 * 3、ros2 run 完整格式 * 4、启动海龟仿真器命令分析 在上一篇博客 【ROS 2】ROS 2 Humble 完整环境配置 ( VirtualBox 7.2.4 + Ubuntu 22.04.5 LTS + ROS 2