最新TRO 2026｜G3M：Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

优质文章学习记录

06 Apr 2026 — 4 min read

最新TRO 2026｜G3M：Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

论文：Learning From Videos Through Graph-to-Graphs Generative Modeling for Robotic Manipulation
期刊：IEEE Transactions on Robotics (TRO 2026)
单位：北京理工大学
DOI: 10.1109/TRO.2026.3658211

👉 文章链接：
https://mp.weixin.qq.com/s/JpGoPAcJpJujJ2uGbee6fQ
我在里面做了更详细的模块拆解与实验分析。

一、问题背景：视频数据能不能替代昂贵的机器人动作数据？

在机器人模仿学习（Imitation Learning）中，一个核心瓶颈是：

高质量 action-labeled 机器人数据采集成本极高
人工示教效率低
跨机器人迁移困难

相比之下：

人类操作视频海量存在
无标注视频易获取
包含丰富的物理与行为知识

问题在于：

视频没有动作标签，如何转化为可用于策略学习的监督信号？

这篇TRO 2026论文提出了一种非常有意思的解决方案：

G3M：Graph-to-Graphs Generative Modeling

核心思想：

不再从“像素预测像素”，
而是从“图”预测“图”。

二、方法核心：从视频帧构建图结构

传统视频预训练方法的问题：

在 pixel-level 建模
忽略物体之间结构关系
难以表达拓扑与交互
sim-to-real gap 大

G3M 的核心改进是：

将视频帧抽象为图结构
预训练模型生成未来图
使用生成图指导控制策略

三、Graph 表示设计

每一帧构建图：

1️⃣ Object Vertices（物体节点）

分割模型提取 mask
在物体区域均匀采样点
表示物体状态

2️⃣ Visual Action Vertices（视觉动作节点）

创新点在这里。

不是直接用机器人关节状态，而是：

人类视频 → 提取指尖关键点
机器人视频 → 提取 gripper 关键交互点

这本质上是在建模：

物体与“交互点”的拓扑关系

这样可以实现：

跨机器人迁移
跨人机迁移
抽象“操作本质”

四、Property-Aware Hierarchical Graph Modeling

论文解决两个难点：

难点1：物体属性差异

软体、刚体、弹性物体行为不同。

做法：

使用历史H帧图
GNN提取对象特征
LSTM建模时间依赖
自动预测物体属性

这样无需手动标注物理参数。

难点2：局部结构 vs 长距离依赖

提出 Hierarchical Graph：

局部节点
聚类形成全局 root 节点
root-to-root fully connected
leaf-to-root 双向连接

实现：

保留局部精细结构
同时建模全局空间关系

五、Graph-Image Interaction

Graph embedding 在空间域
Image embedding 在像素域

如何对齐？

论文提出：

为 graph 和 image 加 2D positional encoding
使用 cross-attention 建立空间-像素桥梁

核心公式：

 Ẑh = CrossAttention(Zh + PEh, Zo + PEo)

实现：

空间-像素语义对齐

六、使用 Diffusion 生成未来图

未来状态是多模态的。

因此采用：

Diffusion Transformer (DiT)

预测：

p(G_t:t+F | Z_graph, Z_img, Z_text)

只生成：

顶点位置
边根据距离自动构建

这是一个非常优雅的设计。

七、Graph-Guided Policy

策略输入：

未来图序列
当前图像
机器人 proprioception

通过 Transformer 融合后输出动作。

本质：

先预测未来结构
再让策略学习如何到达该结构

八、实验结果

1️⃣ LIBERO 130任务

仅用 20% action-labeled 数据
超越 ATM、UniPi 等方法
平均提升 >19%

2️⃣ 真实机器人实验

提升 >23%
显著增强鲁棒性

3️⃣ 跨机器人迁移

Franka → UR：

提升 >35%

说明图表示确实学到了“交互本质”。

九、核心贡献总结

提出 Graph-to-Graphs 视频预训练框架
引入 Action-informed transferable graph
提出 property-aware hierarchical graph modeling
设计 graph-image interaction 机制
显著提升低数据场景性能

十、方法思考

G3M 的真正价值在于：

把视频预训练从“像素级预测”升级为“结构级建模”
利用图的 relational inductive bias
抽象交互点而非依赖机器人形态

这是一种非常值得关注的方向。

本地服务器部署Text generation并添加code llama实现远程多人协作

文章目录 * 前言 * 1. 本地部署Text generation Web UI * 2. 安装CodeLlama大模型 * 3. 实现公网远程使用Code Llama * 4. 固定Text generation Web UI公网地址前言本篇文章介绍如何在本地部署Text generation Web UI并搭建Code Llama大模型运行,并且搭建Code Llama大语言模型，结合Cpolar内网穿透实现公网可远程使用Code Llama。 Code Llama是一个可以使用文本提示生成代码的大型语言模型 (LLM)。可以使当前开发人员的工作流程更快、更高效，并降低学习编码人员的进入门槛。 Code Llama 有潜力用作生产力和教育工具，帮助程序员编写更强大、文档更齐全。 Text generation Web UI部署非常简便，不仅在github主页上直接提供了一键部署安装包，同时由于是web UI形式，直接通过浏览器即可操作，不过本地化部署，无法远程访问，这里我们结合cpolar工具实现从安装到最后实现远程访问。那么接下来先在本地部署一

全球AI绘画与多模态开发指南：详解 /v1/chat/completions 接口参数与 4SAPI 实战技巧

在2026年的AI多态创作热潮中，高效开发者对稳定、接口需求已从复杂的文本生成延展到视觉控制与创意落地的全流程。4SAPI作为聚合全球顶尖AI模型的服务平台，其核心接口/v1/chat/completions不仅完美兼容OpenAI接口规范，更无缝支持了AI绘画相关的提示词（提示）工程化、贸易视觉风格定制及多模态需求。本文将深度拆解该接口的核心参数、调用流程与实战技巧，助你无意中开发中的暗礁，快速构建下一代AI创意工具。一、接口核心信息速览 * 接口地址：https://4sapi.com/v1/chat/completions * 请求方式：POST * 兼容特性：完全兼容OpenAI API标准，可重构代码即可平滑迁移。支持Claude 4.5、GPT-5.2、Gemini 3.0 Pro等全球30+主流模型。针对绘画场景，推荐优先选择擅长场景描述的增强型模型。 * 核心功能：支持根据自然语言生成精准的绘画提示、风格参数配置，或直接对接多模态模型进行图文交互。支持服务器发送事件（SSE）流式响应、

GLM-4.7-Flash实战教程：基于GLM-4.7-Flash构建本地Copilot工具

GLM-4.7-Flash实战教程：基于GLM-4.7-Flash构建本地Copilot工具 1. 为什么需要本地Copilot工具在日常编程和工作中，我们经常需要代码建议、文档生成、问题解答等AI辅助功能。虽然云端AI服务很方便，但存在网络延迟、隐私安全、使用成本等问题。基于GLM-4.7-Flash构建本地Copilot工具，可以让你： * 完全离线运行：不依赖网络，响应速度极快 * 数据隐私安全：所有对话和代码都在本地处理 * 定制化能力强：可以根据自己的需求调整模型行为 * 成本可控：一次部署，长期使用，无按次付费 GLM-4.7-Flash作为最新的开源大模型，在代码理解和生成方面表现出色，特别适合作为本地编程助手。 2. 环境准备与快速部署 2.1 硬件要求为了流畅运行GLM-4.7-Flash，建议准备以下硬件环境： * GPU：4张RTX 4090 D显卡（或同等算力） * 内存：至少128GB系统内存 * 存储：至少100GB可用空间（模型文件约59GB）

知网AIGC检测算法2026大升级：新规则解读+应对策略

2025年12月，知网悄悄升级了AIGC检测算法。很多同学发现，以前能通过的论文，现在突然被检测出高AI率。这篇文章帮大家解读一下：新算法到底变了什么？我们应该怎么应对？算法升级：变了什么变化一：检测维度增加旧算法主要看三个维度：词汇特征、句法特征、文本长度分布。新算法加了两个维度：语义一致性检测：检测整篇文章的语义是否过于「平滑」。人写东西会有观点碰撞、逻辑跳跃，AI写的东西从头到尾都很顺，太顺了反而可疑。引用关联度检测：检测参考文献和正文内容的关联程度。AI有时候会「幽灵引用」，就是列了参考文献但正文里没有真正引用，或者引用的内容和文献不对应。变化二：特征词库更新知网维护着一个「AI特征词库」，记录AI喜欢用的词汇和表达方式。 2026年的更新重点关注了DeepSeek、豆包、Kimi这几个国产大模型的输出特征。比如： * 「基于……视角」 * 「在此背景下」 * 「通过……发现」 * 「研究表明」用得太频繁 * 「综合来看」「从整体而言」等过渡词这些词以前不算AI特征，

最新TRO 2026｜G3M：Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

优质文章学习记录

最新TRO 2026｜G3M：Graph-to-Graphs Generative Modeling 用视频预训练机器人操作

一、问题背景：视频数据能不能替代昂贵的机器人动作数据？

G3M：Graph-to-Graphs Generative Modeling

二、方法核心：从视频帧构建图结构

三、Graph 表示设计

1️⃣ Object Vertices（物体节点）

2️⃣ Visual Action Vertices（视觉动作节点）

四、Property-Aware Hierarchical Graph Modeling

难点1：物体属性差异

难点2：局部结构 vs 长距离依赖

五、Graph-Image Interaction

六、使用 Diffusion 生成未来图

七、Graph-Guided Policy

八、实验结果

1️⃣ LIBERO 130任务

2️⃣ 真实机器人实验

3️⃣ 跨机器人迁移

九、核心贡献总结

十、方法思考

更多技术拆解

Read more

本地服务器部署Text generation并添加code llama实现远程多人协作

全球AI绘画与多模态开发指南：详解 /v1/chat/completions 接口参数与 4SAPI 实战技巧

GLM-4.7-Flash实战教程：基于GLM-4.7-Flash构建本地Copilot工具

知网AIGC检测算法2026大升级：新规则解读+应对策略