【论文阅读】DreamZero:World Action Models are Zero-shot Policies

【论文阅读】DreamZero:World Action Models are Zero-shot Policies

快速了解部分

基础信息(英文):

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型,通过同时预测视频和动作(world action model),让机器人能像人类一样通过“脑补”画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。

核心方法:关键技术、模型或研究设计(简要)

采用预训练的视频扩散模型作为骨干,构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明,通过将机器人策略学习转化为联合视频与动作预测问题,可以利用网络规模的视频数据预训练模型,从而获得强大的物理直觉和空间感知能力,解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变:不同于VLAs仅学习“看到什么做什”,WAMs学习“动作如何改变世界”。
数据效率:打破了传统观念,证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
跨具身迁移:展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时,模型首先在内部“脑补”出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。

请添加图片描述

解决方法的具体做法

模型架构:基于14B参数的视频扩散模型Wan2.1,增加了状态和动作编码器/解码器。
训练方式:使用Flow Matching目标,联合去噪视频潜变量和动作潜变量。
推理优化:提出了DreamZero-Flash技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础,特别是利用了Wan2.1-I2V作为视觉骨干,并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置:在AgiBot G1(双臂移动 manipulator)和Franka(单臂)机器人上进行预训练和评估。
数据:使用了约500小时的AgiBot异构数据,以及DROID数据集。
评估方式:在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
结论:DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上;仅需10-20分钟的其他机器人或人类视频数据,性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

  1. WAM,输入video和action,以及text,输出action和video。

有一个把历史frames送入kv cache的操作,然后用的是GT frames。左侧图是对比,右侧是本文。Q是y轴,x轴是KV(记忆),模型在看问题Q时可以参考KV记忆。

请添加图片描述

Read more

Pi0模型微调入门教程:基于LoRA在自有机器人数据上进行动作策略适配

Pi0模型微调入门教程:基于LoRA在自有机器人数据上进行动作策略适配 重要提示:本文介绍的Pi0模型微调方法主要适用于研究和开发环境,在实际机器人部署前请充分测试验证安全性。 1. 教程概述 1.1 学习目标 本教程将带你从零开始,学习如何使用LoRA(Low-Rank Adaptation)技术对Pi0机器人控制模型进行微调。学完本教程后,你将能够: * 理解Pi0模型的基本架构和微调原理 * 准备自己的机器人数据集并处理成合适格式 * 使用LoRA方法高效微调Pi0模型 * 评估微调后的模型性能并部署使用 1.2 前置知识要求 为了更好理解本教程,建议具备以下基础知识: * Python编程基础(能看懂简单代码) * 了解机器学习基本概念(训练、验证、测试) * 有过PyTorch或类似框架的使用经验更佳 * 对机器人控制有基本了解(非必须,但有帮助) 1.3 为什么选择LoRA微调 LoRA是一种参数高效的微调方法,相比全参数微调有三大优势: 1. 训练速度快:只需要训练少量参数,大大缩短训练时间 2. 内存占用少:可以在消费级GPU

GoView + AI:低代码开发的新革命

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 输入框内输入如下内容: 使用GoView平台创建一个智能数据可视化仪表盘,能够根据用户输入的自然语言描述自动生成对应的图表和交互组件。要求支持多种数据源连接,包括Excel、API和数据库,并具备实时数据更新功能。仪表盘应包含折线图、柱状图和饼图,支持拖拽布局和主题自定义。 3. 点击'项目生成'按钮,等待项目生成完整后预览效果 最近在做一个数据可视化项目时,发现传统开发方式需要写大量重复代码,效率实在不高。后来尝试了GoView这个低代码平台,配合AI辅助开发,整个过程变得轻松多了。分享一下我的实践心得。 1. 自然语言描述生成界面 以前做数据可视化,光是设计图表布局就要花半天时间。现在只需要用自然语言描述需求,比如"创建一个展示近半年销售趋势的折线图,左侧显示销售额,右侧显示增长率",GoView的AI就能自动生成对应的图表框架。系统会智能识别时间字段、数值字段,并给出合理的默认配置。

FPGA加速图像处理:核心算法全解析

FPGA加速图像处理:核心算法全解析

FPGA(现场可编程门阵列)在图像处理领域因其并行处理能力、低延迟、高能效和可定制化 的特点而极具优势,特别适合于实时性要求高、算法固定、功耗受限 的应用场景。 以下是FPGA上常实现的主流图像处理算法,按处理流程和类别划分: 一、底层图像预处理(像素级操作) 这类算法高度并行,非常适合FPGA。 1. 色彩空间转换 * RGB转灰度:Y = 0.299R + 0.587G + 0.114B,可通过移位和加法实现,无需乘法器。 * RGB与YCbCr互转:视频压缩(如JPEG, H.264)中的关键步骤,FPGA可以并行计算三个分量。 2. 几何变换 * 旋转、缩放、平移:需要插值算法(如双线性插值、最邻近插值)。FPGA可以并行计算多个输出像素的坐标和插值。 3. 图像校正 * 镜头畸变校正:通过查找表(LUT)

机器人建模(URDF)与仿真配置

在我们搭建好了开发环境之后,下一步就是赋予机器人“身体”。URDF 就是这个身体的蓝图,而仿真配置则是让这个身体在虚拟世界中“活过来”的关键一步。 📝 第一部分:URDF——机器人的“骨骼”与“皮肤” URDF 的核心是描述机器人的运动学与动力学属性,它由一套 XML 标签构成 。 核心构成要素 建模的两种主流方式 1. 从零编写(学习/简单模型): * 使用文本编辑器或 VS Code 直接编写 URDF/Xacro 文件。 * 黄金教程:官方 urdf_tutorial 包提供了从视觉、碰撞属性到使用 Xacro 宏语言优化代码的完整指南 。推荐按照 “视觉 -> 可动 -> 物理属性 ->