【论文阅读】DreamZero:World Action Models are Zero-shot Policies

优质文章学习记录

05 Apr 2026 — 4 min read

快速了解部分

基础信息（英文）：

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型，通过同时预测视频和动作（world action model），让机器人能像人类一样通过“脑补”画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法：关键技术、模型或研究设计（简要）

采用预训练的视频扩散模型作为骨干，构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变：不同于VLAs仅学习“看到什么做什”，WAMs学习“动作如何改变世界”。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时，模型首先在内部“脑补”出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

解决方法的具体做法

模型架构：基于14B参数的视频扩散模型Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用Flow Matching目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了DreamZero-Flash技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础，特别是利用了Wan2.1-I2V作为视觉骨干，并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置：在AgiBot G1（双臂移动 manipulator）和Franka（单臂）机器人上进行预训练和评估。
数据：使用了约500小时的AgiBot异构数据，以及DROID数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论：DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上；仅需10-20分钟的其他机器人或人类视频数据，性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

WAM，输入video和action，以及text，输出action和video。

有一个把历史frames送入kv cache的操作，然后用的是GT frames。左侧图是对比，右侧是本文。Q是y轴，x轴是KV（记忆），模型在看问题Q时可以参考KV记忆。

自己招一个ai员工-Ubuntu22.04安装Openclaw详细教程-小白可直接上手-持续更新中

Ubuntu22.04安装Openclaw * 准备工作 * 一键安装 * 设置通道配置飞书 * 让ai员工更好用 * 加入免费的模型 * 配置钉钉 * 在GLM-4 .7-Flash基础上加入deepseek * 加入minimax和豆包模型 * 配置web搜索 * .env File * 🔌 Exa MCP Server for OpenAI Codex * Quick Start * cURL * Function Calling / Tool Use * OpenAI Function Calling * Anthropic Tool Use * Search Type Reference * Content Configuration * Domain Filtering (Optional) * Web Search Tool * Category Examples * People Search (`category:

零基础学AI大模型之嵌入模型性能优化

大家好，我是工藤学编程 🦉一个正在努力学习的小博主，期待你的关注实战代码系列最新文章😉C++实现图书管理系统（Qt C++ GUI界面版）SpringBoot实战系列🐷【SpringBoot实战系列】SpringBoot3.X 整合 MinIO 存储原生方案分库分表分库分表之实战-sharding-JDBC分库分表执行流程原理剖析消息队列深入浅出 RabbitMQ-RabbitMQ消息确认机制（ACK）AI大模型零基础学AI大模型之LangChain Embedding框架全解析前情摘要前情摘要 1、零基础学AI大模型之读懂AI大模型 2、零基础学AI大模型之从0到1调用大模型API 3、零基础学AI大模型之SpringAI 4、零基础学AI大模型之AI大模型常见概念 5、零基础学AI大模型之大模型私有化部署全指南 6、零基础学AI大模型之AI大模型可视化界面 7、零基础学AI大模型之LangChain 8、零基础学AI大模型之LangChain六大核心模块与大模型IO交互链路 9、零基础学AI大模型之Prompt提示词工程 10、零基础学AI大模型之Lan

AI 时代，为什么 “人人都是产品经理” 的时代才真正到来？

从“口号”到“现实”：AI 如何重构产品经理的能力边界传统“人人都是产品经理”的矛盾 “人人都是产品经理”的提法由来已久，但在传统产品开发模式中，这更像是一种理念倡导，而非可落地的实践，核心矛盾集中在三个维度： * 能力门槛高：产品经理需要同时掌握用户调研、需求分析、原型设计、跨部门协调等多维度技能，普通员工或用户难以系统掌握。 * 资源壁垒强：产品需求的落地需要依赖开发、设计、测试等团队的资源支持，非专业产品角色无法推动资源协调。 * 试错成本高：传统产品迭代周期以月为单位，需求验证成本极高，非专业人员的创意难以快速得到市场反馈。这些矛盾导致“人人都是产品经理”始终停留在口号层面，真正能参与产品决策的依然是专业岗位人员。 AI 对产品能力的“平民化”重构 AI 技术的成熟，尤其是大语言模型（LLM）和生成式 AI的普及，正在从根本上打破传统产品开发的能力和资源壁垒，让非专业人员也能完成从创意到落地的全流程产品设计。以下是 AI 带来的核心改变： 1.

ChatGLM-6B智能写作助手开发指南

ChatGLM-6B智能写作助手开发指南 1. 引言你有没有过这样的经历？面对空白的文档，脑子里有无数想法，但就是不知道从何下笔。写工作报告时，总觉得语言干巴巴的，缺乏感染力；写营销文案时，绞尽脑汁也想不出吸引人的标题；写技术文档时，又担心表达不够专业准确。如果你也有这些困扰，那么今天要聊的这个话题可能会让你眼前一亮。基于ChatGLM-6B开发一个智能写作助手，听起来可能有点技术含量，但实际上并没有想象中那么复杂。这个助手不仅能帮你生成各种文体的内容，还能检查语法错误、优化表达风格，甚至根据你的需求调整语气和长度。我最近就在自己的项目中尝试了这套方案，用下来感觉确实能节省不少时间。特别是那些重复性的写作任务，比如写产品介绍、整理会议纪要、生成邮件模板等等，现在基本上交给助手就能搞定，我只需要做最后的润色和调整。接下来，我就详细分享一下如何从零开始搭建这样一个智能写作助手，包括环境部署、功能开发、实际应用等各个环节。无论你是开发者想要集成写作功能，还是内容创作者想要提升效率，相信都能从中找到有用的信息。 2. ChatGLM-6B模型简介在开始动手之前，我们