【论文阅读】DreamZero:World Action Models are Zero-shot Policies

优质文章学习记录

06 Apr 2026 — 4 min read

快速了解部分

基础信息（英文）：

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型，通过同时预测视频和动作（world action model），让机器人能像人类一样通过“脑补”画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法：关键技术、模型或研究设计（简要）

采用预训练的视频扩散模型作为骨干，构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变：不同于VLAs仅学习“看到什么做什”，WAMs学习“动作如何改变世界”。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时，模型首先在内部“脑补”出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

解决方法的具体做法

模型架构：基于14B参数的视频扩散模型Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用Flow Matching目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了DreamZero-Flash技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础，特别是利用了Wan2.1-I2V作为视觉骨干，并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置：在AgiBot G1（双臂移动 manipulator）和Franka（单臂）机器人上进行预训练和评估。
数据：使用了约500小时的AgiBot异构数据，以及DROID数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论：DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上；仅需10-20分钟的其他机器人或人类视频数据，性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

WAM，输入video和action，以及text，输出action和video。

有一个把历史frames送入kv cache的操作，然后用的是GT frames。左侧图是对比，右侧是本文。Q是y轴，x轴是KV（记忆），模型在看问题Q时可以参考KV记忆。

关于 Codex 和字节跳动（Trae）在 AI 实践中的技术分享

以下是关于 Codex 和字节跳动（Trae）在 AI 实践中的技术分享 Codex 实践分享 Codex 是 OpenAI 基于 GPT-3 微调的代码生成模型，主要用于代码补全和自然语言转代码任务。核心能力 * 支持多种编程语言（Python、JavaScript、Go 等），尤其擅长 Python。 * 能够根据自然语言描述生成完整代码片段，例如“写一个快速排序函数”。 * 集成在 GitHub Copilot 中，成为开发者辅助工具。优化方向 * 通过海量开源代码（如 GitHub 数据）进行预训练，增强代码理解能力。 * 采用人类反馈强化学习（RLHF）优化生成结果的准确性和可读性。挑战 * 生成代码可能存在安全漏洞或依赖过时库，需人工审核。 * 对复杂业务逻辑的理解有限，需结合领域知识调整。字节跳动 Trae 实践分享

腾讯版“小龙虾“WorkBuddy一键部署教程：AI办公智能体即刻上手

🚀 腾讯版"小龙虾"WorkBuddy一键部署教程：AI办公智能体即刻上手作者：[您的ZEEKLOG用户名] 更新时间：2026年3月10日关键词：腾讯云 WorkBuddy AI智能体一键部署办公自动化 📖 前言：什么是WorkBuddy？最近AI领域最火的话题之一就是"小龙虾"（OpenClaw），而腾讯云刚刚推出了自己的桌面AI智能体——WorkBuddy。相比于其他需要复杂部署的AI工具，WorkBuddy主打零部署、一键安装、1分钟配置，真正做到了"开箱即用"。 WorkBuddy的核心优势： * ✅ 完全兼容OpenClaw技能（Skills） * ✅ 无需复杂部署，下载即用 * ✅ 支持企业微信、QQ、飞书、钉钉集成 * ✅ 内置20+技能包，支持无限扩展 * ✅ 多窗口、多Agent并行工作 📥 第一步：下载安装WorkBuddy（1分钟搞定）

OpenClaw 实操指南 07：飞书 CLI 开源：让 AI 真正接管你的飞书全流程

2026年3月28日，飞书官方开源larksuite/cli（v1.0.0），以200+命令、19个AI Agent Skills，将飞书2500+开放API封装为命令行接口，面向人类开发者与AI Agent双用户，重构办公协作的操作范式。这不仅是工具升级，更是飞书从“GUI服务人”到“GUI+CLI双态并行”的战略跃迁——GUI给人交互，CLI给AI执行，让AI真正成为办公的“执行者”而非“旁观者”。一、飞书CLI是什么：从API到命令行的能力跃迁 1. 核心定位与架构飞书CLI是官方开源、MIT协议、免费商用的命令行工具，核心定位是让AI Agent直接操控飞书全量数据与业务，而非仅做信息查询。其三层架构清晰划分能力边界： * Shortcuts层：高频快捷命令（如lark-cli calendar +agenda查今日日程），降低人类使用门槛。 * API Commands层：200+

Openclaw高星开源框架：三省六部·用古代官制设计的 AI Agent 协作架构

作者：cft0808 项目地址：https://github.com/cft0808/edict |许可：MIT 概述三省六部·Edict 是一个基于中国古代官制设计的 AI 多 Agent 协作架构。它把唐朝以来运行了一千多年的三省六部制搬到了 AI 世界，创建了一套具有分权制衡、专职审核、完全可观测特性的 Agent 协作系统。项目目前 6.9k+ Stars，581 Fork，Star 增长很快。核心设计思想问题：为什么大多数 Multi-Agent 框架不好用？当前主流的多 Agent 框架（CrewAI、AutoGen、LangGraph）通常采用「自由对话」模式： Agent A