【论文阅读】DreamZero:World Action Models are Zero-shot Policies

优质文章学习记录

10 Apr 2026 — 4 min read

快速了解部分

基础信息（英文）：

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型，通过同时预测视频和动作（world action model），让机器人能像人类一样通过“脑补”画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法：关键技术、模型或研究设计（简要）

采用预训练的视频扩散模型作为骨干，构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变：不同于VLAs仅学习“看到什么做什”，WAMs学习“动作如何改变世界”。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时，模型首先在内部“脑补”出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

解决方法的具体做法

模型架构：基于14B参数的视频扩散模型Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用Flow Matching目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了DreamZero-Flash技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础，特别是利用了Wan2.1-I2V作为视觉骨干，并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置：在AgiBot G1（双臂移动 manipulator）和Franka（单臂）机器人上进行预训练和评估。
数据：使用了约500小时的AgiBot异构数据，以及DROID数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论：DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上；仅需10-20分钟的其他机器人或人类视频数据，性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

WAM，输入video和action，以及text，输出action和video。

有一个把历史frames送入kv cache的操作，然后用的是GT frames。左侧图是对比，右侧是本文。Q是y轴，x轴是KV（记忆），模型在看问题Q时可以参考KV记忆。

【花雕学编程】Arduino BLDC 之机器人IMU角度读取 + PID控制 + 互补滤波

基于 Arduino 平台实现 BLDC 机器人 IMU 角度读取 + 互补滤波 + PID 控制，构成了一个典型的姿态闭环控制系统。该架构是自平衡机器人（如两轮平衡车、倒立摆）或稳定云台的核心技术栈。它通过互补滤波融合 IMU 原始数据以获得精准姿态角，再利用 PID 控制器计算出维持平衡所需的电机驱动力矩，驱动 BLDC 电机执行动作。 1、主要特点传感器融合：互补滤波（Complementary Filter）这是系统的“感知中枢”，解决了单一传感器无法同时满足动态与静态精度需求的矛盾。频域分割策略：互补滤波本质上是一个频域滤波器。它利用低通滤波（LPF）处理加速度计数据，提取低频的重力方向分量（长期稳定，用于修正漂移）；同时利用高通滤波（HPF）处理陀螺仪数据，提取高频的角速度变化分量（动态响应快，

FLUX.1-dev与Stable Diffusion对比评测：图像质量与生成速度

FLUX.1-dev与Stable Diffusion对比评测：图像质量与生成速度作为一名长期关注AI图像生成技术的开发者，我一直在寻找能够在质量和速度之间取得最佳平衡的解决方案。最近，Black Forest Labs开源的FLUX.1-dev模型引起了我的注意，特别是它声称能够在消费级硬件上运行，同时保持出色的图像质量。今天我将通过实际测试，从图像细节、风格控制、生成速度等多个维度，对比FLUX.1-dev与大家熟悉的Stable Diffusion，看看这两个模型在实际使用中究竟表现如何。 1. 测试环境与方法为了确保对比的公平性，我搭建了统一的测试环境。使用NVIDIA RTX 4090显卡，24GB显存，Intel i9-13900K处理器，64GB DDR5内存。操作系统为Ubuntu 22.04，所有测试都在相同的硬件和软件环境下进行。测试方法包括定量评估和定性分析。定量方面主要测量生成速度、内存占用等硬性指标；定性方面则通过同一组提示词生成图像，从视觉质量、细节表现、风格一致性等角度进行对比。我选择了50组涵盖不同场景的提示词，包括人物肖像、风景

养龙虾-------【多openclaw 对接飞书多应用】---多个大龙虾机器人群聊

🚀 MiniMax Token Plan 惊喜上线！新增语音、音乐、视频和图片生成权益。邀请好友享双重好礼，助力开发体验！好友立享 9折专属优惠 + Builder 权益，你赢返利 + 社区特权！ 👉 立即参与：https://platform.minimaxi.com/subscribe/token-plan?code=2NMAwoNLlZ&source=link 最近玩了下大龙虾，对接飞书后玩的不亦乐乎，妥妥滴私人助理。但是也萌发一个想法，多个机器人可以自己聊天吗？那会不会把世界给聊翻了。于是我马上搜寻各个配置方式，却是找到了可以配置多个机器人得群聊方式。 1.首先创建多个应用添加机器人，分别和部署得多个openclaw系统对接具体对接参考我写的【养龙虾-------【openclaw 对接飞书、钉钉、微信】—移动AI助理】 2.手工拉群并添加机器人： 3.把群id配置进各个龙虾配置文件里面接下来就可以群聊了

OpenClaw 多机器人多 Agent 模式：打造你的 AI 助手团队

OpenClaw 多机器人多 Agent 模式：打造你的 AI 助手团队完整教程：https://awesome.tryopenclaw.asia/docs/04-practical-cases/15-solo-entrepreneur-cases.html 16.1 为什么需要多 Agent？作为超级个体创业者，你可能需要不同类型的 AI 助手来处理不同的工作： * 主助理：使用最强大的模型（Claude Opus）处理复杂任务 * 内容创作助手：专注于文章写作、文案创作 * 技术开发助手：处理代码开发、技术问题 * AI 资讯助手：快速获取和整理 AI 行业动态传统的单 Agent 模式需要频繁切换模型和上下文，效率低下。多 Agent 模式让你可以同时拥有多个专业助手，各司其职。