【论文阅读】DreamZero:World Action Models are Zero-shot Policies

【论文阅读】DreamZero:World Action Models are Zero-shot Policies

快速了解部分

基础信息(英文):

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型,通过同时预测视频和动作(world action model),让机器人能像人类一样通过“脑补”画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。

核心方法:关键技术、模型或研究设计(简要)

采用预训练的视频扩散模型作为骨干,构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明,通过将机器人策略学习转化为联合视频与动作预测问题,可以利用网络规模的视频数据预训练模型,从而获得强大的物理直觉和空间感知能力,解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变:不同于VLAs仅学习“看到什么做什”,WAMs学习“动作如何改变世界”。
数据效率:打破了传统观念,证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
跨具身迁移:展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时,模型首先在内部“脑补”出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。

请添加图片描述

解决方法的具体做法

模型架构:基于14B参数的视频扩散模型Wan2.1,增加了状态和动作编码器/解码器。
训练方式:使用Flow Matching目标,联合去噪视频潜变量和动作潜变量。
推理优化:提出了DreamZero-Flash技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础,特别是利用了Wan2.1-I2V作为视觉骨干,并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置:在AgiBot G1(双臂移动 manipulator)和Franka(单臂)机器人上进行预训练和评估。
数据:使用了约500小时的AgiBot异构数据,以及DROID数据集。
评估方式:在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
结论:DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上;仅需10-20分钟的其他机器人或人类视频数据,性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

  1. WAM,输入video和action,以及text,输出action和video。

有一个把历史frames送入kv cache的操作,然后用的是GT frames。左侧图是对比,右侧是本文。Q是y轴,x轴是KV(记忆),模型在看问题Q时可以参考KV记忆。

请添加图片描述

Read more

斯坦福HAI官网完整版《2025 AI Index Report》全面解读

斯坦福HAI官网完整版《2025 AI Index Report》全面解读

一、这份报告真正想说什么 如果把整份《2025 AI Index Report》压缩成一句话,我会这样概括:AI 已经从“技术突破期”进入“系统扩散期”。它一边继续提升性能,一边迅速降本、普及、商业化、制度化;与此同时,风险事件、治理压力、数据约束、社会信任问题也同步上升。换句话说,2025年的AI不是“更神奇了”这么简单,而是开始变成一种会重塑产业结构、教育体系、监管逻辑和公众心理预期的基础能力。这个判断基本贯穿斯坦福官网总览页的 12 条结论与各章节摘要。(斯坦福人工智能研究所) 斯坦福自己对AI Index的定位也很明确:它不是某家公司的宣传册,也不是对未来的主观想象,而是一个收集、整理、浓缩并可视化 AI 数据趋势的观测框架,目的是为政策制定者、研究者、企业与公众提供更全面、客观的判断基础。也正因为如此,这份报告最重要的价值,

Windows上部署OpenClaw+DeepSeek+ 飞书,实现飞书对本地电脑的AI控制

Windows上部署OpenClaw+DeepSeek+ 飞书,实现飞书对本地电脑的AI控制

OpenClaw 火的离谱,核心在于AI智能体向数字人迈向了坚实的一步,每个人拉个群,然后下达任务,一堆AI反馈“收到”的美好生活来临了,快点在本地部署一下吧。 📋 什么是 OpenClaw? OpenClaw 是一个开源的 AI 助手框架,支持多种大语言模型,可以本地部署,还能集成到飞书等协作工具中。有了它,你就可以: * ✅ 在本地运行 AI 助手,数据更安全 * ✅ 通过 Web UI 界面与 AI 对话 * ✅ 集成到飞书,随时随地使用 * ✅ 操作本地文件,提升工作效率 🛠️ 安装步骤 第一步:安装 OpenClaw 首先,我们需要全局安装 OpenClaw。打开命令行工具(PowerShell 或 CMD),执行以下命令: npm install -g openclaw@

如何编写一个高质量的AI Skill

在AI Agent与智能体技术快速普及的今天,**Skill(技能)**正成为连接业务需求与AI能力的核心单元。不同于传统API或微服务,一个Skill不仅封装了执行逻辑,还融合了语义理解、工具调用、上下文推理与结果生成等智能行为。 一、什么是Skill?为什么需要它? 核心定义 Skill = 智能 + 行动 + 上下文 * 智能:能理解自然语言指令(如"帮我review一下这个React组件的代码") * 行动:能调用外部工具(linter、代码分析工具、测试框架等)完成任务 * 上下文:能结合项目规范、团队编码标准、历史Review意见做出合理判断 典型案例 "Review前端代码"不是一个简单的语法检查,而是一个Skill——它需识别代码类型、应用团队规范、检查安全性(XSS、CSRF)、验证可访问性、评估性能影响,并给出可执行的建议。 技术本质 从技术架构看,

2026年 Trae 收费模式改变 —— AI 编程“免费午餐”终结后的生存法则

2026年 Trae 收费模式改变 —— AI 编程“免费午餐”终结后的生存法则

关键词:Trae, Cursor, AI 编程成本, Token 计费, Agent 模式, 职业转型 大家好,我是飞哥!👋 2026年,AI编辑器Trae 也将收费模式改为按 Token 收费。 有些开发者开始动摇:“AI 编辑器越来越贵,是不是应该放弃使用,回归纯手写代码?” 对于用户来说,这无疑是一次涨价。但在飞哥看来,这次涨价背后释放了两个非常关键的信号: 1. AI 技术已进入稳定成熟期: 厂商不再需要通过“免费/低价补贴”来换取用户数据进行模型迭代。产品已经足够成熟,有底气接受市场真实定价的检验。 2. 倒逼用户进化,优胜劣汰: 涨价是一道筛子。它在要求用户大幅提升自己的 AI 使用水平(如 Prompt 技巧、Context 管理)。 * 低级使用者(只会问“怎么写代码”