【论文阅读】DreamZero:World Action Models are Zero-shot Policies

优质文章学习记录

10 Apr 2026 — 4 min read

快速了解部分

基础信息（英文）：

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型，通过同时预测视频和动作（world action model），让机器人能像人类一样通过“脑补”画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法：关键技术、模型或研究设计（简要）

采用预训练的视频扩散模型作为骨干，构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变：不同于VLAs仅学习“看到什么做什”，WAMs学习“动作如何改变世界”。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时，模型首先在内部“脑补”出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

解决方法的具体做法

模型架构：基于14B参数的视频扩散模型Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用Flow Matching目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了DreamZero-Flash技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础，特别是利用了Wan2.1-I2V作为视觉骨干，并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置：在AgiBot G1（双臂移动 manipulator）和Franka（单臂）机器人上进行预训练和评估。
数据：使用了约500小时的AgiBot异构数据，以及DROID数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论：DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上；仅需10-20分钟的其他机器人或人类视频数据，性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

WAM，输入video和action，以及text，输出action和video。

有一个把历史frames送入kv cache的操作，然后用的是GT frames。左侧图是对比，右侧是本文。Q是y轴，x轴是KV（记忆），模型在看问题Q时可以参考KV记忆。

前沿技术融合：AR/VR与边缘计算测试的扩展策略

随着增强现实(AR)、虚拟现实(VR)和边缘计算的快速发展，软件测试从业者面临前所未有的挑战与机遇。AR/VR应用依赖高沉浸感和低延迟体验，而边缘计算通过分布式架构优化实时数据处理，两者融合可显著提升性能与可靠性。然而，这种融合引入了设备碎片化、网络波动和多感官交互等复杂问题，要求测试策略超越传统边界。本文将从功能、性能、用户体验和安全四个维度，系统阐述扩展测试框架的方法，并结合2026年行业趋势提出可落地的实施路径。一、AR/VR测试的核心挑战与边缘计算赋能 AR/VR应用对测试提出独特要求： * 功能测试挑战：设备兼容性需覆盖多样硬件，如头显设备（Meta Quest、HoloLens）和移动端传感器，测试对象识别、手势追踪的准确性时，环境因素（如光照变化）易导致交互失效。边缘计算通过本地节点处理实时数据（如图像识别），减少云端依赖，将端到端延迟压缩至10ms以内，提升测试稳定性。 * 性能瓶颈：高帧率(90+ FPS)和低延迟是沉浸式体验的基础，但GPU/CPU负载、电池消耗和网络抖动（如5G边缘计算中的波动）

UWB 雷达综述精读：应用、标准、信号处理、数据集、芯片与未来方向——论文阅读

UWB 雷达综述精读：应用、标准、信号处理、数据集、芯片与未来方向 M. Cheraghinia et al., “A Comprehensive Overview on UWB Radar: Applications, Standards, Signal Processing Techniques, Datasets, Radio Chips, Trends and Future Research Directions,” in IEEE Communications Surveys & Tutorials, vol. 27, no. 4, pp. 2283-2324, Aug. 2025, doi: 10.1109/COMST.2024.3488173.

Java 大视界 -- Java 大数据在智能家居设备联动与场景化节能中的应用拓展（413）

Java 大视界 -- Java 大数据在智能家居设备联动与场景化节能中的应用拓展（413） * 引言： * 正文： * 一、技术基石：Java 大数据赋能智能家居的 “三位一体” 架构 * 1.1 架构全景图 * 1.2 核心技术栈选型与生产配置（附数据出处） * 1.3 核心数据模型（POJO 类，附表结构与业务含义） * 1.3.1 设备状态实体类（对应 ClickHouse 实时表） * 1.3.2 联动规则实体类（对应 MySQL 配置表） * 1.3.3 缺失工具类补充：SpringContextUtil（生产必用） * 二、核心场景 1：

# OpenClaw QQ 机器人接入完整指南

作者: 星期五助手创建时间: 2026-03-05 适用版本: OpenClaw 2026.2.26+ 📖 目录 1. 项目概述 2. 环境准备 3. 安装 NapCat QQ 机器人 4. 配置 OpenClaw QQ 插件 5. 网络配置（关键） 6. 测试与验证 7. 常见问题项目概述本指南介绍如何将 OpenClaw 接入 QQ，实现通过 QQ 与 OpenClaw 智能助手对话。架构说明 ┌─────────────┐ ┌──────────────┐ ┌─────────────┐ │ QQ 用户 │ ──→ │ NapCat │ ──→ │ OpenClaw │ │ (发消息) │ │ (QQ 机器人) │ │ (星期五)