【论文阅读】DreamZero:World Action Models are Zero-shot Policies

优质文章学习记录

06 Apr 2026 — 4 min read

快速了解部分

基础信息（英文）：

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型，通过同时预测视频和动作（world action model），让机器人能像人类一样通过“脑补”画面来规划动作，从而在从未见过的任务和环境中实现零样本泛化。

研究痛点：现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型（VLAs）虽然擅长语义理解，但缺乏对物理世界动态（如几何、动力学）的理解，难以泛化到从未见过的新动作或新环境，且通常需要大量重复的演示数据。

核心方法：关键技术、模型或研究设计（简要）

采用预训练的视频扩散模型作为骨干，构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作，利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明，通过将机器人策略学习转化为联合视频与动作预测问题，可以利用网络规模的视频数据预训练模型，从而获得强大的物理直觉和空间感知能力，解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变：不同于VLAs仅学习“看到什么做什”，WAMs学习“动作如何改变世界”。
数据效率：打破了传统观念，证明可以从多样、非重复的数据中有效学习，无需每个任务的大量重复演示。
跨具身迁移：展示了惊人的跨具身迁移能力，仅需少量人类或其他机器人的视频（无动作标签）即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时，模型首先在内部“脑补”出完成任务的视频画面，然后根据这个脑补的画面反推需要执行的具体动作。

解决方法的具体做法

模型架构：基于14B参数的视频扩散模型Wan2.1，增加了状态和动作编码器/解码器。
训练方式：使用Flow Matching目标，联合去噪视频潜变量和动作潜变量。
推理优化：提出了DreamZero-Flash技术，通过解耦视频和动作的噪声时间表，实现了单步去噪的实时推理（7Hz）。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础，特别是利用了Wan2.1-I2V作为视觉骨干，并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置：在AgiBot G1（双臂移动 manipulator）和Franka（单臂）机器人上进行预训练和评估。
数据：使用了约500小时的AgiBot异构数据，以及DROID数据集。
评估方式：在未见过的任务（如解鞋带、熨衣服）和未见过的环境中评估任务进度。
结论：DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上；仅需10-20分钟的其他机器人或人类视频数据，性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

WAM，输入video和action，以及text，输出action和video。

有一个把历史frames送入kv cache的操作，然后用的是GT frames。左侧图是对比，右侧是本文。Q是y轴，x轴是KV（记忆），模型在看问题Q时可以参考KV记忆。

Cogito-V1-Preview-Llama-3B 微信小程序开发：集成AI对话功能指南

Cogito-V1-Preview-Llama-3B 微信小程序开发：集成AI对话功能指南最近在做一个微信小程序项目，需要给它加上一个智能对话的功能。用户可以在小程序里提问，然后得到一个像模像样的回答。听起来挺酷，但做起来发现一堆坑：小程序怎么调用外部AI接口？网络慢了怎么办？对话历史怎么存？这些问题不解决，用户体验就上不去。我最后选了Cogito-V1-Preview-Llama-3B这个模型，它体积不大但能力不错，很适合放在服务器上给小程序用。折腾了几天，总算把前后端都跑通了。今天就把整个过程，包括代码怎么写、问题怎么解决，都整理出来。如果你也想在小程序里加个AI助手，这篇文章应该能帮你省不少时间。 1. 项目准备：理清思路与搭建环境在动手写代码之前，得先把整个流程想清楚。我们的目标是：用户在微信小程序里输入问题，小程序把问题发给咱们自己部署好的AI模型服务器，服务器处理完再把答案传回小程序，最后显示给用户。听起来就是“请求-响应”这么简单，但微信小程序有自己的一套规则，不能随便访问外网。所以，我们需要一个自己的后端服务器，作为小程序和AI模型之间的“中间人”。

在昇腾NPU上跑Llama 2模型：一次完整的性能测试与实战通关指南

目录 * 在昇腾NPU上跑Llama 2模型：一次完整的性能测试与实战通关指南 * 引言：从“为什么选择昇腾”开始 * 第一幕：环境搭建——好的开始是成功的一半 * 1.1 GitCode Notebook 创建“避坑指南” * 1.2 环境验证：“Hello, NPU!” * 第二幕：模型部署——从下载到运行的“荆棘之路” * 2.1 安装依赖与模型下载 * 2.2 核心部署代码与“坑”的化解 * 第三幕：性能测试——揭开昇腾NPU的真实面纱 * 3.1 严谨的性能测试脚本 * 3.2 测试结果与分析 * 第四幕：性能优化——让Llama跑得更快 * 4.1 使用昇腾原生大模型框架 * 4.

大模型微调主要框架 Firefly vs LLaMA Factory 全方位对比表

Firefly vs LLaMA Factory 全方位对比表 + 生物医药垂类微调选型建议一、核心维度对比表格对比维度Firefly（流萤）LLaMA Factory开发主体个人开源：杨建新（YeungNLP），前Shopee NLP工程师，中山大学硕士社区开源：hiyouga核心维护，全球开源社区协同迭代项目定位聚焦中文大模型的轻量化训练框架+配套中文优化模型通用型全栈大模型微调框架，无语言/模型偏向，极致兼容支持基座模型以中文友好模型为主（Llama系列、Qwen、ChatGLM、Firefly自训模型），覆盖有限但深度适配全主流开源模型全覆盖（Llama、Qwen、Mistral、DeepSeek、GLM、Yi、Firefly等），几乎无适配成本支持微调方式基础SFT、LoRA/QLoRA、增量预训练，进阶对齐方法较少SFT、DPO/IPO/KTO、RLHF、预训练、多模态微调，全流程对齐方案完整中文优化原生深度优化：中文分词、语料、表达逻辑专项适配，

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

1.引言随着大模型在各类智能应用中的广泛应用，高效的推理硬件成为关键瓶颈。昇腾 NPU（Ascend Neural Processing Unit）凭借其高算力、低能耗以及对 SGLang 的深度优化，能够显著提升大模型推理性能。本文以 Llama 3-8B-Instruct 为例，通过在昇腾 NPU 上的实测，展示其在吞吐量、延迟和资源利用方面的优势，并探索可行的优化策略，为开发者在今后的开发中提供可参考的案例。在本篇文章中我们会使用到Gitcode的Notebook来进行实战，GitCode Notebook 提供了开箱即用的云端开发环境，支持 Python、SGLang 及昇腾 NPU 相关依赖，无需本地复杂环境配置即可直接运行代码和进行实验。对于没有硬件平台的小伙伴来说是非常便利的。 GitCode Notebook使用链接：https://gitcode.com/user/m0_49476241/notebook。 2.实验环境与准备 2.