【论文阅读】DreamZero:World Action Models are Zero-shot Policies

【论文阅读】DreamZero:World Action Models are Zero-shot Policies

快速了解部分

基础信息(英文):

题目: World Action Models are Zero-shot Policies
时间: 2026.02
机构: NVIDIA
3个英文关键词: World Action Models (WAMs), Zero-shot Generalization, Video Diffusion
paper

1句话通俗总结本文干了什么事情

本文提出了一种名为DreamZero的机器人基础模型,通过同时预测视频和动作(world action model),让机器人能像人类一样通过“脑补”画面来规划动作,从而在从未见过的任务和环境中实现零样本泛化。

研究痛点:现有研究不足 / 要解决的具体问题

现有的视觉语言动作模型(VLAs)虽然擅长语义理解,但缺乏对物理世界动态(如几何、动力学)的理解,难以泛化到从未见过的新动作或新环境,且通常需要大量重复的演示数据。

核心方法:关键技术、模型或研究设计(简要)

采用预训练的视频扩散模型作为骨干,构建了一个名为World Action Model (WAM) 的架构。该模型通过联合预测未来的视频帧和机器人动作,利用视频预测作为视觉规划器来指导动作生成。

深入了解部分

作者想要表达什么

作者旨在证明,通过将机器人策略学习转化为联合视频与动作预测问题,可以利用网络规模的视频数据预训练模型,从而获得强大的物理直觉和空间感知能力,解决传统VLAs在物理交互泛化上的瓶颈。

相比前人创新在哪里

范式转变:不同于VLAs仅学习“看到什么做什”,WAMs学习“动作如何改变世界”。
数据效率:打破了传统观念,证明可以从多样、非重复的数据中有效学习,无需每个任务的大量重复演示。
跨具身迁移:展示了惊人的跨具身迁移能力,仅需少量人类或其他机器人的视频(无动作标签)即可显著提升新任务性能。

解决方法/算法的通俗解释

DreamZero的工作原理类似于给机器人装了一个“内部模拟器”。当给定指令时,模型首先在内部“脑补”出完成任务的视频画面,然后根据这个脑补的画面反推需要执行的具体动作。

请添加图片描述

解决方法的具体做法

模型架构:基于14B参数的视频扩散模型Wan2.1,增加了状态和动作编码器/解码器。
训练方式:使用Flow Matching目标,联合去噪视频潜变量和动作潜变量。
推理优化:提出了DreamZero-Flash技术,通过解耦视频和动作的噪声时间表,实现了单步去噪的实时推理(7Hz)。

基于前人的哪些方法

基于预训练的VLMs和Video Diffusion Models的研究基础,特别是利用了Wan2.1-I2V作为视觉骨干,并借鉴了流匹配算法进行训练。

实验设置、数据、评估方式、结论

实验设置:在AgiBot G1(双臂移动 manipulator)和Franka(单臂)机器人上进行预训练和评估。
数据:使用了约500小时的AgiBot异构数据,以及DROID数据集。
评估方式:在未见过的任务(如解鞋带、熨衣服)和未见过的环境中评估任务进度。
结论:DreamZero在零样本泛化上比最先进的VLAs提升了2倍以上;仅需10-20分钟的其他机器人或人类视频数据,性能相对提升超42%。

提到的同类工作

GR00T N1.6, π₀.σ (pi-zero), RT-2, OpenVLA, CosmoPolicy。

和本文相关性最高的3个文献

Bjorck et al., 2025 (GR00T N1.6)
Physical Intelligence, 2025 (π₀.σ)
Team Wan, 2025 (Wan2.1-I2V-14B-480P)

我的

  1. WAM,输入video和action,以及text,输出action和video。

有一个把历史frames送入kv cache的操作,然后用的是GT frames。左侧图是对比,右侧是本文。Q是y轴,x轴是KV(记忆),模型在看问题Q时可以参考KV记忆。

请添加图片描述

Read more

Cogito-V1-Preview-Llama-3B 微信小程序开发:集成AI对话功能指南

Cogito-V1-Preview-Llama-3B 微信小程序开发:集成AI对话功能指南 最近在做一个微信小程序项目,需要给它加上一个智能对话的功能。用户可以在小程序里提问,然后得到一个像模像样的回答。听起来挺酷,但做起来发现一堆坑:小程序怎么调用外部AI接口?网络慢了怎么办?对话历史怎么存?这些问题不解决,用户体验就上不去。 我最后选了Cogito-V1-Preview-Llama-3B这个模型,它体积不大但能力不错,很适合放在服务器上给小程序用。折腾了几天,总算把前后端都跑通了。今天就把整个过程,包括代码怎么写、问题怎么解决,都整理出来。如果你也想在小程序里加个AI助手,这篇文章应该能帮你省不少时间。 1. 项目准备:理清思路与搭建环境 在动手写代码之前,得先把整个流程想清楚。我们的目标是:用户在微信小程序里输入问题,小程序把问题发给咱们自己部署好的AI模型服务器,服务器处理完再把答案传回小程序,最后显示给用户。 听起来就是“请求-响应”这么简单,但微信小程序有自己的一套规则,不能随便访问外网。所以,我们需要一个自己的后端服务器,作为小程序和AI模型之间的“中间人”。

在昇腾NPU上跑Llama 2模型:一次完整的性能测试与实战通关指南

在昇腾NPU上跑Llama 2模型:一次完整的性能测试与实战通关指南

目录 * 在昇腾NPU上跑Llama 2模型:一次完整的性能测试与实战通关指南 * 引言:从“为什么选择昇腾”开始 * 第一幕:环境搭建——好的开始是成功的一半 * 1.1 GitCode Notebook 创建“避坑指南” * 1.2 环境验证:“Hello, NPU!” * 第二幕:模型部署——从下载到运行的“荆棘之路” * 2.1 安装依赖与模型下载 * 2.2 核心部署代码与“坑”的化解 * 第三幕:性能测试——揭开昇腾NPU的真实面纱 * 3.1 严谨的性能测试脚本 * 3.2 测试结果与分析 * 第四幕:性能优化——让Llama跑得更快 * 4.1 使用昇腾原生大模型框架 * 4.

大模型微调主要框架 Firefly vs LLaMA Factory 全方位对比表

Firefly vs LLaMA Factory 全方位对比表 + 生物医药垂类微调选型建议 一、核心维度对比表格 对比维度Firefly(流萤)LLaMA Factory开发主体个人开源:杨建新(YeungNLP),前Shopee NLP工程师,中山大学硕士社区开源:hiyouga核心维护,全球开源社区协同迭代项目定位聚焦中文大模型的轻量化训练框架+配套中文优化模型通用型全栈大模型微调框架,无语言/模型偏向,极致兼容支持基座模型以中文友好模型为主(Llama系列、Qwen、ChatGLM、Firefly自训模型),覆盖有限但深度适配全主流开源模型全覆盖(Llama、Qwen、Mistral、DeepSeek、GLM、Yi、Firefly等),几乎无适配成本支持微调方式基础SFT、LoRA/QLoRA、增量预训练,进阶对齐方法较少SFT、DPO/IPO/KTO、RLHF、预训练、多模态微调,全流程对齐方案完整中文优化原生深度优化:中文分词、语料、表达逻辑专项适配,

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

Llama 3-8B-Instruct 在昇腾 NPU 上的 SGLang 性能实测

1.引言 随着大模型在各类智能应用中的广泛应用,高效的推理硬件成为关键瓶颈。昇腾 NPU(Ascend Neural Processing Unit)凭借其高算力、低能耗以及对 SGLang 的深度优化,能够显著提升大模型推理性能。本文以 Llama 3-8B-Instruct 为例,通过在昇腾 NPU 上的实测,展示其在吞吐量、延迟和资源利用方面的优势,并探索可行的优化策略,为开发者在今后的开发中提供可参考的案例。 在本篇文章中我们会使用到Gitcode的Notebook来进行实战,GitCode Notebook 提供了开箱即用的云端开发环境,支持 Python、SGLang 及昇腾 NPU 相关依赖,无需本地复杂环境配置即可直接运行代码和进行实验。对于没有硬件平台的小伙伴来说是非常便利的。 GitCode Notebook使用链接:https://gitcode.com/user/m0_49476241/notebook。 2.实验环境与准备 2.