英伟达开源DreamDojo：4.4万小时“梦境”，破解机器人数据鸿沟

优质文章学习记录

06 Apr 2026 — 18 min read

摘要：本文深度解析英伟达开源的DreamDojo世界模型，详解DreamDojo的核心定位与开源战略，拆解44711小时超大规模数据集的优势、连续潜在动作的技术创新，剖析其实时遥操作、策略评估等应用场景，对比其与1XWM、Genie 3的技术路线差异，解读其与扬·勒丘恩物理AI理念的契合点，探讨DreamDojo对破解机器人物理鸿沟、推动物理AI发展的核心作用，为技术从业者、行业观察者、投资者提供最专业、最全面的深度解读，助力了解2026年世界模型与物理AI领域的最新技术革新与赛道趋势。

一、行业痛点：数据鸿沟，困住人形机器人的核心瓶颈

长期以来，“数据短缺+数据低效”是制约机器人行业发展的致命痛点——机器人想要掌握一项技能，需要海量真实场景下的动作数据进行训练，但真实数据的采集的成本极高、周期极长，且场景覆盖有限；与此同时，传统机器人数据集规模偏小、多样性不足，难以支撑通用型机器人的训练需求，形成了难以逾越的“数据鸿沟”。

更关键的是，多数企业陷入了“重指令、轻物理”的误区：大量布局视觉-语言-动作（VLA）模型，过度依赖文本推理驱动机器人动作，却忽略了直觉物理规律的核心价值。对此，AMI Labs的扬·勒丘恩（Yann LeCun）曾公开批评，这类系统过于“沉迷大语言模型”，缺乏基本的物理常识，无法应对真实世界的复杂变化——比如无法预判物体掉落的轨迹，无法感知发力过大可能导致的损坏。

在这样的行业背景下，英伟达推出DreamDojo，给出了一套颠覆性的解决方案：不依赖稀缺的真实机器人数据，而是通过学习人类日常活动视频，自主习得直觉物理规律，再通过生成式仿真，为机器人打造“虚拟训练梦境”，让机器人在“梦境”中完成规模化训练，彻底破解数据鸿沟难题，这一思路，与勒丘恩的物理AI理念高度契合。

二、核心突破：4.4万小时超大规模数据集，重构世界模型训练范式

DreamDojo的核心竞争力，首先体现在其背后的超大规模数据集——DreamDojo-HV（Human Videos，人类视频数据集），英伟达称其为“目前全球规模最大、多样性最高的世界模型预训练视频语料库”，其规模与多样性，远超当前行业主流的机器人数据集，彻底打破了传统训练数据的局限。

1. 规模碾压：从数百小时到4.4万小时的跨越

传统机器人数据集（如RT-1、BridgeData V2）的规模，往往停留在数百小时级别，难以支撑通用型世界模型的训练；而DreamDojo-HV的数据集规模，达到了惊人的44711小时，涵盖6015项独特任务、113.5万条动作轨迹，相当于一个人连续观看5年多的视频，数据覆盖广度堪称行业之最。

更值得关注的是，这些数据均为“第一视角体验”——模拟人类日常活动的主观视角，包括折叠衣物、组装物品、使用工具等各类场景，让模型能够以人类的视角，理解物理世界的交互逻辑，这与1X Technologies采用的“900小时第一视角人类视频”策略异曲同工，均旨在通过人类行为，教会机器人“直觉物理”，而这种直觉，是单纯的电机指令回归无法实现的。

2. 多样性领先：覆盖场景与技能远超同行

DreamDojo-HV的另一大优势，在于其极高的多样性——相比当前最丰富的公开机器人学习数据集，它包含的技能数量提升了96倍，场景数量提升了2000倍，涵盖了人类日常生活、工业操作、家庭服务等各类场景，从简单的拾取物品，到复杂的工具使用、精细组装，几乎覆盖了机器人可能涉及的所有基础任务。

这种高度多样性，让DreamDojo能够习得“通用化的物理认知”——无需针对单一任务、单一场景进行专项训练，就能将学到的物理规律，迁移到不同形态的机器人身上，比如让宇树Unitree G1在虚拟环境中完成物体操控，再快速迁移到真实场景，大幅提升机器人的泛化能力，缩短训练周期。

3. 核心逻辑：以人类行为为模板，习得直觉物理

DreamDojo的训练逻辑非常清晰：通过学习人类日常活动的视频，让模型理解“动作与物理结果”的关联——比如折叠衣物时，如何发力才能让衣物平整；组装物品时，如何调整角度才能精准拼接；使用工具时，如何控制力度才能完成操作。这种学习方式，让模型能够自主习得物理规律，形成“直觉认知”，就像人类从小通过模仿和体验，掌握走路、吃饭等基本技能一样，无需人工手动编写物理规则。

三、技术创新：连续潜在动作，破解“无动作标签”视频训练难题

用人类视频训练机器人，存在一个核心难题：被动视频缺乏动作标签。一段人类拾取杯子的视频，只能看到“拾取”这个结果，却无法告诉机器人，每个关节需要施加多大的扭矩、每个动作需要调整多大的角度——就像只看到别人做饭的过程，却不知道每一步的火候和调料用量，无法复刻出同样的菜品。

为了破解这一难题，英伟达创新性地引入了“连续潜在动作”（continuous latent actions）技术，通过一套独特的模型架构，将“无标签视频”转化为“带动作指令的训练数据”，彻底打通了人类视频与机器人训练之间的鸿沟，这也是DreamDojo的核心技术创新点。

1. 核心架构：7亿参数时空Transformer，提取代理动作

英伟达的研究团队，训练了一款参数规模达7亿的时空Transformer模型，其核心功能，是从视频帧之间的视觉变化中，提取出“语义上有意义的代理动作”——相当于为无标签视频，自动生成“动作指令”。比如，通过分析“拾取杯子”视频中，手的位置、角度、力度的视觉变化，提取出对应的关节动作、发力参数，让模型能够“看懂”视频中的动作逻辑。

这种代理动作，虽然不是机器人的真实电机指令，却能精准反映“动作与物理结果”的关联，让DreamDojo能够将任何人类视频，都当作“带动作标签的训练数据”来使用，大幅拓宽了训练数据的来源，同时降低了数据标注的成本——无需人工为每一段视频标注动作指令，只需输入原始视频，模型就能自主解析。

2. 核心价值：零样本泛化，适配未知场景与物体

连续潜在动作技术的最大价值，在于实现了“零样本泛化”——DreamDojo在训练过程中，即便没有见过某类物体、某类场景，也能凭借习得的物理直觉，完成相应的操作。比如，模型通过学习人类折叠衣物的视频，不仅能折叠训练中见过的衣物，还能零样本适配从未见过的衣物款式；通过学习人类使用工具的视频，能快速上手从未见过的工具，展现出极强的通用性。

这一能力，彻底打破了传统机器人“训练即局限”的困境，让机器人能够快速适配真实世界的复杂变化——毕竟真实世界中，机器人遇到的物体、场景，大多是训练中从未见过的，而这种零样本泛化能力，正是通用型机器人的核心需求。

四、落地优势：实时控制+梦境规划，解锁多场景应用价值

世界模型的实用价值，往往受限于推理速度——如果模型的推理速度过慢，无法实时响应，即便具备强大的仿真能力，也难以落地到实际应用中。为了解锁下游应用场景，英伟达专门研发了一套蒸馏流水线，将DreamDojo的推理速度提升至10.81 FPS，实现了实时控制，进而解锁了三大高价值应用场景，让“梦境训练”真正转化为实际价值。

1. 实时遥操作：VR操控虚拟机器人，实现“人机合一”

用户可以连接VR控制器（如PICO头显），实时遥操作“梦境”中的虚拟机器人——操作人员佩戴VR设备做出的每一个动作，无论是拾取、组装，还是移动、调整姿态，DreamDojo都能实时捕捉，并映射到虚拟机器人身上，实现“人机合一”的流畅操控。

这种实时遥操作，不仅可以用于机器人的训练——通过人类的实时操控，为模型提供高质量的动作数据；还可以用于虚拟调试——在真实机器人未部署前，通过虚拟遥操作，测试机器人的动作逻辑，提前发现问题，降低真实部署的风险和成本。

2. 策略评估：仿真与真实高度契合，无需物理部署

DreamDojo的一大核心优势，在于其极高的仿真真实性——在DreamDojo中模拟的动作成功率，与真实世界的结果，呈现出近乎完美的线性相关性，皮尔逊相关系数（Pearson r）达到了0.995，相当于“梦境中能成功的动作，真实世界中也能成功”。

这一特性，让开发者无需将机器人部署到真实场景，就能快速评估机器人的策略效果——通过在DreamDojo中测试不同的动作策略，根据成功率排名，筛选出最优策略，再应用到真实机器人上，大幅缩短了机器人的研发周期，降低了研发成本，尤其适合工业场景中，高成本、高风险的机器人部署。

3. 基于模型的规划：预判未来动作，提升任务成功率

DreamDojo还具备“梦境规划”能力——能够并行模拟多个动作方案，预判每个方案的未来结果，再筛选出最优方案执行。英伟达的测试数据显示，在水果包装任务中，借助这种规划能力，机器人的任务成功率提升了17%，尤其适合复杂、精细的工业操作场景。

比如，在水果包装过程中，机器人需要根据水果的大小、形状，调整抓取力度和包装角度，DreamDojo可以提前模拟多种抓取、包装方案，预判每种方案的效果，选择最稳妥、最高效的方案执行，避免因动作失误导致水果损坏，提升生产效率。

五、赛道博弈：开源差异化，角逐世界模型核心赛道

DreamDojo的开源发布，正值世界模型赛道的激烈博弈——2026年以来，1X Technologies推出1XWM、谷歌DeepMind发布Genie 3，各大企业纷纷布局世界模型，争夺物理AI的核心话语权。而英伟达的差异化优势，不仅在于超大规模数据集和核心技术创新，更在于其“全面开源”的战略，彻底区别于同行的封闭布局。

1. 与1XWM、Genie 3的核心差异：开源vs封闭，规模vs场景

当前世界模型赛道的三大核心玩家，路线差异极为鲜明，形成了三足鼎立的竞争格局：

- 谷歌DeepMind Genie 3：聚焦“生成式仿真场景”，能够根据简单指令，生成多样化的虚拟场景，为机器人提供海量训练环境，但采用封闭策略，未开源模型和数据，且更侧重场景生成，在动作控制的精准度上，与DreamDojo存在差距；

- 1X Technologies 1XWM：采用“900小时第一视角人类视频”，聚焦“直觉物理”的习得，侧重将虚拟训练成果迁移到真实机器人，但数据集规模远小于DreamDojo，且同样采用封闭布局，仅服务于自身机器人研发；

- 英伟达DreamDojo：兼顾“超大规模数据集+核心技术+全面开源”，数据集规模和多样性碾压同行，且通过连续潜在动作技术，实现了动作控制的精准度，同时开源模型权重、代码和数据集，邀请全球开发者参与迭代，打造开放生态，适配所有形态的机器人，通用性更强。

2. 理念契合：与勒丘恩并肩，坚守物理AI核心

在行业理念上，DreamDojo与扬·勒丘恩（Yann LeCun）的物理AI理念高度契合——均反对“过度依赖大语言模型”，主张优先发展“视觉想象+直觉物理”，让机器人通过理解物理世界，自主做出决策，而非单纯依靠文本指令。

DreamDojo基于开源权重的Cosmos-Predict2.5潜在视频扩散模型构建而成，这款底层模型本身就具备强大的视觉生成和物理仿真能力，能够生成符合物理定律的合成数据，与勒丘恩倡导的“世界模型应具备直觉物理认知”的理念完全一致，也让DreamDojo成为英伟达布局下一代物理AI的核心基础平台。

3. 模型规格：双版本适配，海量算力支撑

为了适配不同的研发需求，英伟达同步发布了DreamDojo的两个版本，均采用256块NVIDIA H100 GPU进行预训练，兼顾性能与灵活性：

- 2B参数版本：轻量化设计，适配普通研发设备，适合中小开发者、初创企业，用于基础的仿真训练和技术验证；

- 14B参数版本：高性能版本，具备更强的物理认知和泛化能力，适配大型企业、科研机构，用于复杂场景的仿真训练和高端机器人研发。

六、行业对比与未来展望：开源生态，推动物理AI进入规模化时代

DreamDojo的开源发布，不仅是英伟达物理AI战略的重要里程碑，更标志着世界模型赛道，从“封闭研发”进入“开源协同”的新时代。英伟达通过开放模型、代码和数据集，降低了世界模型的研发门槛，吸引全球开发者参与迭代，有望彻底破解机器人数据鸿沟，推动通用型机器人加速落地。

潜在挑战：两大考验，决定开源生态成色

挑战一：仿真与真实的终极适配。尽管DreamDojo的仿真成功率与真实世界的相关性达到0.995，但在极端复杂场景（如恶劣环境、高精度工业操作）中，能否持续保持这种高度契合，实现“零误差迁移”，仍需长期验证；

挑战二：开源生态的运营与标准化。开源只是第一步，如何吸引全球开发者积极参与二次开发、场景适配，如何制定统一的技术规范，避免生态碎片化，同时保护开源成果，推动技术迭代，是英伟达面临的核心考验。

未来展望：梦境训练，重构机器人研发范式

短期来看，英伟达将聚焦两大核心任务：一是持续优化DreamDojo的性能，提升推理速度和仿真真实性，完善2B和14B两个版本的功能，补充更多复杂场景的数据集；二是运营开源生态，收集开发者反馈，逐步开放更多训练工具，深化与Cosmos-Predict2.5模型的集成，推动技术快速迭代。

中期来看，DreamDojo将与英伟达此前开源的SONIC全身追踪技术深度融合，形成“梦境训练+实时控制”的完整闭环——DreamDojo为机器人提供虚拟训练场景，让机器人在“梦境”中完成规模化训练；SONIC作为运动控制大脑，将虚拟训练的成果，实时映射到真实机器人身上，大幅缩短机器人的研发与落地周期，同时适配更多形态的机器人，推动技术在工业、家庭服务等场景的试点应用。

长期来看，DreamDojo的开源与普及，将彻底重构机器人的研发范式——未来，机器人无需依赖海量真实数据采集，只需在DreamDojo的“梦境”中，通过学习人类视频、模拟各类场景，就能快速掌握各项技能，具备通用化的物理认知。同时，英伟达通过构建开放的物理AI生态，将进一步巩固其在算力、模型领域的领先地位，推动整个人形机器人行业，从“实验室原型”向“规模化商用”加速跨越，让能够“思考、想象”的通用型机器人，真正走进我们的生活和工作。

从4.4万小时的人类视频，到开源的“梦境训练平台”，DreamDojo的发布，不仅破解了机器人数据鸿沟的核心难题，也为物理AI的发展指明了方向。未来，随着开源生态的不断完善，以及技术的持续迭代，“梦境训练”将成为机器人研发的标配，通用型机器人的落地速度，也将迎来质的飞跃。

往期精彩内容回顾：

“舍弗勒效应”席卷全球！工业巨头凭人形机器人逆袭，股价暴涨150%

中国人形机器人2026商业化进程与产业链投资机遇报告

2026智能机器人城市空间场景应用指南：多领域落地技术要求与实施路径全解析

2026微型电机行业专题报告：人形机器人灵巧手核心部件技术壁垒与市场前景分析