SV2P (Stochastic Variational Video Prediction, 2018)
Video Transformer (2021)
Diffusion-based Video Prediction (2023-2024)
应用
自动驾驶场景预测
机器人运动预测
视频生成
5.3 多模态世界模型
动机
现实世界是多模态的:
视觉信息
语言描述
动作执行
声音反馈
关键方向
1. 语言 - 视觉世界模型
使用语言描述世界状态
语言指导的预测
代表:LWM (Language World Models, 2024)
2. 视频生成模型作为世界模型
Sora (OpenAI, 2024)
Genie (Google DeepMind, 2024)
生成交互式环境
3. 具身 AI 世界模型
结合视觉、动作、本体感觉
支持机器人学习
代表:RT-2, PaLM-E
技术挑战
多模态对齐
统一表示学习
跨模态推理
5.4 可解释世界模型
目标
构建可解释的世界表示:
理解因果关系
发现物理规律
支持推理
方法
1. 结构化世界模型
对象中心表示
关系建模
代表:C-SWM (Contrastively-trained Structured World Models)
2. 因果世界模型
学习因果图
反事实推理
代表:Causal World Models
3. 物理先验世界模型
嵌入物理约束
学习物理规律
代表:Physics-Informed World Models
5.5 泛化世界模型
目标
构建能够泛化到新环境的世界模型
方法
1. 元学习
快速适应新环境
代表:MAML for World Models
2. 预训练 - 微调
大规模预训练
下游任务微调
代表:UniSim (2023)
3. 领域自适应
Sim-to-Real 迁移
领域不变表示
6. 应用领域
6.1 强化学习
应用方式
提高样本效率
使用模型生成额外训练数据
减少真实环境交互
支持规划
在模型中进行前向搜索
评估不同动作序列
安全探索
在模型中探索危险区域
避免真实环境中的风险
代表应用
Atari 游戏
机器人控制
连续控制任务
6.2 自动驾驶
应用场景
1. 场景预测
当前场景 → 世界模型 → 未来场景
2. 规划验证
规划轨迹 → 世界模型模拟 → 安全性评估
3. 数据增强
真实数据 → 世界模型 → 合成场景
关键技术
CARLA 模拟器: 自动驾驶研究平台
NVIDIA Drive Sim: 商业自动驾驶模拟
Waymo Open Dataset: 大规模数据集
代表工作
World-on-Rails (2021): 基于世界模型的自动驾驶
TrafficSim (2021): 交通场景模拟
KING (2022): 基于知识的场景生成
6.3 机器人
应用方式
1. 运动规划
使用世界模型预测运动结果
优化轨迹
2. 操作学习
在模型中学习操作策略
Sim-to-Real 迁移
3. 场景理解
理解物体关系
预测物体运动
代表工作
DayDreamer (2022): 真实机器人上的 Dreamer
TD-MPC (2022): 基于模型的预测控制
RoboDreamer (2024): 机器人世界模型
6.4 社会模拟
应用场景
1. 社会行为预测
预测人类行为
模拟社会互动
2. 政策评估
模拟政策影响
评估社会效果
3. 虚拟社会
构建虚拟社会环境
研究社会现象
代表工作
Generative Agents (2023): 使用 LLM 模拟社会
Social Simulacra: 社会模拟平台
6.5 游戏 AI
应用
1. 游戏生成
Genie (2024): 从视频生成可玩游戏
GameGAN: 学习游戏引擎
2. 游戏 AI
MuZero: 在围棋、象棋等游戏中达到超人水平
Agent57: 在 Atari 游戏中达到人类水平
3. 程序化内容生成
使用世界模型生成游戏关卡
自动生成游戏内容
7. 未来趋势
7.1 多模态融合
趋势
统一的多模态世界表示
视觉 + 语言 + 动作 + 声音
跨模态推理和生成
关键技术
多模态 Transformer
统一的潜在空间
跨模态注意力机制
潜在应用
更智能的具身 AI
更自然的人机交互
更强的泛化能力
7.2 大规模预训练
趋势
在大规模数据上预训练世界模型
迁移到下游任务
类似 LLM 的发展路径
关键挑战
数据收集: 需要大规模多样化数据
计算资源: 训练成本高
评估标准: 如何评估世界模型质量
代表方向
UniSim (2023): 通用模拟器
Genie (2024): 从互联网视频学习
未来的"World Foundation Models"
7.3 物理先验与因果推理
趋势
嵌入物理约束
学习因果关系
支持反事实推理
关键技术
物理信息神经网络(PINN)
因果发现算法
结构化世界表示
应用价值
更好的泛化
更少的数据需求
更可解释的模型
7.4 长期预测
挑战
误差累积
不确定性增长
计算复杂度
解决方向
1. 层次化预测
短期:详细预测(1-10 步)
中期:抽象预测(10-100 步)
长期:高层预测(100+ 步)
2. 不确定性量化
预测分布而非点估计
量化预测置信度
3. 自适应预测
根据任务需求调整预测粒度
重要区域详细预测
7.5 可解释性与可信度
需求
理解模型决策
发现学到的知识
提高可信度
方法
1. 可视化
潜在空间可视化
注意力可视化
预测过程可视化
2. 概念提取
发现学到的概念
提取因果关系
理解物理规律
3. 形式化验证
证明模型性质
安全性保证
7.6 高效训练与推理
挑战
训练成本高
推理速度慢
内存占用大
解决方向
1. 模型压缩
知识蒸馏
剪枝
量化
2. 高效架构
稀疏 Transformer
线性注意力
状态空间模型(SSM)
3. 硬件加速
专用芯片
并行计算
分布式训练
7.7 Sim-to-Real 迁移
目标
将在模拟器中学到的知识迁移到真实世界
关键技术
1. 领域随机化
随机化模拟器参数
提高鲁棒性
2. 领域自适应
学习领域不变特征
对齐模拟和真实分布
3. 真实世界微调
少量真实数据微调
快速适应
7.8 人机协作
应用场景
人类专家指导世界模型学习
世界模型辅助人类决策
人机协同规划
关键技术
交互式学习
人类反馈强化学习(RLHF)
可解释的预测
8. 关键里程碑总结
8.1 理论里程碑
年份
里程碑
贡献
1989
Dyna 架构
结合模型学习和规划
1990
世界模型概念
提出 AI 应具备世界认知
2018
World Models 论文
VAE-RNN 范式,梦境训练
2019
Dreamer
在潜在空间学习价值函数
2020
MuZero
学习隐式模型,围棋超人
2023
Dreamer-V3
统一算法,多任务 SOTA
2024
综述论文
系统分类,未来方向
8.2 技术里程碑
技术
年份
突破
VAE
2013
学习潜在表示
RNN/LSTM
1997/2015
时序建模
RSSM
2019
确定性 + 随机性
Transformer
2017
长期依赖
Diffusion Models
2020
高质量生成
LLM
2022-2023
世界知识
Sora
2024
视频世界模型
8.3 应用里程碑
领域
年份
成就
游戏 AI
2020
MuZero 围棋超人
Atari
2020
Dreamer-V2 人类水平
机器人
2022
DayDreamer 真实机器人
自动驾驶
2021
World-on-Rails
视频生成
2024
Sora 高质量视频
游戏生成
2024
Genie 可玩游戏
9. 核心论文列表
9.1 奠基性论文
Dyna Architecture (1989)
Sutton, R. S. (1990). "Integrated architectures for learning, planning, and reacting based on approximating dynamic programming"
World Models 概念 (1990)
Schmidhuber, J. (1990). "Making the world differentiable: On using self-supervised fully recurrent neural networks for dynamic reinforcement learning and planning in non-stationary environments"
9.2 现代世界模型
World Models (2018) ⭐
Ha, D., & Schmidhuber, J. (2018). "Recurrent World Models Facilitate Policy Evolution"
NeurIPS 2018
PlaNet (2019)
Hafner, D., et al. (2019). "Learning Latent Dynamics for Planning from Pixels"
ICML 2019
Dreamer (2019) ⭐
Hafner, D., et al. (2019). "Dream to Control: Learning Behaviors by Latent Imagination"
ICLR 2020
MuZero (2020) ⭐
Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model"
Nature
Dreamer-V2 (2020)
Hafner, D., et al. (2020). "Mastering Atari with Discrete World Models"
ICLR 2021
Dreamer-V3 (2023) ⭐
Hafner, D., et al. (2023). "Mastering Diverse Domains through World Models"
arXiv
9.3 应用论文
DayDreamer (2022)
Wu, P., et al. (2022). "DayDreamer: World Models for Physical Robot Learning"
CoRL 2022
TD-MPC (2022)
Hansen, N., et al. (2022). "Temporal Difference Learning for Model Predictive Control"
ICML 2022
UniSim (2023)
Yang, M., et al. (2023). "Learning Interactive Real-World Simulators"
ICLR 2024
9.4 多模态世界模型
Genie (2024)
Bruce, J., et al. (2024). "Genie: Generative Interactive Environments"
ICML 2024
Sora (2024)
OpenAI (2024). "Sora: Creating video from text"
Technical Report
RoboDreamer (2024)
Zhou, Y., et al. (2024). "RoboDreamer: Learning Compositional World Models for Robot Imagination"
arXiv
9.5 综述论文
World Models Survey (2024) ⭐⭐⭐
Ding, J., Zhang, Y., et al. (2024). "Understanding World or Predicting Future? A Comprehensive Survey of World Models"