【论文阅读】世界模型发展脉络整理---Understanding World or Predicting Future? A Comprehensive Survey of World Models

优质文章学习记录

09 Apr 2026 — 25 min read

论文来源: Understanding World or Predicting Future? A Comprehensive Survey of World Models arXiv编号: 2411.14499v2

作者: Jingtao Ding, Yunke Zhang, Yu Shang, Yuheng Zhang, et al.

发布时间: 2024年11月

1. 概述

1.1 什么是世界模型？

世界模型（World Models）是人工智能系统对环境的内部表示或模拟，旨在：

理解世界机制：构建内部表示以理解环境的运作规律
预测未来状态：预测环境的动态变化以指导决策

1.2 核心问题

论文标题"Understanding World or Predicting Future?"提出了世界模型研究的两个核心问题：

理解世界（Understanding World）：
- 构建对环境的内部表示
- 理解物理规律和因果关系
- 学习世界的结构和机制
预测未来（Predicting Future）：
- 预测环境的未来状态
- 模拟可能的行动结果
- 支持规划和决策

1.3 两大功能分类

根据2024年的综述论文，世界模型可以分为两大主要功能：

功能类型	目标	应用
理解型	构建内部表示，理解世界机制	知识表示、因果推理、场景理解
预测型	预测未来状态，模拟决策结果	强化学习、规划、自动驾驶

2. 世界模型的定义

2.1 经典定义

世界模型是智能体（Agent）对环境的内部表示或模拟，用于：

预测环境的动态和结果
理解环境的结构和规律
支持决策和规划

2.2 数学表示

在强化学习框架下，世界模型通常表示为：

s_{t+1} = f(s_t, a_t)

其中：

s_t: 当前状态
a_t: 当前动作
s_{t+1}: 下一状态
f: 世界模型（状态转移函数）

2.3 扩展定义

现代世界模型不仅预测状态转移，还包括：

观察模型: o_t = g(s_t) - 从状态生成观察
奖励模型: r_t = h(s_t, a_t) - 预测奖励
终止模型: d_t = k(s_t) - 预测episode是否结束

3. 发展时间线

3.1 早期阶段（1980s-1990s）

1980s: 统计学习方法

时期特点：

使用概率模型刻画环境动态
应用隐马尔可夫模型（HMM）
使用卡尔曼滤波构建内部世界模型

主要挑战：

处理高维感知输入时计算量爆炸
模型表达能力有限
难以处理复杂环境

代表方法：

隐马尔可夫模型（HMM）
卡尔曼滤波（Kalman Filter）
粒子滤波（Particle Filter）

1989: Dyna架构

提出者: Richard Sutton 贡献: 将强化学习与内部世界概念结合

核心思想：

智能体可以在内部模拟环境
通过内部模拟进行规划
结合真实经验和模拟经验学习

Dyna架构组成：

1. 直接强化学习（Direct RL） - 从真实环境中学习 2. 模型学习（Model Learning） - 学习环境模型 3. 规划（Planning） - 使用模型进行内部模拟

影响：

开创了基于模型的强化学习（Model-Based RL）
为后续世界模型研究奠定基础

1990: "世界模型"概念提出

提出者: Jürgen Schmidhuber（尤尔根·施密德胡伯）时间: 1990年博士论文

核心观点：

AI模型应具备对现实世界的全面认知
应能模拟未来情景
使用循环神经网络（RNN）构建简单世界模型

技术特点：

使用RNN建模时序依赖
端到端学习
压缩表示

3.2 深度学习时代（2010s）

2010s初期: 深度学习引入

技术突破：

卷积神经网络（CNN）处理视觉输入
循环神经网络（RNN）捕捉时间序列
深度神经网络提升表达能力

代表工作：

DQN (2013-2015): 虽然是无模型方法，但推动了深度RL发展
神经网络动态模型: 使用神经网络学习环境动态

2015-2017: 基于模型的深度强化学习

代表方法：

Neural Network Dynamics Models
- 使用深度神经网络学习环境动态
- 结合模型预测控制（MPC）
Imagination-Augmented Agents (I2A, 2017)
- 使用学习的模型进行"想象"
- 结合无模型和基于模型的方法
Model-Based Value Expansion (MBVE, 2017)
- 使用模型展开价值估计
- 提高样本效率

3.3 现代世界模型时代（2018-2020）

2018: World Models论文（里程碑）

作者: David Ha & Jürgen Schmidhuber 论文: "Recurrent World Models Facilitate Policy Evolution" 发表: NeurIPS 2018

核心贡献：

VAE-RNN架构：视觉输入 → VAE编码器 → 潜在表示 → RNN → 预测未来
三个组件：
- V (Vision): VAE编码器，压缩视觉输入
- M (Memory): MDN-RNN，预测未来潜在状态
- C (Controller): 简单线性控制器
训练流程：步骤1: 收集随机策略数据步骤2: 训练VAE学习视觉表示步骤3: 训练RNN学习动态模型步骤4: 在模型中训练控制器（梦境训练）

关键创新：

压缩表示: 使用VAE将高维图像压缩到低维潜在空间
梦境训练: 完全在学习的模型中训练策略
进化算法: 使用CMA-ES优化控制器

实验结果：

在Car Racing游戏中取得优异表现
证明了在模型中训练的可行性
展示了世界模型的潜力

影响：

引发了世界模型研究热潮
启发了后续大量工作
成为世界模型的经典范式

2019: PlaNet & Dreamer系列开始

PlaNet (2019)

作者: Danijar Hafner et al.
贡献: 纯粹基于模型的规划方法
特点: 在潜在空间中进行规划

Dreamer (2019)

作者: Danijar Hafner et al.
贡献: 在模型中学习价值函数和策略
方法: Actor-Critic在潜在空间中训练

技术特点：

RSSM (Recurrent State-Space Model):确定性路径: h_t = f(h_{t-1}, s_{t-1}, a_{t-1}) 随机路径: s_t ~ p(s_t | h_t)
结合确定性和随机性
更好的长期预测能力

3.4 扩展与应用时代（2020-2023）

2020: Dreamer-V2

改进：

离散潜在表示
更稳定的训练
更好的性能

成果：

在Atari游戏上达到人类水平
证明了世界模型的强大能力

2021-2022: 多样化发展

1. Transformer-based World Models

使用Transformer替代RNN
更好的长期依赖建模
代表: IRIS (2021), TransDreamer (2022)

2. 视频预测模型

直接在像素空间预测
更高保真度的预测
代表: Video Prediction Models

3. 离线强化学习中的世界模型

MBOP (Model-Based Offline Policy Optimization)
MOPO (Model-Based Offline Policy Optimization)
使用世界模型进行数据增强

4. 大规模世界模型

在大规模数据集上预训练
迁移到下游任务
代表: UniSim (2023)

2023: Dreamer-V3

突破：

统一算法，适用于多种任务
从视觉输入到连续控制
在多个benchmark上SOTA

关键技术：

Symlog predictions
Free bits
Unimix categoricals

3.5 多模态与大模型时代（2024-至今）

2024: 多模态世界模型兴起

背景：

大语言模型（LLM）的成功
视频生成模型（如Sora）的突破
多模态大模型的发展

关键发展：

语言模型作为世界模型
- LLM具有丰富的世界知识
- 可以进行因果推理
- 支持常识推理
视频生成模型作为世界模型
- Sora (OpenAI, 2024):
  - 生成高质量视频
  - 理解物理规律
  - 模拟复杂场景
- Genie (Google DeepMind, 2024):
  - 从视频学习交互式环境
  - 生成可玩的游戏世界
多模态融合
- 结合视觉、语言、动作
- 统一的世界表示
- 更强的泛化能力

2024年11月: 综述论文发布

论文: "Understanding World or Predicting Future? A Comprehensive Survey of World Models" 作者: Jingtao Ding, Yunke Zhang, et al.

主要贡献：

系统分类：
- 理解型世界模型
- 预测型世界模型
应用领域总结：
- 强化学习
- 自动驾驶
- 机器人
- 社会模拟
未来方向：
- 多模态世界模型
- 可解释性
- 泛化能力
- 长期预测

4. 关键技术演进

4.1 表示学习演进

时期	表示方法	特点	代表
1980s-1990s	手工特征	人工设计，有限表达能力	HMM, Kalman Filter
2010s初	深度特征	CNN提取视觉特征	DQN特征
2018	VAE潜在空间	压缩的连续表示	World Models
2019-2020	RSSM	确定性+随机性	Dreamer系列
2020-2022	离散潜在表示	更稳定的训练	Dreamer-V2
2022-2024	Transformer表示	长期依赖	IRIS, TransDreamer
2024	多模态表示	视觉+语言+动作	多模态世界模型

4.2 动态建模演进

阶段1: 概率图模型（1980s-2000s）

HMM: s_t → s_{t+1} ↓ o_t 卡尔曼滤波: s_t = A·s_{t-1} + B·u_t + w_t o_t = C·s_t + v_t

特点：

线性假设
高斯噪声
解析解

阶段2: 神经网络模型（2010s）

s_{t+1} = NN(s_t, a_t)

特点：

非线性
端到端学习
表达能力强

阶段3: 循环神经网络（2018-2020）

h_t = RNN(h_{t-1}, [z_t, a_t]) z_{t+1} ~ p(z | h_t)

特点：

时序建模
隐状态
长期依赖

阶段4: RSSM（2019-2023）

确定性: h_t = f(h_{t-1}, s_{t-1}, a_{t-1}) 随机性: s_t ~ p(s_t | h_t)

特点：

结合确定性和随机性
更好的预测
更稳定的训练

阶段5: Transformer（2022-2024）

s_{1:T} = Transformer([s_0, a_0, ..., a_{T-1}])

特点：

全局注意力
并行计算
长期依赖

4.3 训练方法演进

方法1: 监督学习（早期）

Loss = ||s_{t+1}^pred - s_{t+1}^true||²

特点：

简单直接
需要真实数据
可能累积误差

方法2: 梦境训练（2018）

1. 在真实环境收集数据 2. 训练世界模型 3. 在模型中训练策略 4. 部署到真实环境

特点：

样本效率高
安全（在模型中训练）
依赖模型质量

方法3: Dyna风格（2019-2023）

for each step: 1. 真实环境交互 2. 更新世界模型 3. 在模型中训练策略 4. 更新策略

特点：

结合真实和模拟经验
持续改进模型
更鲁棒

方法4: 对比学习（2023-2024）

Loss = Contrastive(z_t, z_{t+1}^pos, z_{t+1}^neg)

特点：

自监督学习
更好的表示
不需要像素级重构

4.4 规划方法演进

方法1: 模型预测控制（MPC）

for each step: 1. 从当前状态开始 2. 规划H步 3. 执行第一步动作 4. 重新规划

代表: PlaNet (2019)

方法2: 价值函数学习

在模型中学习: V(s) = E[Σ γ^t r_t | s_0=s] π(a|s) = argmax Q(s,a)

代表: Dreamer系列

方法3: 蒙特卡洛树搜索（MCTS）

1. Selection 2. Expansion (使用世界模型) 3. Simulation (使用世界模型) 4. Backpropagation

代表: MuZero (2020)

5. 主要研究方向

5.1 基于模型的强化学习（Model-Based RL）

核心思想

使用学习的世界模型来：

提高样本效率
支持规划
减少真实环境交互

主要方法

1. Dyna系列

Dyna (1989)
Dyna-2 (2008)
结合真实和模拟经验

2. World Models系列

World Models (2018)
PlaNet (2019)
Dreamer系列 (2019-2023)

3. MuZero系列

MuZero (2020)
EfficientZero (2021)
学习隐式模型

优势与挑战

优势：

✅ 样本效率高
✅ 支持规划
✅ 可以进行安全探索

挑战：

⚠️ 模型误差累积
⚠️ 训练不稳定
⚠️ 计算开销大

5.2 视频预测（Video Prediction）

目标

从过去的视频帧预测未来的视频帧

关键方法

1. 确定性预测

I_{t+1} = f(I_t, I_{t-1}, ..., a_t)

2. 随机性预测

I_{t+1} ~ p(I_{t+1} | I_t, I_{t-1}, ..., a_t)

3. 潜在空间预测

z_t = Encoder(I_t) z_{t+1} = f(z_t, a_t) I_{t+1} = Decoder(z_{t+1})

代表工作

SVG (Stochastic Video Generation, 2018)
SV2P (Stochastic Variational Video Prediction, 2018)
Video Transformer (2021)
Diffusion-based Video Prediction (2023-2024)

应用

自动驾驶场景预测
机器人运动预测
视频生成

5.3 多模态世界模型

动机

现实世界是多模态的：

视觉信息
语言描述
动作执行
声音反馈

关键方向

1. 语言-视觉世界模型

使用语言描述世界状态
语言指导的预测
代表: LWM (Language World Models, 2024)

2. 视频生成模型作为世界模型

Sora (OpenAI, 2024)
Genie (Google DeepMind, 2024)
生成交互式环境

3. 具身AI世界模型

结合视觉、动作、本体感觉
支持机器人学习
代表: RT-2, PaLM-E

技术挑战

多模态对齐
统一表示学习
跨模态推理

5.4 可解释世界模型

目标

构建可解释的世界表示：

理解因果关系
发现物理规律
支持推理

方法

1. 结构化世界模型

对象中心表示
关系建模
代表: C-SWM (Contrastively-trained Structured World Models)

2. 因果世界模型

学习因果图
反事实推理
代表: Causal World Models

3. 物理先验世界模型

嵌入物理约束
学习物理规律
代表: Physics-Informed World Models

5.5 泛化世界模型

目标

构建能够泛化到新环境的世界模型

方法

1. 元学习

快速适应新环境
代表: MAML for World Models

2. 预训练-微调

大规模预训练
下游任务微调
代表: UniSim (2023)

3. 领域自适应

Sim-to-Real迁移
领域不变表示

6. 应用领域

6.1 强化学习

应用方式

提高样本效率
- 使用模型生成额外训练数据
- 减少真实环境交互
支持规划
- 在模型中进行前向搜索
- 评估不同动作序列
安全探索
- 在模型中探索危险区域
- 避免真实环境中的风险

代表应用

Atari游戏
机器人控制
连续控制任务

6.2 自动驾驶

应用场景

1. 场景预测

当前场景 → 世界模型 → 未来场景

2. 规划验证

规划轨迹 → 世界模型模拟 → 安全性评估

3. 数据增强

真实数据 → 世界模型 → 合成场景

关键技术

CARLA模拟器: 自动驾驶研究平台
NVIDIA Drive Sim: 商业自动驾驶模拟
Waymo Open Dataset: 大规模数据集

代表工作

World-on-Rails (2021): 基于世界模型的自动驾驶
TrafficSim (2021): 交通场景模拟
KING (2022): 基于知识的场景生成

6.3 机器人

应用方式

1. 运动规划

使用世界模型预测运动结果
优化轨迹

2. 操作学习

在模型中学习操作策略
Sim-to-Real迁移

3. 场景理解

理解物体关系
预测物体运动

代表工作

DayDreamer (2022): 真实机器人上的Dreamer
TD-MPC (2022): 基于模型的预测控制
RoboDreamer (2024): 机器人世界模型

6.4 社会模拟

应用场景

1. 社会行为预测

预测人类行为
模拟社会互动

2. 政策评估

模拟政策影响
评估社会效果

3. 虚拟社会

构建虚拟社会环境
研究社会现象

代表工作

Generative Agents (2023): 使用LLM模拟社会
Social Simulacra: 社会模拟平台

6.5 游戏AI

应用

1. 游戏生成

Genie (2024): 从视频生成可玩游戏
GameGAN: 学习游戏引擎

2. 游戏AI

MuZero: 在围棋、象棋等游戏中达到超人水平
Agent57: 在Atari游戏中达到人类水平

3. 程序化内容生成

使用世界模型生成游戏关卡
自动生成游戏内容

7. 未来趋势

7.1 多模态融合

趋势

统一的多模态世界表示
视觉+语言+动作+声音
跨模态推理和生成

关键技术

多模态Transformer
统一的潜在空间
跨模态注意力机制

潜在应用

更智能的具身AI
更自然的人机交互
更强的泛化能力

7.2 大规模预训练

趋势

在大规模数据上预训练世界模型
迁移到下游任务
类似LLM的发展路径

关键挑战

数据收集: 需要大规模多样化数据
计算资源: 训练成本高
评估标准: 如何评估世界模型质量

代表方向

UniSim (2023): 通用模拟器
Genie (2024): 从互联网视频学习
未来的"World Foundation Models"

7.3 物理先验与因果推理

趋势

嵌入物理约束
学习因果关系
支持反事实推理

关键技术

物理信息神经网络（PINN）
因果发现算法
结构化世界表示

应用价值

更好的泛化
更少的数据需求
更可解释的模型

7.4 长期预测

挑战

误差累积
不确定性增长
计算复杂度

解决方向

1. 层次化预测

短期: 详细预测（1-10步）中期: 抽象预测（10-100步）长期: 高层预测（100+步）

2. 不确定性量化

预测分布而非点估计
量化预测置信度

3. 自适应预测

根据任务需求调整预测粒度
重要区域详细预测

7.5 可解释性与可信度

需求

理解模型决策
发现学到的知识
提高可信度

方法

1. 可视化

潜在空间可视化
注意力可视化
预测过程可视化

2. 概念提取

发现学到的概念
提取因果关系
理解物理规律

3. 形式化验证

证明模型性质
安全性保证

7.6 高效训练与推理

挑战

训练成本高
推理速度慢
内存占用大

解决方向

1. 模型压缩

知识蒸馏
剪枝
量化

2. 高效架构

稀疏Transformer
线性注意力
状态空间模型（SSM）

3. 硬件加速

专用芯片
并行计算
分布式训练

7.7 Sim-to-Real迁移

目标

将在模拟器中学到的知识迁移到真实世界

关键技术

1. 领域随机化

随机化模拟器参数
提高鲁棒性

2. 领域自适应

学习领域不变特征
对齐模拟和真实分布

3. 真实世界微调

少量真实数据微调
快速适应

7.8 人机协作

应用场景

人类专家指导世界模型学习
世界模型辅助人类决策
人机协同规划

关键技术

交互式学习
人类反馈强化学习（RLHF）
可解释的预测

8. 关键里程碑总结

8.1 理论里程碑

年份	里程碑	贡献
1989	Dyna架构	结合模型学习和规划
1990	世界模型概念	提出AI应具备世界认知
2018	World Models论文	VAE-RNN范式，梦境训练
2019	Dreamer	在潜在空间学习价值函数
2020	MuZero	学习隐式模型，围棋超人
2023	Dreamer-V3	统一算法，多任务SOTA
2024	综述论文	系统分类，未来方向

8.2 技术里程碑

技术	年份	突破
VAE	2013	学习潜在表示
RNN/LSTM	1997/2015	时序建模
RSSM	2019	确定性+随机性
Transformer	2017	长期依赖
Diffusion Models	2020	高质量生成
LLM	2022-2023	世界知识
Sora	2024	视频世界模型

8.3 应用里程碑

领域	年份	成就
游戏AI	2020	MuZero围棋超人
Atari	2020	Dreamer-V2人类水平
机器人	2022	DayDreamer真实机器人
自动驾驶	2021	World-on-Rails
视频生成	2024	Sora高质量视频
游戏生成	2024	Genie可玩游戏

9. 核心论文列表

9.1 奠基性论文

Dyna Architecture (1989)
- Sutton, R. S. (1990). "Integrated architectures for learning, planning, and reacting based on approximating dynamic programming"
World Models概念 (1990)
- Schmidhuber, J. (1990). "Making the world differentiable: On using self-supervised fully recurrent neural networks for dynamic reinforcement learning and planning in non-stationary environments"

9.2 现代世界模型

World Models (2018) ⭐
- Ha, D., & Schmidhuber, J. (2018). "Recurrent World Models Facilitate Policy Evolution"
- NeurIPS 2018
PlaNet (2019)
- Hafner, D., et al. (2019). "Learning Latent Dynamics for Planning from Pixels"
- ICML 2019
Dreamer (2019) ⭐
- Hafner, D., et al. (2019). "Dream to Control: Learning Behaviors by Latent Imagination"
- ICLR 2020
MuZero (2020) ⭐
- Schrittwieser, J., et al. (2020). "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model"
- Nature
Dreamer-V2 (2020)
- Hafner, D., et al. (2020). "Mastering Atari with Discrete World Models"
- ICLR 2021
Dreamer-V3 (2023) ⭐
- Hafner, D., et al. (2023). "Mastering Diverse Domains through World Models"
- arXiv

9.3 应用论文

DayDreamer (2022)
- Wu, P., et al. (2022). "DayDreamer: World Models for Physical Robot Learning"
- CoRL 2022
TD-MPC (2022)
- Hansen, N., et al. (2022). "Temporal Difference Learning for Model Predictive Control"
- ICML 2022
UniSim (2023)
- Yang, M., et al. (2023). "Learning Interactive Real-World Simulators"
- ICLR 2024

9.4 多模态世界模型

Genie (2024)
- Bruce, J., et al. (2024). "Genie: Generative Interactive Environments"
- ICML 2024
Sora (2024)
- OpenAI (2024). "Sora: Creating video from text"
- Technical Report
RoboDreamer (2024)
- Zhou, Y., et al. (2024). "RoboDreamer: Learning Compositional World Models for Robot Imagination"
- arXiv

9.5 综述论文

World Models Survey (2024) ⭐⭐⭐
- Ding, J., Zhang, Y., et al. (2024). "Understanding World or Predicting Future? A Comprehensive Survey of World Models"
- arXiv:2411.14499

10. 关键概念术语表

10.1 基础概念

世界模型（World Model）: 智能体对环境的内部表示或模拟
状态空间（State Space）: 所有可能状态的集合
动作空间（Action Space）: 所有可能动作的集合
状态转移（State Transition）: 从一个状态到另一个状态的变化
潜在空间（Latent Space）: 压缩的低维表示空间

10.2 模型类型

前向模型（Forward Model）: 预测下一状态 s_{t+1} = f(s_t, a_t)
逆向模型（Inverse Model）: 预测动作 a_t = f(s_t, s_{t+1})
隐式模型（Implicit Model）: 不显式预测状态，而是预测价值或策略
显式模型（Explicit Model）: 显式预测状态

10.3 训练方法

监督学习（Supervised Learning）: 使用标注数据训练
自监督学习（Self-Supervised Learning）: 从数据本身学习
梦境训练（Dreaming）: 在模型中训练策略
Dyna风格（Dyna-style）: 结合真实和模拟经验

10.4 架构组件

VAE（Variational Autoencoder）: 变分自编码器
RNN（Recurrent Neural Network）: 循环神经网络
RSSM（Recurrent State-Space Model）: 循环状态空间模型
MDN（Mixture Density Network）: 混合密度网络
Transformer: 基于注意力的架构

10.5 应用相关

MPC（Model Predictive Control）: 模型预测控制
MCTS（Monte Carlo Tree Search）: 蒙特卡洛树搜索
Sim-to-Real: 从模拟到真实的迁移
具身AI（Embodied AI）: 具有物理身体的AI系统

11. 发展脉络图

11.1 时间线图

1980s-1990s: 概率模型时代 ├─ HMM, Kalman Filter ├─ 1989: Dyna架构 └─ 1990: 世界模型概念 2010s: 深度学习时代 ├─ 2013: VAE ├─ 2015: DQN └─ 2017: I2A, MBVE 2018-2020: 现代世界模型时代 ├─ 2018: World Models ⭐ ├─ 2019: PlaNet, Dreamer ⭐ └─ 2020: MuZero, Dreamer-V2 ⭐ 2021-2023: 扩展与应用时代 ├─ 2021: IRIS, TransDreamer ├─ 2022: DayDreamer, TD-MPC └─ 2023: Dreamer-V3, UniSim ⭐ 2024-现在: 多模态与大模型时代 ├─ 2024: Sora, Genie ⭐ ├─ 2024: RoboDreamer └─ 2024: 综述论文 ⭐⭐⭐

11.2 技术演进图

表示学习: 手工特征 → CNN特征 → VAE潜在空间 → RSSM → Transformer → 多模态表示动态建模: HMM → 神经网络 → RNN → RSSM → Transformer → 扩散模型训练方法: 监督学习 → 梦境训练 → Dyna风格 → 对比学习 → 多模态预训练规划方法: MPC → 价值函数学习 → MCTS → 层次化规划

11.3 应用领域图

世界模型 ├─ 强化学习 │ ├─ Atari游戏 │ ├─ 连续控制 │ └─ 多任务学习 │ ├─ 自动驾驶 │ ├─ 场景预测 │ ├─ 规划验证 │ └─ 数据增强 │ ├─ 机器人 │ ├─ 运动规划 │ ├─ 操作学习 │ └─ 场景理解 │ ├─ 游戏AI │ ├─ 游戏生成 │ ├─ 游戏AI │ └─ 内容生成 │ └─ 社会模拟 ├─ 行为预测 ├─ 政策评估 └─ 虚拟社会

12. 总结与展望

12.1 发展总结

世界模型的发展经历了以下几个关键阶段：

奠基期（1980s-1990s）：
- 概率模型和统计方法
- Dyna架构和世界模型概念的提出
- 为后续发展奠定理论基础
深度学习期（2010s）：
- 深度神经网络的引入
- 表达能力大幅提升
- 开始处理高维感知输入
现代世界模型期（2018-2020）：
- World Models论文开创新范式
- Dreamer系列确立主流方法
- MuZero展示隐式模型潜力
扩展应用期（2021-2023）：
- 多样化的架构和方法
- 在多个领域取得突破
- 向真实世界应用迈进
多模态大模型期（2024-现在）：
- 多模态融合
- 大规模预训练
- 向通用世界模型发展

12.2 核心洞察

1. 两大核心功能：

理解世界（Understanding）：构建内部表示，理解机制
预测未来（Predicting）：预测状态，指导决策

2. 关键技术要素：

表示学习：如何压缩和表示世界
动态建模：如何预测世界变化
规划决策：如何利用模型做决策

3. 主要挑战：

模型误差累积
长期预测困难
泛化能力有限
计算成本高

12.3 未来展望

短期（1-2年）：

多模态世界模型的成熟
大规模预训练世界模型
在机器人和自动驾驶中的应用

中期（3-5年）：

通用世界模型的出现
Sim-to-Real的突破
物理先验和因果推理的融合

长期（5-10年）：

接近人类水平的世界理解
真正的具身智能
世界模型成为AI的核心组件

12.4 关键问题

1. 理解 vs 预测：

是否需要理解世界才能预测？
还是只需要预测就足够？
两者如何平衡？

2. 显式 vs 隐式：

显式预测状态（Dreamer）
隐式预测价值（MuZero）
哪种更好？

3. 模型 vs 无模型：

基于模型的方法
无模型的方法
如何结合？

4. 通用 vs 专用：

通用世界模型
任务特定模型
如何权衡？

12.5 研究机会

1. 理论方向：

世界模型的理论基础
泛化能力的理论保证
长期预测的理论限制

2. 技术方向：

更高效的架构
更好的训练方法
更强的泛化能力

3. 应用方向：

真实世界机器人
自动驾驶
具身智能

4. 跨学科方向：

认知科学
神经科学
物理学

13. 参考资源

13.1 重要论文

见第9节"核心论文列表"

13.2 代码资源

1. World Models

GitHub: https://github.com/worldmodels/worldmodels.github.io

2. Dreamer系列

Dreamer: https://github.com/danijar/dreamer
Dreamer-V2: https://github.com/danijar/dreamerv2
Dreamer-V3: https://github.com/danijar/dreamerv3

3. MuZero

官方实现: https://github.com/deepmind/mctx

4. 其他资源

PlaNet: https://github.com/google-research/planet
TD-MPC: https://github.com/nicklashansen/tdmpc

13.3 教程与课程

1. 在线课程

CS285 (UC Berkeley): Deep Reinforcement Learning
CS330 (Stanford): Deep Multi-Task and Meta Learning

2. 博客文章

World Models Blog: https://worldmodels.github.io/
Danijar Hafner's Blog: https://danijar.com/

3. 视频讲座

David Ha's Talk on World Models
Danijar Hafner's Talk on Dreamer

13.4 研究团队

1. 学术团队

Google DeepMind
UC Berkeley RL Lab
Stanford AI Lab
MIT CSAIL

2. 工业团队

OpenAI
Google Brain
Meta AI
NVIDIA Research

附录：论文元信息

论文标题

英文: Understanding World or Predicting Future? A Comprehensive Survey of World Models

中文: 理解世界还是预测未来？世界模型的综合综述

作者信息

主要作者:

Jingtao Ding (丁景涛)
Yunke Zhang (张云可)
Yu Shang (尚宇)
Yuheng Zhang (张宇恒)
et al.

发布信息

arXiv编号: 2411.14499
版本: v2
发布时间: 2024年11月
更新时间: 2025年6月26日（根据PDF元数据）

关键词

World model
Model-based RL
Video generation
Embodied environment
Autonomous driving
Robots
Social simulacra

论文贡献

系统分类：将世界模型分为理解型和预测型两大类
全面综述：覆盖世界模型的历史、现状和未来
应用总结：总结世界模型在多个领域的应用
未来方向：指出世界模型研究的未来方向

目录

1. 概述

1.1 什么是世界模型？

1.2 核心问题

1.3 两大功能分类

2. 世界模型的定义

2.1 经典定义

2.2 数学表示

2.3 扩展定义

3. 发展时间线

3.1 早期阶段（1980s-1990s）

1980s: 统计学习方法

1989: Dyna架构

1990: "世界模型"概念提出

3.2 深度学习时代（2010s）

2010s初期: 深度学习引入

2015-2017: 基于模型的深度强化学习

3.3 现代世界模型时代（2018-2020）

2018: World Models论文（里程碑）

2019: PlaNet & Dreamer系列开始

3.4 扩展与应用时代（2020-2023）

2020: Dreamer-V2

2021-2022: 多样化发展

2023: Dreamer-V3

3.5 多模态与大模型时代（2024-至今）

2024: 多模态世界模型兴起

2024年11月: 综述论文发布

4. 关键技术演进

4.1 表示学习演进

4.2 动态建模演进

阶段1: 概率图模型（1980s-2000s）

阶段2: 神经网络模型（2010s）

阶段3: 循环神经网络（2018-2020）

阶段4: RSSM（2019-2023）

阶段5: Transformer（2022-2024）

4.3 训练方法演进

方法1: 监督学习（早期）

方法2: 梦境训练（2018）

方法3: Dyna风格（2019-2023）

方法4: 对比学习（2023-2024）

4.4 规划方法演进

方法1: 模型预测控制（MPC）

方法2: 价值函数学习

方法3: 蒙特卡洛树搜索（MCTS）

5. 主要研究方向

5.1 基于模型的强化学习（Model-Based RL）

核心思想

主要方法

优势与挑战

5.2 视频预测（Video Prediction）

目标

关键方法

代表工作

应用

5.3 多模态世界模型

动机

关键方向

技术挑战

5.4 可解释世界模型

目标

方法

5.5 泛化世界模型

目标

方法

6. 应用领域

6.1 强化学习

应用方式

代表应用

6.2 自动驾驶

应用场景

关键技术

代表工作

6.3 机器人

应用方式

代表工作

6.4 社会模拟

应用场景

代表工作

6.5 游戏AI

应用