世界模型发展脉络整理：理解世界还是预测未来？

功能类型	目标	应用
理解型	构建内部表示，理解世界机制	知识表示、因果推理、场景理解
预测型	预测未来状态，模拟决策结果	强化学习、规划、自动驾驶

世界模型发展脉络整理：理解世界还是预测未来？ | 极客日志

时期	表示方法	特点	代表
1980s-1990s	手工特征	人工设计，有限表达能力	HMM, Kalman Filter
2010s 初	深度特征	CNN 提取视觉特征	DQN 特征
2018	VAE 潜在空间	压缩的连续表示	World Models
2019-2020	RSSM	确定性 + 随机性	Dreamer 系列
2020-2022	离散潜在表示	更稳定的训练	Dreamer-V2
2022-2024	Transformer 表示	长期依赖	IRIS, TransDreamer
2024	多模态表示	视觉 + 语言 + 动作	多模态世界模型

for each step:
    1. 真实环境交互
    2. 更新世界模型
    3. 在模型中训练策略
    4. 更新策略

for each step:
    1. 从当前状态开始
    2. 规划 H 步
    3. 执行第一步动作
    4. 重新规划

年份	里程碑	贡献
1989	Dyna 架构	结合模型学习和规划
1990	世界模型概念	提出 AI 应具备世界认知
2018	World Models 论文	VAE-RNN 范式，梦境训练
2019	Dreamer	在潜在空间学习价值函数
2020	MuZero	学习隐式模型，围棋超人
2023	Dreamer-V3	统一算法，多任务 SOTA
2024	综述论文	系统分类，未来方向

技术	年份	突破
VAE	2013	学习潜在表示
RNN/LSTM	1997/2015	时序建模
RSSM	2019	确定性 + 随机性
Transformer	2017	长期依赖
Diffusion Models	2020	高质量生成
LLM	2022-2023	世界知识
Sora	2024	视频世界模型

领域	年份	成就
游戏 AI	2020	MuZero 围棋超人
Atari	2020	Dreamer-V2 人类水平
机器人	2022	DayDreamer 真实机器人
自动驾驶	2021	World-on-Rails
视频生成	2024	Sora 高质量视频
游戏生成	2024	Genie 可玩游戏

世界模型发展脉络整理：理解世界还是预测未来？

1. 概述

1.1 什么是世界模型？

1.2 核心问题

1.3 两大功能分类

2. 世界模型的定义

2.1 经典定义

2.2 数学表示

2.3 扩展定义

3. 发展时间线

3.1 早期阶段（1980s-1990s）

1980s: 统计学习方法

1989: Dyna 架构

1990: "世界模型"概念提出

3.2 深度学习时代（2010s）

2010s 初期：深度学习引入

2015-2017: 基于模型的深度强化学习

3.3 现代世界模型时代（2018-2020）

2018: World Models 论文（里程碑）

2019: PlaNet & Dreamer 系列开始

3.4 扩展与应用时代（2020-2023）

2020: Dreamer-V2

2021-2022: 多样化发展

2023: Dreamer-V3

3.5 多模态与大模型时代（2024-至今）

2024: 多模态世界模型兴起

2024 年 11 月：综述论文发布

4. 关键技术演进

4.1 表示学习演进

4.2 动态建模演进

阶段 1: 概率图模型（1980s-2000s）

阶段 2: 神经网络模型（2010s）

阶段 3: 循环神经网络（2018-2020）

阶段 4: RSSM（2019-2023）

阶段 5: Transformer（2022-2024）

4.3 训练方法演进

方法 1: 监督学习（早期）

方法 2: 梦境训练（2018）

方法 3: Dyna 风格（2019-2023）

方法 4: 对比学习（2023-2024）

4.4 规划方法演进

方法 1: 模型预测控制（MPC）

方法 2: 价值函数学习

方法 3: 蒙特卡洛树搜索（MCTS）

5. 主要研究方向

5.1 基于模型的强化学习（Model-Based RL）

核心思想

主要方法

优势与挑战

5.2 视频预测（Video Prediction）

目标

关键方法

代表工作

应用

5.3 多模态世界模型

动机

关键方向

技术挑战

5.4 可解释世界模型

目标

方法

5.5 泛化世界模型

目标

方法

6. 应用领域

6.1 强化学习

应用方式

代表应用

6.2 自动驾驶

应用场景

关键技术

代表工作

6.3 机器人

应用方式

代表工作

6.4 社会模拟

应用场景

代表工作

6.5 游戏 AI

应用