扩散模型详解:从 DDPM 到 Stable Diffusion 再到 DiT 的技术演进
扩散模型的技术演进历程。从 2020 年 DDPM 奠定理论基础,到 2022 年 Stable Diffusion 通过潜在空间扩散实现实用化突破,再到 2023 年 DiT 引入 Transformer 架构提升可扩展性。文章对比了各阶段模型的架构差异、优缺点及应用场景,并梳理了当前业界主流模型及未来趋势,为理解生成式 AI 提供了清晰的技术脉络。

扩散模型的技术演进历程。从 2020 年 DDPM 奠定理论基础,到 2022 年 Stable Diffusion 通过潜在空间扩散实现实用化突破,再到 2023 年 DiT 引入 Transformer 架构提升可扩展性。文章对比了各阶段模型的架构差异、优缺点及应用场景,并梳理了当前业界主流模型及未来趋势,为理解生成式 AI 提供了清晰的技术脉络。

扩散模型(Diffusion Models)作为当前最热门的生成模型之一,已彻底改变图像生成领域,本文从 DDPM 开始,逐步深入到 Stable Diffusion 和 DiT 架构。
扩散模型就像是一个"破坏 - 修复"的过程,想象一下你有一张美丽的图片,然后一点点地给它加上噪声,直到完全看不清原来的图片,然后让 AI 学会如何一步步把噪声去掉,重新还原出原始图片。这就是扩散模型的基本思路。
DDPM(Denoising Diffusion Probabilistic Models)是扩散模型的开山鼻祖,由 OpenAI 团队在 2020 年提出,它的工作原理:
前向过程(加噪声):从一张清晰的图片开始,逐步添加噪声,最终变成完全随机的噪声图。 反向过程(去噪声):训练 AI 学会如何一步步去除噪声,从随机噪声中重建出原始图片。
DDPM 的核心是一个 U-Net 网络结构,U-Net 详细架构如下图:

DDPM 需要训练很多轮次,每次告诉 AI:"这是加了噪声的图片,这是原始图片,请你学会如何从噪声中恢复原图"。经过大量训练后,AI 就学会了去噪技能。
推理时,AI 从完全随机的噪声开始,一步步"想象"出完整的图片。这个过程通常需要几十到几百步才能完成。
DDPM 虽然效果不错,但有个致命缺点:计算成本太高!一张 512×512 的图片需要在像素级别上进行扩散,计算量巨大。2022 年,Stable Diffusion 横空出世,解决了这个问题。
Stable Diffusion 最大的创新是潜在空间扩散:
这样计算量减少了约 16 倍,使得扩散模型变得实用起来。
Stable Diffusion 另一个重要特性是支持文本到图像生成:
随着 Transformer 在 NLP 领域的巨大成功,研究者们开始思考:能否用 Transformer 来改进扩散模型?2023 年,DiT(Diffusion Transformer)应运而生,将纯 Transformer 架构引入扩散模型。
架构革新:
性能提升:
| 特性 | 传统 UNet | DiT |
|---|---|---|
| 架构 | CNN | Transformer |
| 可扩展性 | 中等 | 很好 |
| 训练稳定性 | 一般 | 很好 |
| 全局建模 | 需要多层 | 天然全局 |
2020 年 - DDPM:奠定扩散模型理论基础 ↓ 2021 年 - Improved DDPM:各种改进和优化 ↓ 2022 年 - Stable Diffusion:实用化突破,潜在空间扩散 ↓ 2023 年 - DiT:Transformer 架构,可扩展性大幅提升 ↓ 2024 年至今 - 各种变体和优化:蒸馏、量化、多模态等
Stable Diffusion
DiT (Diffusion Transformer)
DiT 参考了 Stable Diffusion 的思想,借鉴了扩散模型的基本框架,但将传统的 U-Net 架构替换为 Transformer 架构,这是架构层面的重大革新。
注:Stable Diffusion 就是 Latent Diffusion 的一个具体实现,Stable Diffusion = Latent Diffusion + 文本条件 + 稳定性优化
DiT 是 ViT 思想在生成领域的成功应用,为什么这么说呢?DIT 参考了 ViT 的思路将扩散模型由 U-Net 改用 Transformer。
ViT (Vision Transformer, 2020 年)
DiT (Diffusion Transformer, 2022 年底)
相同点
不同点
| 方面 | ViT | DiT |
|---|---|---|
| 任务类型 | 图像分类 | 图像生成 |
| 输入 | 静态图像 | 噪声 + 时间步长 |
| 输出 | 分类标签 | 去噪后的图像 |
| 核心 | 特征提取 | 扩散过程建模 |
ViT 优势
DiT 优势
Stable Diffusion 系列:
其他开源模型:
学术研究:
商业应用:
目前大多数应用仍基于 Stable Diffusion 生态,但高端应用开始采用 DiT 等新架构。未来可能会逐步向 Transformer 架构迁移。
扩散模型的发展历程体现了 AI 领域的快速迭代:
这些模型不仅在技术上不断创新,也在实际应用中产生了巨大影响,从学术研究到商业产品,扩散模型正在重塑我们创造和处理视觉内容的方式。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online