从一句话到一张图：看懂 Stable Diffusion 的“潜空间扩散”生成流程（配图详解）

优质文章学习记录

05 Apr 2026 — 5 min read

Stable Diffusion Pipeline

Source: Aayush’s Blog, “Stable Diffusion using Hugging Face – Putting everything together” (2022).Used with attribution.

当你输入一句 “A dog wearing a hat（戴帽子的狗）”，模型最后输出一张高清图片。中间到底发生了什么？
这张图展示的，其实就是 Stable Diffusion 这类潜空间扩散模型（Latent Diffusion Model）最核心的工作流：文本 → 语义向量 → 潜空间噪声 → 逐步去噪 → VAE 解码成图像。
本文将按图逐块拆解，并补充它背后的关键概念与工程细节，让你真正理解扩散模型是如何“画画”的。

1. 这张图在讲什么？

这张图描述了典型的 Stable Diffusion 文生图管线：

Prompt 文本 → CLIP 文本编码得到 text embeddings
从高斯噪声开始初始化潜变量 latents
U-Net 在 text embeddings 条件引导下做多步迭代去噪（由 scheduler 控制）
得到最终的 conditioned latents
VAE 解码成真实像素图输出（如 512×512）

2. 模块一：CLIP Model —— 文本如何变成“可计算的语义”

图左侧是 CLIP Model，主要过程包括：

Tokenizer（分词器）：把文字拆成 token
Token to Embedding：把 token 映射到向量空间
输出 Text Embeddings (1×77×768)

2.1 为什么是 77×768？

以 SD 1.x 为例：

最大 token 长度固定为 77（包含起止符号等）
每个 token 对应一个 768 维语义向量（CLIP Text Encoder 的 hidden size）

因此最终的文本表示是一个矩阵：

\text{text\_embeddings} \in \mathbb{R}^{1 \times 77 \times 768}

这个 embedding 就是后续 U-Net 去噪过程的“条件信号”，相当于让模型知道：它去噪的目标应该朝向“戴帽子的狗”。

3. 模块二：Gaussian Noise → Latents —— 为什么从噪声开始？

图的右上角是 Gaussian Noise（高斯噪声）：

形状：1×4×64×64

这就是 Stable Diffusion 的“起点”。

3.1 为什么不是直接在 512×512 像素上扩散？

这是 Stable Diffusion 的核心创新：不在像素空间扩散，而在潜空间（latent space）扩散。

真实图像：3×512×512
潜空间：4×64×64

这相当于把图像压缩了 8 倍（512 / 64 = 8），计算量大幅下降。

这就是 Latent Diffusion 的意义：更快、更省显存，同时保持画质。

3.2 这 4 个通道是什么？

这是 VAE 编码后的 latent feature map 的通道数（对 SD 1.x 常见配置就是 4）。

4. 模块三：U-Net —— 扩散模型真正“画画”的地方

图中黄色块是 U-Net，它是扩散模型的核心网络，负责：

输入：当前 timestep 的 noisy latents（含噪潜变量）
条件：text embeddings
输出：噪声预测（或直接预测 x0 / v，取决于训练方式）

4.1 U-Net 为什么叫 U-Net？

因为它是“编码器-解码器”的结构，中间通过 skip connection 保留空间细节，适合做图像相关任务。

4.2 文本是怎么“进”U-Net 的？

通常通过 Cross-Attention（交叉注意力）：

Query 来自 latent feature
Key/Value 来自 text embeddings

这意味着：

模型每一步去噪时，都在不断“对齐”文字语义与图像潜空间结构。

4.3 CFG：提示词引导

虽然图里没写，但实际流程几乎都会用 Classifier-Free Guidance（CFG）：

同时跑 有条件（prompt） 与 无条件（空 prompt）
两者结果线性组合，让生成更贴近 prompt

\epsilon = \epsilon_{\text{uncond}} + s \left( \epsilon_{\text{cond}} - \epsilon_{\text{uncond}} \right)

其中 s 是 guidance scale（常见 5~12）。

5. 模块四：Scheduler —— 控制“加噪/去噪”的时间策略

图右侧橙色块是 Scheduler algorithm to add noise，它负责管理扩散过程中的：

时间步（timestep）
噪声强度（noise schedule）
采样算法（DDIM、Euler、DPM++ 等）

5.1 为什么图里写 “Repeat N times”？

因为扩散模型的生成不是“一步到位”，而是 多步迭代：

通常 N = 20~50
每一步根据 scheduler 指定的规则更新 latents

这就是所谓的 采样过程（sampling）。

去噪步数越多，通常细节越丰富，但耗时越长；不同采样器会影响风格与稳定性。

6. 模块五：VAE —— 从潜空间回到像素世界

图中绿色块是 VAE，它是一个：

Encoder：把图像压缩到 latent
Decoder：把 latent 解码回图像

在文生图里我们只用 Decoder：

image = VAE.decode(conditioned_latents)

输出图像尺寸是：3×512×512（RGB）

这也是图右下角 Output Image 的来源。

7. 串起来：Stable Diffusion 的整体流程（对应图）

结合图，我们可以用“工程视角”的伪流程理解：

输入 prompt
用 CLIP 把 prompt 编码成 text embeddings
初始化随机高斯噪声 latents（1×4×64×64）
for t in timesteps:
- U-Net(latents, t, text_embeddings) → 预测噪声
- Scheduler 根据预测噪声更新 latents
VAE 解码 latents → 输出 512×512 图片

8. 为什么这种结构强大？有三个关键优势

8.1 潜空间扩散：速度与质量的折中最佳解

相比像素扩散：更快、更省显存
相比 GAN：更可控、更稳定

8.2 CLIP 语义空间：文本可精细控制图像内容

Cross-attention + CFG 让 prompt 能精准影响形状、颜色、风格、细节。

8.3 Scheduler 可插拔：采样策略决定“生成气质”

不同 scheduler（Euler、DDIM、DPM++）决定：

清晰度
细节锐利程度
风格偏向
收敛速度

9. 读图小结

Stable Diffusion = 文本条件 + 潜空间扩散 + U-Net 去噪 + VAE 解码

Prompt 给方向
CLIP 给语义
U-Net 做生成
Scheduler 控节奏
VAE 把结果搬回像素世界

理解了这条链路，就可以掌握扩散模型最重要的知识骨架。

SuperAgent 快速上手完全指南：从前端到后端的 HTTP 请求利器

🚀 SuperAgent 快速上手完全指南：从前端到后端的 HTTP 请求利器 📖 引言老曹我写代码这么多年，见过太多人还在用原生 XMLHttpRequest 发请求，代码写得跟蜘蛛网似的，看得我眼睛都花了。今天就来给大家安利一个神器——SuperAgent！这玩意儿简直是前端开发者的福音，比原生Ajax 好用一百倍，而且还能在 Node.js 里跑，一鱼两吃，香不香？ 🎯 学习目标 * ✅ 掌握 SuperAgent 的基本使用方法 * ✅ 理解 SuperAgent 的核心原理和工作机制 * ✅ 学会在浏览器和 Node.js 环境中使用 SuperAgent * ✅ 避免常见的坑和错误 * ✅ 掌握高级用法和最佳实践 1️⃣ 🧠 SuperAgent 核心原理解析 1.1 什么是 SuperAgent？ SuperAgent 是一个轻量级、渐进式的 HTTP 请求库，由

零基础快速入门前端DOM 操作核心知识与实战解析（完整汇总版）(可用于备赛蓝桥杯Web应用开发)

DOM（Document Object Model，文档对象模型）是 JavaScript 操作 HTML 文档的桥梁，它将网页转换为一棵 “树”，每个 HTML 标签、属性、文本都是树上的节点。掌握 DOM 操作，就能动态改变网页内容、样式和交互。本文结合实战代码，从基础到进阶系统梳理 DOM 核心知识。一、DOM 元素获取：找到要操作的 “节点” 操作 DOM 的第一步是 “找到元素”，常用方法如下：方法描述示例 querySelector() 通过 CSS 选择器获取单个元素 document.querySelector(".div1") getElementById() 通过

无需昂贵GPU：本地部署开源AI项目LocalAI你在消费级硬件上运行大模型

前言本文主要介绍如何在本地服务器部署无需依托高昂价格的 GPU，也可以在本地运行离线 AI 项目的开源 AI 神器 LoaclAI，并结合 cpolar 内网穿透轻松实现远程使用的超详细教程。随着 AI 大模型的发展，各大厂商都推出了自己的线上 AI 服务，比如写文章的、文字生成图片或者视频的等等。但是使用这些 AI 软件时，都需要将文件数据传输到商家的服务器上，所以不少用户就会存在这样的担忧：我的数据会泄露吗？我的隐私能得到保护吗？今天就和大家分享一款可以本地部署的开源 AI 项目，它就是在 github 上已经获得了 27.7Kstar 的明星项目 LocalAI！它可以在本地直接运行大语言模型 LLM、生成图像、音频等。关键是不需要高端昂贵的 GPU，是的，直接在消费级硬件上通过 CPU 就能推理运行，真正降低了 AI 使用的门槛。

字节跳动王炸开源！DeerFlow 2.0：从“深度研究”到“全能超级AI员工”的华丽蜕变

字节跳动王炸开源！DeerFlow 2.0：从“深度研究”到“全能超级AI员工”的华丽蜕变让 AI 从“陪聊”进化为真正干活的“打工人”，从来没有这么简单过。 DeerFlow 2.0 · by @ByteDance · ⭐ 36.1k · 🚀 GitHub Trending Top 1 如果你对 AI 的印象还停留在“一问一答”的聊天框，那么字节跳动刚刚全面重写的开源大作 DeerFlow 2.0 绝对会颠覆你的认知。从最初爆火的深度研究（Deep Research）框架，到如今斩获超 3.6 万 Star、登顶 GitHub 趋势榜首的“超级代理安全带（