从一句话到一张图：看懂 Stable Diffusion 的“潜空间扩散”生成流程（配图详解）

优质文章学习记录

06 Apr 2026 — 5 min read

Stable Diffusion Pipeline

Source: Aayush’s Blog, “Stable Diffusion using Hugging Face – Putting everything together” (2022).Used with attribution.

当你输入一句 “A dog wearing a hat（戴帽子的狗）”，模型最后输出一张高清图片。中间到底发生了什么？
这张图展示的，其实就是 Stable Diffusion 这类潜空间扩散模型（Latent Diffusion Model）最核心的工作流：文本 → 语义向量 → 潜空间噪声 → 逐步去噪 → VAE 解码成图像。
本文将按图逐块拆解，并补充它背后的关键概念与工程细节，让你真正理解扩散模型是如何“画画”的。

1. 这张图在讲什么？

这张图描述了典型的 Stable Diffusion 文生图管线：

Prompt 文本 → CLIP 文本编码得到 text embeddings
从高斯噪声开始初始化潜变量 latents
U-Net 在 text embeddings 条件引导下做多步迭代去噪（由 scheduler 控制）
得到最终的 conditioned latents
VAE 解码成真实像素图输出（如 512×512）

2. 模块一：CLIP Model —— 文本如何变成“可计算的语义”

图左侧是 CLIP Model，主要过程包括：

Tokenizer（分词器）：把文字拆成 token
Token to Embedding：把 token 映射到向量空间
输出 Text Embeddings (1×77×768)

2.1 为什么是 77×768？

以 SD 1.x 为例：

最大 token 长度固定为 77（包含起止符号等）
每个 token 对应一个 768 维语义向量（CLIP Text Encoder 的 hidden size）

因此最终的文本表示是一个矩阵：

\text{text\_embeddings} \in \mathbb{R}^{1 \times 77 \times 768}

这个 embedding 就是后续 U-Net 去噪过程的“条件信号”，相当于让模型知道：它去噪的目标应该朝向“戴帽子的狗”。

3. 模块二：Gaussian Noise → Latents —— 为什么从噪声开始？

图的右上角是 Gaussian Noise（高斯噪声）：

形状：1×4×64×64

这就是 Stable Diffusion 的“起点”。

3.1 为什么不是直接在 512×512 像素上扩散？

这是 Stable Diffusion 的核心创新：不在像素空间扩散，而在潜空间（latent space）扩散。

真实图像：3×512×512
潜空间：4×64×64

这相当于把图像压缩了 8 倍（512 / 64 = 8），计算量大幅下降。

这就是 Latent Diffusion 的意义：更快、更省显存，同时保持画质。

3.2 这 4 个通道是什么？

这是 VAE 编码后的 latent feature map 的通道数（对 SD 1.x 常见配置就是 4）。

4. 模块三：U-Net —— 扩散模型真正“画画”的地方

图中黄色块是 U-Net，它是扩散模型的核心网络，负责：

输入：当前 timestep 的 noisy latents（含噪潜变量）
条件：text embeddings
输出：噪声预测（或直接预测 x0 / v，取决于训练方式）

4.1 U-Net 为什么叫 U-Net？

因为它是“编码器-解码器”的结构，中间通过 skip connection 保留空间细节，适合做图像相关任务。

4.2 文本是怎么“进”U-Net 的？

通常通过 Cross-Attention（交叉注意力）：

Query 来自 latent feature
Key/Value 来自 text embeddings

这意味着：

模型每一步去噪时，都在不断“对齐”文字语义与图像潜空间结构。

4.3 CFG：提示词引导

虽然图里没写，但实际流程几乎都会用 Classifier-Free Guidance（CFG）：

同时跑 有条件（prompt） 与 无条件（空 prompt）
两者结果线性组合，让生成更贴近 prompt

\epsilon = \epsilon_{\text{uncond}} + s \left( \epsilon_{\text{cond}} - \epsilon_{\text{uncond}} \right)

其中 s 是 guidance scale（常见 5~12）。

5. 模块四：Scheduler —— 控制“加噪/去噪”的时间策略

图右侧橙色块是 Scheduler algorithm to add noise，它负责管理扩散过程中的：

时间步（timestep）
噪声强度（noise schedule）
采样算法（DDIM、Euler、DPM++ 等）

5.1 为什么图里写 “Repeat N times”？

因为扩散模型的生成不是“一步到位”，而是 多步迭代：

通常 N = 20~50
每一步根据 scheduler 指定的规则更新 latents

这就是所谓的 采样过程（sampling）。

去噪步数越多，通常细节越丰富，但耗时越长；不同采样器会影响风格与稳定性。

6. 模块五：VAE —— 从潜空间回到像素世界

图中绿色块是 VAE，它是一个：

Encoder：把图像压缩到 latent
Decoder：把 latent 解码回图像

在文生图里我们只用 Decoder：

image = VAE.decode(conditioned_latents)

输出图像尺寸是：3×512×512（RGB）

这也是图右下角 Output Image 的来源。

7. 串起来：Stable Diffusion 的整体流程（对应图）

结合图，我们可以用“工程视角”的伪流程理解：

输入 prompt
用 CLIP 把 prompt 编码成 text embeddings
初始化随机高斯噪声 latents（1×4×64×64）
for t in timesteps:
- U-Net(latents, t, text_embeddings) → 预测噪声
- Scheduler 根据预测噪声更新 latents
VAE 解码 latents → 输出 512×512 图片

8. 为什么这种结构强大？有三个关键优势

8.1 潜空间扩散：速度与质量的折中最佳解

相比像素扩散：更快、更省显存
相比 GAN：更可控、更稳定

8.2 CLIP 语义空间：文本可精细控制图像内容

Cross-attention + CFG 让 prompt 能精准影响形状、颜色、风格、细节。

8.3 Scheduler 可插拔：采样策略决定“生成气质”

不同 scheduler（Euler、DDIM、DPM++）决定：

清晰度
细节锐利程度
风格偏向
收敛速度

9. 读图小结

Stable Diffusion = 文本条件 + 潜空间扩散 + U-Net 去噪 + VAE 解码

Prompt 给方向
CLIP 给语义
U-Net 做生成
Scheduler 控节奏
VAE 把结果搬回像素世界

理解了这条链路，就可以掌握扩散模型最重要的知识骨架。

【Unity-AI开发篇】| Unity-MCP最新指南：让AI接管游戏开发

* 前言 * 【Unity-AI开发篇】| Unity-MCP最新指南：让AI接管游戏开发 * 一、🧐 MCP是什么？ * 1.1 MCP介绍 * 1.2 为什么要配置MCP？ * 1.3 效果展示 * 1.4 使用说明及下载 * 二、🚀MCP安装步骤 * 2.1 前提条件 * 2.2 安装 Unity-MCP包（桥接组件） * 2.2 MCP配置 * 三、🎈Trae配置 * 3.1 添加MCP配置 * 3.2 创建一个智能体并添加Unity-MCP * 3.3 使用AI开发功能 * 总结前言 * 在人工智能飞速发展的今天，大语言模型早已不仅限于聊天和文本生成。 * 它们开始能够使用工具，与环境进行交互，从而执行复杂任务。 * 对于广大游戏开发者而言，

小显存福音：LLaMA Factory+QLoRA微调70B模型实测

小显存福音：LLaMA Factory+QLoRA微调70B模型实测对于许多研究者来说，想要在消费级显卡上实验大参数模型一直是个难题。常规方法往往连模型加载都做不到，更别提进行微调了。本文将介绍如何使用LLaMA Factory框架结合QLoRA技术，在有限显存条件下实现对70B大模型的微调。这类任务通常需要GPU环境，目前ZEEKLOG算力平台提供了包含该镜像的预置环境，可快速部署验证。为什么需要LLaMA Factory+QLoRA 大模型微调一直是AI研究的热点，但面临两个主要挑战： * 显存需求大：70B参数的模型在FP16精度下就需要140GB显存，远超消费级显卡容量 * 技术门槛高：需要手动实现量化、梯度检查点等优化技术 LLaMA Factory框架通过以下方式解决了这些问题： * 内置QLoRA技术：通过低秩适配器大幅减少可训练参数 * 自动优化：集成量化、梯度检查点等显存优化技术 * 开箱即用：预置多种微调方法和数据集环境准备与镜像部署在开始前，我们需要准备一个支持CUDA的GPU环境。以下是具体步骤： 1. 选择包含LLaM

Java在AI时代的崛起：从传统机器学习到AIGC的全栈解决方案

个人名片 🎓作者简介：java领域优质创作者 🌐个人主页：码农阿豪 📞工作室：新空间代码工作室（提供各种软件服务) 💌个人邮箱：[[email protected]] 📱个人微信：15279484656 🌐个人导航网站：www.forff.top 💡座右铭：总有人要赢。为什么不能是我呢？ * 专栏导航：码农阿豪系列专栏导航面试专栏：收集了java相关高频面试题，面试实战总结🍻🎉🖥️ Spring5系列专栏：整理了Spring5重要知识点与实战演练，有案例可直接使用🚀🔧💻 Redis专栏：Redis从零到一学习分享，经验总结，案例实战💐📝💡 全栈系列专栏：海纳百川有容乃大，可能你想要的东西里面都有🤸🌱🚀 目录 * Java在AI时代的崛起：从传统机器学习到AIGC的全栈解决方案 * 一、Java AI生态概览：多样化的技术选择 * 1.1 深度学习框架：接轨主流AI技术 * Deep Java Library

LLaMA Factory全解析：让大模型“改装”像组装电脑一样简单

引言：当每个人都能定制自己的专属AI 朋友们，想象一下这样的场景：你拿到了一台性能强大的通用电脑（好比ChatGPT、LLaMA这样的通用大模型），但它运行的是标准操作系统，装的是通用软件。现在，你需要它变成一台专业的视频剪辑工作站，或者一台金融数据分析服务器——该怎么办？传统方法是“重装系统”（全量微调）：耗时耗力，需要专业团队，而且可能把原来好用的功能搞坏。现代方法是“加装专业配件”（参数高效微调）：不改变核心系统，只增加特定的硬件模块或软件插件。今天我要介绍的LLaMA Factory，就是大模型领域的“专业改装工具箱”。它让微调百亿参数的大模型，变得像给电脑加内存、装显卡一样简单可控。无论你是只有一张消费级显卡的个人开发者，还是需要定制企业级AI的团队，这个工具都可能改变你的工作方式。技术原理：理解LLaMA Factory的“增效不增负”哲学核心理念：为什么我们不需要“重装整个系统”？要理解LLaMA Factory的价值，首先要明白大模型微调的一个关键发现：当大模型适应新任务时，只需要调整很小一部分参数就够了。一个生动的类比：假设你是一位精