Stable Diffusion 模型技术深度解析

Stable Diffusion 模型技术深度解析 | 极客日志

一、前置认知：Stable Diffusion 核心基础信息

1.1 Stable Diffusion 核心基础属性

对比维度	具体内容	核心说明
核心定义	基于扩散模型 (DM) +变分自编码器 (VAE) 的潜空间文生图/图生图生成模型，通过逐步降噪潜空间特征向量，还原生成高清图像，兼容文本/图像多模态输入	本质是「逆向扩散 + 潜空间计算」，区别于原生扩散模型的像素级计算，大幅降低算力消耗
核心创新	1. 潜空间降噪（非像素级），算力/显存需求骤降；2. 文本编码与图像特征解耦，支持文生图/图生图/图生文多任务；3. U-Net 核心网络 + 注意力机制，捕捉细节与语义关联；4. 开源可微调，支持 LoRA/Embedding 轻量化定制；5. 多采样器适配不同生成场景	潜空间是 SD 的核心竞争力，也是区别于其他扩散模型的核心标志
模型核心类型	生成式扩散模型（Diffusion Model）→ 隐式生成模型	无固定生成规则，通过学习数据分布实现图像生成，区别于 GAN 的对抗生成、VAE 的显式生成
核心依赖组件	1. 文本编码器：CLIP（OpenAI）；2. 核心降噪网络：U-Net；3. 编解码器：VAE（变分自编码器）；4. 采样调度器：DDIM/DDPM/Euler 等；5. 算力支撑：GPU（CUDA）/CPU/端侧 NPU	组件均为开源成熟方案，生态完善，定制成本低
核心输入输出	输入：文本 Prompt/参考图像/控制条件（姿态/线稿/深度）；输出：256/512/768/1024 分辨率高清图像	支持多维度输入约束，生成可控性远超传统生成模型
核心版本迭代	SD 1.5（基础版，通用场景）→ SD 2.1（升级版，画质提升）→ SDXL 1.0（旗舰版，1024 分辨率，细节拉满）→ SD 3.0（多模态，文/图/视频融合）	版本迭代核心优化：分辨率、细节、语义对齐、生成速度
核心适用场景	商业设计、内容创作、工业建模、数字人生成、图像修复/超分、风格迁移、科研绘图、游戏素材生成	覆盖所有 2D 图像生成场景，是目前落地最广的 AIGC 图像模型

1.2 Stable Diffusion 发展历程关键节点

时间	关键成果	核心贡献
2020	谷歌提出DDPM 扩散模型	奠定扩散模型理论基础，验证像素级降噪生成图像的可行性
2021	DDIM 采样器发布	扩散模型采样步数从 1000 步降至 50 步内，推理速度大幅提升
2022.08	Stable Diffusion 1.5 开源发布	首次实现潜空间扩散，显存需求降至 4G，消费级显卡可运行，开源引爆社区
2022.11	SD 2.1 发布	优化文本对齐精度，提升图像细节，支持 768 分辨率生成
2023.07	SDXL 1.0 发布	原生支持 1024×1024 高清分辨率，细节/光影/语义对齐全面升级，成为商用首选
2024 至今	SD 3.0+ControlNet+Flux	多模态融合 + 精准控制 + 更快采样，生成可控性与效率达到商用极致

二、Stable Diffusion 整体架构

Stable Diffusion 的核心架构是**「分层解耦、各司其职」的流水线架构**，整体无复杂嵌套，所有模块围绕**「潜空间降噪」**核心目标协同工作，核心优势：模块解耦、可单独替换/微调、算力消耗低。

核心原则：SD 所有的降噪计算都在「潜空间」完成，而非像素空间，潜空间维度仅为像素空间的 1/8，这是 SD 显存友好的核心原因。

2.1 Stable Diffusion 整体核心架构

架构层级/核心模块	核心职责	输入输出维度	关键特性	核心作用
1. 文本编码层（CLIP Encoder）	1. 对输入文本 Prompt/反向 Prompt 做分词 + 编码；2. 生成固定维度的文本语义向量（Text Embedding）；3. 输出文本特征，传递给 U-Net 做语义约束	输入：文本字符串；输出：`[77, 768]` 文本特征向量	1. 采用 OpenAI 的 CLIP 模型，语义理解能力强；2. 固定输出维度，适配 U-Net 输入；3. 支持中英文 Prompt（需训练对应 Embedding）	为图像生成提供语义指导，决定生成图像的「内容主题」
2. 图像编码层（VAE Encoder）	1. 图生图场景专用：将输入的像素级参考图像，编码压缩为潜空间特征向量；2. 降维降噪，去除图像冗余信息；3. 输出潜空间特征，传递给 U-Net 做降噪初始化	输入：`[H, W, 3]` 像素图像；输出：`[H/8, W/8, 4]` 潜空间特征	1. 变分自编码器，核心是降维；2. 潜空间维度是像素的 1/8，算力骤降；3. 无损压缩核心特征，不丢失图像语义	图生图的初始化特征源，文生图场景此模块不工作
3. 随机噪声生成器	1. 文生图场景专用：生成与潜空间维度一致的随机高斯噪声；2. 作为图像生成的「初始起点」；3. 噪声维度与 VAE 编码输出一致，统一 U-Net 输入格式	输入：无；输出：`[H/8, W/8,4]` 随机噪声向量	1. 高斯分布噪声，符合扩散模型的初始条件；2. 维度可控，适配不同分辨率生成	文生图的初始化特征源，所有图像均从「随机噪声」逐步降噪而来
4. 核心降噪层（U-Net 主干网络）	【SD 的核心核心】1. 接收「文本特征 + 潜空间初始特征（噪声/编码图像）」；2. 通过残差卷积 + 多头注意力机制，逐步预测并去除潜空间中的噪声；3. 按采样器的步数，完成逆向扩散降噪；4. 输出降噪后的纯净潜空间特征向量	输入：文本特征 + 潜空间噪声/编码特征；输出：`[H/8, W/8,4]` 纯净潜空间特征	1. 对称的编解码结构，含下采样/上采样；2. 内置注意力机制，捕捉细节与语义对齐；3. 支持条件控制（ControlNet），精准约束生成；4. 核心计算均在潜空间完成	决定图像生成的细节、质量、可控性，是 SD 的「心脏」
5. 采样调度器（Scheduler）	1. 控制 U-Net 的降噪步数、降噪节奏、降噪强度；2. 定义逆向扩散的「降噪策略」，计算每一步的噪声权重；3. 协调 U-Net 的迭代降噪过程，输出每一步的中间特征	输入：降噪步数/强度/策略；输出：降噪步长参数	1. 无模型参数，纯算法策略；2. 可灵活替换（DDIM/Euler/DPM++）；3. 采样步数越少，生成越快，画质略降	平衡生成速度与图像质量，是 SD 的「调速器」
6. 图像解码层（VAE Decoder）	【最终输出】1. 接收 U-Net 输出的纯净潜空间特征；2. 将低维潜空间特征解码升维为像素级图像；3. 还原图像细节、色彩、分辨率；4. 输出最终的高清图像	输入：`[H/8, W/8,4]` 潜空间特征；输出：`[H, W,3]` 像素级 RGB 图像	1. 与 VAE Encoder 对称，核心是升维；2. 无损还原核心特征，补全图像细节；3. 支持超分辨率输出（如 512→1024）	将潜空间特征「还原为人类可识别的图像」，是 SD 的「显示器」

2.2 Stable Diffusion 核心运行流程

流程 1：文生图（Text-to-Image，SD 最核心场景）

文本编码：CLIP 将输入 Prompt 转为文本特征向量；
噪声生成：生成与目标分辨率匹配的潜空间随机噪声；
参数初始化：采样器配置降噪步数、强度、策略；
核心降噪：U-Net 接收文本特征 + 随机噪声，按采样器步数逐步降噪，生成纯净潜空间特征；
图像解码：VAE Decoder 将潜空间特征解码为像素图像；
输出优化：图像后处理（裁剪/调色/超分），输出最终高清图。

流程 2：图生图（Image-to-Image，二次创作场景）

文本编码：同文生图，生成文本特征向量；
图像编码：VAE Encoder 将参考图像转为潜空间特征；
噪声注入：向编码后的潜空间特征中，注入指定强度的随机噪声（噪声强度决定创作自由度）；
参数初始化：同文生图；
核心降噪：U-Net 接收文本特征 + 带噪潜空间特征，逐步降噪；
图像解码：同文生图；
输出优化：同文生图。

三、Stable Diffusion 核心模块与关键公式详解

SD 的技术核心是扩散模型的逆向降噪原理，所有模块均围绕此原理工作，公式是理解 SD 的核心，本文只保留最核心、最必要的公式，无复杂推导，所有公式配参数说明，通俗易懂。

核心结论：扩散模型分为两个过程，SD 只用到了逆向过程（降噪生成），正向过程是模型的预训练阶段，推理阶段不涉及。

3.1 核心理论：扩散模型的「正向扩散 + 逆向降噪」双过程

3.1.1 正向扩散过程（训练阶段，像素级，SD 预训练用）

核心逻辑：向一张纯净的图像 x0 中，逐步、可控地加入高斯噪声，经过 T 步后，图像完全变为随机噪声 xT，模型学习「加噪规律」。
核心公式：单步加噪（马尔可夫链，每一步只依赖上一步）
x_t = sqrt(alpha_t) * x_{t-1} + sqrt(1-alpha_t) * epsilon_t, epsilon_t ~ N(0, I)

符号说明：x_t = 第 t 步加噪后的图像；x_{t-1} = 第 t-1 步的图像；alpha_t = 第 t 步的噪声系数（0<alpha<1）；epsilon_t = 第 t 步的高斯噪声；N(0, I) = 标准高斯分布。
核心特点：加噪不可逆，图像从清晰→模糊→完全噪声，熵值持续增加。

3.1.2 逆向降噪过程（推理阶段，潜空间，SD 核心运行逻辑）

核心逻辑：SD 的核心运行过程，与正向扩散完全相反。从随机噪声 xT 出发，模型逐步预测并去除噪声，经过 T 步后，还原出纯净的初始图像 x0。
核心公式：单步降噪（SD 推理的核心公式，无简化）
x_{t-1} = (1/sqrt(alpha_t)) * (x_t - ((1-alpha_t)/sqrt(1-bar_alpha_t)) * epsilon_theta(x_t, t, c)) + sigma_t * z_t

公式核心参数说明

x_{t-1}：第 t-1 步降噪后的潜空间特征；x_t：第 t 步带噪的潜空间特征；
alpha_t：降噪系数，与正向扩散一致，由采样器调度；
bar_alpha_t：累计降噪系数，bar_alpha_t = product(alpha_i from i=1 to t)；
epsilon_theta(x_t, t, c)：U-Net 的核心输出，模型预测的「第 t 步的噪声值」，theta 是 U-Net 的模型参数；
c：条件约束，即 CLIP 生成的文本特征向量，决定降噪的语义方向；
sigma_t * z_t：随机噪声项，控制生成的多样性，z_t ~ N(0, I)；
所有计算均在潜空间完成，而非像素空间，这是 SD 算力友好的核心。

3.2 核心模块公式 + 特性对照

3.2.1 文本编码器（CLIP）核心特性

无复杂公式，核心是文本特征提取，输出固定维度向量 c ∈ R^{77×768}，特性：

输入文本长度固定为 77 个 token，超长 Prompt 会被截断，超短会补 PAD；
反向 Prompt（Negative Prompt）通过「反向特征约束」，抑制生成不需要的内容（如模糊、畸形、水印）；
语义对齐精度决定图像与文本的匹配度，是 SD 生成质量的核心影响因素之一。

3.2.2 VAE 编解码器核心公式（潜空间核心）

z = Encoder(x_0); x_hat_0 = Decoder(z)

z：潜空间特征向量，维度是像素图像的 1/8；x_0：像素图像；x_hat_0：解码后的还原图像；
核心特性：无损降维 + 无损升维，只保留图像的核心特征，去除冗余像素信息，算力消耗降低 64 倍（8×8）。

3.2.3 U-Net 核心特性

对称的下采样 + 上采样结构，下采样提取图像的「全局特征」，上采样还原「细节特征」；
内置多头自注意力机制，捕捉图像的长距离依赖（如人物的姿态、物体的位置）；
文本特征通过交叉注意力机制注入到每一层，实现「语义指导降噪」；
支持ControlNet 插件，通过额外的控制特征（姿态/深度/线稿），精准约束图像生成，可控性拉满。

3.2.4 采样调度器核心特性

采样器是纯算法策略，无模型参数，核心作用是控制降噪的「步长、节奏、随机性」，是平衡 SD生成速度与质量的关键，无冗余公式，只保留核心结论。

四、Stable Diffusion 核心

4.1 Stable Diffusion vs 其他主流生成式模型核心

对比维度	Stable Diffusion	DALL·E 2	Midjourney	GAN（StyleGAN）
模型类型	扩散模型（潜空间）	扩散模型（像素级）	扩散模型（闭源优化）	对抗生成模型
核心优势	开源可定制、显存低（4G 起）、可控性强、多场景适配	文本对齐精度高、生成质量优	细节/光影极致、商用体验好	生成速度极快、显存需求极低
核心劣势	生成速度中等、细节略逊于 Midjourney	闭源、显存需求高、无定制化	闭源、无本地部署、可控性弱	模式崩塌、生成多样性差、文本对齐弱
部署成本	极低（消费级显卡可运行）	高（云端调用，按次计费）	高（订阅制，无本地部署）	极低（CPU 可运行）
可控性	极强（ControlNet/LoRA/Embedding）	中（仅文本约束）	中（仅 Prompt+ 参数）	弱（仅风格约束）
商用落地	✅ 最优（开源、定制、低成本）	❌ 次优（闭源、计费）	❌ 次优（闭源、订阅）	✅ 次优（速度快，适合简单场景）

4.2 Stable Diffusion 各版本核心

版本	核心分辨率	显存需求	生成质量	推理速度	核心适用场景	优缺点
SD 1.5	512×512	4G+	中	快	入门创作、简单设计、端侧部署	优点：速度快、显存低；缺点：细节一般、分辨率低
SD 2.1	768×768	6G+	中高	中	进阶创作、商业设计、科研绘图	优点：细节提升、语义对齐好；缺点：速度略降、显存需求高
SDXL 1.0	1024×1024	8G+	极高	中慢	专业商用、高清设计、数字孪生	优点：细节拉满、光影逼真、语义对齐极致；缺点：显存需求高、速度略慢
SD 3.0	1024×1024+	10G+	顶级	中	高端商用、多模态创作、视频生成	优点：多模态融合、质量顶级；缺点：显存需求高、部署成本高

4.3 Stable Diffusion 主流采样器核心

采样器名称	生成速度	图像质量	生成多样性	核心适用场景	核心优缺点
DDPM	极慢（1000 步）	极高	高	科研、极致质量需求	✅质量优；❌速度极慢，无商用价值
DDIM	快（20-50 步）	高	中	通用创作、文生图	✅速度快、质量均衡；❌多样性一般
Euler	极快（10-30 步）	中高	高	快速预览、批量生成、图生图	✅速度最快、显存友好；❌细节略逊
Euler A	快（20-30 步）	中高	极高	创意创作、风格化生成	✅多样性拉满、风格突出；❌偶尔细节模糊
DPM++ 2M Karras	中（30-50 步）	极高	中高	商业设计、高清创作、精准生成	✅质量 + 速度双优，商用首选；❌无明显缺点
LMS	中（30-50 步）	高	中	通用场景	✅稳定、无波动；❌速度一般

五、Stable Diffusion 企业级落地要点

5.1 Stable Diffusion 核心落地场景

应用领域	典型落地场景	核心技术支撑	落地价值
视觉设计	海报设计、LOGO 创作、电商主图、画册排版、包装设计	SDXL+LoRA 风格定制+ControlNet 精准控制	提效 80%，降低设计人力成本，快速响应市场需求
内容创作	自媒体配图、小说插画、短视频素材、表情包生成	SD 1.5/2.1+Euler 采样+Embedding 微调	低成本批量创作，丰富内容形式，提升内容产出效率
工业建模	产品效果图、工业设计草图、机械结构可视化	SDXL+ControlNet（线稿/深度）+ 超分	替代传统 3D 建模，缩短设计周期，降低建模成本
数字内容生产	数字人生成、游戏素材、元宇宙场景、虚拟偶像	SDXL+IP-Adapter+LoRA 角色定制	快速生成海量数字资产，适配元宇宙/游戏的内容需求
图像优化	图像修复、老照片翻新、图像超分、风格迁移	图生图 + 低噪声强度 + 超分插件	低成本修复图像，提升图像质量，适配文物修复/老照片还原场景

5.2 Stable Diffusion 落地常见问题与解决方案

常见问题	核心原因	极简解决方案
生成图像与 Prompt「语义不符」	文本编码对齐差、Prompt 描述模糊、采样步数不足	1. 优化 Prompt（精准描述 + 关键词权重）；2. 增加采样步数至 30+；3. 微调 CLIP Embedding 适配中文
图像细节模糊/畸形（手部/面部）	U-Net 细节捕捉不足、采样步数少、分辨率低	1. 升级至 SDXL 版本；2. 用 DPM++ 2M 采样器；3. 开启面部修复/手部修复插件；4. 提高分辨率后超分
显存不足/生成速度慢	模型分辨率高、采样步数多、显卡算力低	1. 降低分辨率（512→768）；2. 减少采样步数（50→30）；3. 开启显存优化（FP16 量化、切片推理）；4. 换用 Euler 采样器
生成图像重复/模式崩塌	噪声强度过高、采样器多样性差、模型过拟合	1. 降低噪声强度；2. 换用 Euler A 采样器；3. 微调 LoRA 而非全量微调模型；4. 增加 Prompt 多样性
图生图创作自由度低/过高	噪声强度设置不合理	1. 保留原图细节：噪声强度 0.1-0.3；2. 适度创作：0.3-0.5；3. 自由创作：0.5-0.8

5.3 Stable Diffusion 性能优化核心技巧

优化方向	核心技巧	优化效果
生成速度优化	1. 换用 Euler/DPM++ 采样器，步数降至 20-30；2. 开启 FP16 量化，显存占用减半；3. 降低分辨率，生成后超分；4. 关闭不必要的修复插件	速度提升 30%-100%，显存占用降低 50%
图像质量优化	1. 升级至 SDXL；2. 用 DPM++ 2M 采样器，步数 30-50；3. 优化 Prompt（精准关键词 + 权重）；4. 开启 ControlNet 约束细节；5. 生成后超分（Real-ESRGAN）	细节提升 50%，语义对齐精度提升 80%
显存占用优化	1. 开启模型切片推理、显存分片；2. 量化模型为 FP16/INT8；3. 降低批次大小；4. 关闭不必要的特征提取	显存占用降低 40%-70%，消费级显卡可运行 SDXL
定制化优化	1. 用 LoRA 轻量化微调（训练快、显存低）；2. 训练 Embedding 适配特定风格/人物；3. 用 ControlNet 精准控制姿态/线稿	定制成本降低 90%，生成可控性拉满

六、总结

Stable Diffusion 是目前最落地、最实用的 AIGC 图像生成模型，核心竞争力源于**「潜空间降噪」**的创新架构，将扩散模型的算力门槛从专业显卡降至消费级显卡，开源属性又让其生态无限丰富。
核心技术总结：

架构核心：分层解耦的流水线架构，文本编码、潜空间降噪、图像解码各司其职，模块可替换、可定制，灵活性拉满；
原理核心：基于扩散模型的逆向降噪，从随机噪声出发，在潜空间逐步去除噪声，最终还原图像，核心公式是单步降噪的马尔可夫链；
落地核心：开源可定制、显存友好、可控性强，通过 LoRA/ControlNet/Embedding 的轻量化定制，可适配所有 2D 图像生成场景；
选型核心：入门用 SD1.5，进阶用 SD2.1，商用用 SDXL，采样器首选 DPM++2M，平衡速度与质量。

SD 的技术迭代从未停止，从 2D 图像到多模态融合，从静态生成到动态视频，SD 始终是 AIGC 图像生成领域的核心标杆，掌握其核心原理与落地技巧，是把握 AIGC 图像生成技术的关键。

Stable Diffusion 模型技术深度解析

一、前置认知：Stable Diffusion 核心基础信息

1.1 Stable Diffusion 核心基础属性

1.2 Stable Diffusion 发展历程关键节点

二、Stable Diffusion 整体架构

2.1 Stable Diffusion 整体核心架构

2.2 Stable Diffusion 核心运行流程

流程 1：文生图（Text-to-Image，SD 最核心场景）

流程 2：图生图（Image-to-Image，二次创作场景）

三、Stable Diffusion 核心模块与关键公式详解

3.1 核心理论：扩散模型的「正向扩散 + 逆向降噪」双过程

3.1.1 正向扩散过程（训练阶段，像素级，SD 预训练用）

3.1.2 逆向降噪过程（推理阶段，潜空间，SD 核心运行逻辑）

公式核心参数说明

3.2 核心模块公式 + 特性对照

3.2.1 文本编码器（CLIP）核心特性

3.2.2 VAE 编解码器核心公式（潜空间核心）

3.2.3 U-Net 核心特性

3.2.4 采样调度器核心特性

四、Stable Diffusion 核心

4.1 Stable Diffusion vs 其他主流生成式模型核心

4.2 Stable Diffusion 各版本核心

4.3 Stable Diffusion 主流采样器核心

五、Stable Diffusion 企业级落地要点

5.1 Stable Diffusion 核心落地场景

5.2 Stable Diffusion 落地常见问题与解决方案

5.3 Stable Diffusion 性能优化核心技巧

六、总结

更多推荐文章

相关免费在线工具

Stable Diffusion 模型技术深度解析

一、前置认知：Stable Diffusion 核心基础信息

1.1 Stable Diffusion 核心基础属性

1.2 Stable Diffusion 发展历程关键节点

二、Stable Diffusion 整体架构

2.1 Stable Diffusion 整体核心架构

2.2 Stable Diffusion 核心运行流程

流程 1：文生图（Text-to-Image，SD 最核心场景）

流程 2：图生图（Image-to-Image，二次创作场景）

三、Stable Diffusion 核心模块与关键公式详解

3.1 核心理论：扩散模型的「正向扩散 + 逆向降噪」双过程

3.1.1 正向扩散过程（训练阶段，像素级，SD 预训练用）

3.1.2 逆向降噪过程（推理阶段，潜空间，SD 核心运行逻辑）

公式核心参数说明

3.2 核心模块公式 + 特性对照

3.2.1 文本编码器（CLIP）核心特性

3.2.2 VAE 编解码器核心公式（潜空间核心）

3.2.3 U-Net 核心特性

3.2.4 采样调度器核心特性

四、Stable Diffusion 核心

4.1 Stable Diffusion vs 其他主流生成式模型核心

4.2 Stable Diffusion 各版本核心

4.3 Stable Diffusion 主流采样器核心

五、Stable Diffusion 企业级落地要点

5.1 Stable Diffusion 核心落地场景

5.2 Stable Diffusion 落地常见问题与解决方案

5.3 Stable Diffusion 性能优化核心技巧

六、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具