一、技术解读:Stable Diffusion XL(SDXL)核心技术
我们详细拆解了潜在扩散模型(LDMs)的核心架构,包括感知图像压缩、潜在扩散生成和通用条件机制,这三大模块构成了 Stable Diffusion 系列模型的技术基础。
Stable Diffusion XL(SDXL) 是 Stable Diffusion 1.x 的重大改进版本,仍然基于 LDMs 的核心框架,通过精细优化、架构升级和创新条件设计,重点解决了前代模型在高分辨率生成、细节保真度和场景灵活性上的不足,从而实现了与最先进图像生成器相竞争的性能。
SDXL 的核心技术目标是:在保留 LDMs'潜在空间高效计算'优势的基础上,通过架构缩放、条件增强、自编码器优化和多阶段生成,突破高分辨率图像合成的细节瓶颈,同时提升模型的可控性和场景适应能力。
1.1 SDXL 的技术根基:未脱离 LDMs 核心,聚焦'细节与分辨率'优化
SDXL 本质上是LDMs 的工业级优化版本,其核心生成逻辑仍遵循 LDMs 的潜在扩散损失函数,仅在原有基础上增加多维度条件约束,核心公式延续 LDMs 并做扩展:
L_{LDM-SDXL} = \mathbb{E}_{\mathcal{E}(x), y, c, \epsilon \sim \mathcal{N}(0,1), t} \left[ \| \epsilon - \epsilon_{\theta}(z_t, t, \tau_{\theta}(y), c) \|^2_2 \right]
其中 $z_t=\mathcal{E}(x_t)$ 为加噪图像的潜在表示,$y$ 为文本条件,$c$ 为 SDXL 新增的微条件(含大小、裁剪、宽高比),$\epsilon_{\theta}$ 为升级后的大尺度 UNet 去噪模型。
SDXL 未改变 LDMs'将扩散过程转移至潜在空间'的核心设计,这也是其能继续保持'消费级 GPU 友好'的根本原因。与 SD1.x 相比,SDXL 的核心改进思路是:不改变 LDMs 的整体范式,而是对构成 LDMs 的三大核心模块进行'纵向深化',同时相比传统自回归模型(如 VQGAN+Transformer),SDXL 依托扩散模型的非自回归生成特性实现并行计算,解决了自回归模型顺序生成的效率瓶颈,这也是 SDXL 能兼顾高分辨率和生成效率的关键。
1.2 SDXL 核心技术改进详解
1.2.1 架构与规模优化:3 倍 UNet+ 双文本编码器,强化语义与细节建模
潜在扩散生成模块(UNet)是 LDMs 生成图像的核心,SD1.x 的 UNet 因规模有限,在高分辨率生成时易出现细节模糊、语义偏差等问题。SDXL 的首要改进是扩大 UNet 架构规模、优化 Transformer 块分布,并引入双文本编码器,从根本上提升模型的语义理解和细节生成能力——这也是 SDXL 最核心的架构革新。
改进 1:UNet 架构缩放与 Transformer 块异构分布
SDXL 的 UNet 主干网络规模是 SD1.x 的 3 倍,参数达到26 亿(SD1.x 约 8.6 亿),参数增加的核心是更多的注意力块和更大的交叉注意力上下文。
Transformer 块异构分布:不同于 SD1.x 在 UNet 各层级均匀分布 Transformer 块,SDXL 在 UNet 的特征层级中采用非均匀分布策略,公式化表示为 UNet 的特征提取与重建过程:
\begin{align*}
z_t^l &= \text{DownSample}(z_t^{l-1}) + \text{ConvBlock}(z_t^{l-1}) + n_l \cdot \text{TransformerBlock}(z_t^{l-1}, \tau(y), c) \\
\hat{z}_t^{l-1} &= \text{UpSample}(\hat{z}_t^l) + \text{ConvBlock}(\hat{z}_t^l) + n_l \cdot \text{TransformerBlock}(\hat{z}_t^l, \tau(y), c) + z_t^{l-1} \end{align*}
其中 $l$ 为 UNet 的特征层级,$n_l$ 为第 $l$ 层的 Transformer 块数量(SDXL 中 $n_l$ 取 0、2、10,SD1.x 为固定值),DownSample/UpSample 为下/上采样操作,ConvBlock 为卷积块,保留卷积对图像空间结构的归纳偏置。
核心优化:省略最高特征层的 Transformer 块($n_l=0$)、移除 8 倍下采样的最低特征层,减少冗余计算,同时在中低特征层增加 Transformer 块,强化细节特征的注意力建模。
改进 2:双文本编码器融合,提升提示词遵循度
SDXL 摒弃 SD1.x 单一 CLIP 编码器,采用双文本编码器融合策略,将文本特征编码为更丰富的表示,公式化表示为:
\tau_{\theta}(y) = \text{Concat}(\tau_{\text{CLIP-L}}(y)_{-2}, \tau_{\text{OpenCLIP-BigG}}(y)_{-2}) \oplus \text{GlobalPool}(\tau_{\text{OpenCLIP-BigG}}(y))
其中:
- $\tau_{\text{CLIP-L}}(y)$、$\tau_{\text{OpenCLIP-BigG}}(y)$ 分别为 CLIP ViT-L 和 OpenCLIP ViT-bigG 对文本 $y$ 的编码输出;
- $_{-2}$ 表示取编码器倒数第二层输出,避免最后一层的过度压缩;
Concat(·)为通道维度拼接,GlobalPool(·)为全局池化,$\oplus$ 为特征拼接;- 最终融合后的文本特征 $\tau_{\theta}(y)$ 维度远大于 SD1.x 的单一文本特征,作为交叉注意力的 K/V 向量,提升文本与图像的匹配度。
1.2.2 微条件化技术:无需额外监督,解决训练与生成痛点
SDXL 引入大小条件和裁剪条件两种微条件化技术,将训练过程中的数据属性转化为模型输入条件,无需额外标注,公式化表示为统一的微条件嵌入 $c$,解决 SD1.x 训练数据浪费、生成裁剪伪影的问题。论文中明确提及,该条件增强策略也被用于自回归模型,此处补充自回归图像生成的核心公式,并对比 SDXL 的非自回归扩散生成的优势。
改进 1:以图像大小为条件,提升训练效率与生成灵活性
针对 SD1.x 因最小图像尺寸要求导致的训练数据丢失问题,SDXL 将原始图像分辨率作为条件输入,嵌入过程公式化表示为:
c_{\text{size}} = \text{FourierEmbedding}(h_{\text{original}}) \oplus \text{FourierEmbedding}(w_{\text{original}})
其中:
- $h_{\text{original}}$、$w_{\text{original}}$ 为图像未缩放前的原始高度和宽度;
FourierEmbedding(·)为傅里叶特征编码,将数值型的分辨率转化为高维特征向量,避免数值大小带来的特征偏差,公式为:
$d$ 为嵌入维度;\text{FourierEmbedding}(x) = \left[ \sin\left(\frac{x}{10^{2k/d}}\right), \cos\left(\frac{x}{10^{2k/d}}\right) \right]_{k=0}^{d/2-1}- $\oplus$ 为通道维度拼接,最终 $c_{\text{size}}$ 添加到 UNet 的时间步嵌入中,与扩散时间步特征融合:
t_{\text{emb}}' = \text{TimeEmbedding}(t) + c_{\text{size}}
##### 改进 2:以裁剪参数为条件,解决生成图像裁剪伪影
针对 SD1.x 随机裁剪导致的生成伪影问题,SDXL 将**裁剪坐标参数**作为条件输入,与大小条件融合为统一微条件,公式化表示为:
```latex
c = c_{\text{size}} \oplus c_{\text{crop}}, \quad c_{\text{crop}} = \text{FourierEmbedding}(c_{\text{top}}) \oplus \text{FourierEmbedding}(c_{\text{left}})
其中 $c_{\text{top}}$、$c_{\text{left}}$ 为训练时从图像左上角裁剪的像素数,推理时设置 $c_{\text{crop}}=(0,0)$,即可生成对象居中的图像,避免裁剪伪影;同时可通过调整 $c_{\text{crop}}$ 值,模拟不同裁剪效果,实现布局微调。
1.2.3 多宽高比训练:适配真实场景,打破方形图像局限
SD1.x 仅支持固定宽高比的方形图像生成,SDXL 通过多宽高比训练突破该限制,将目标宽高比作为附加条件融入模型,公式化表示为:
c_{\text{ar}} = \text{FourierEmbedding}(h_{\text{tgt}}) \oplus \text{FourierEmbedding}(w_{\text{tgt}}), \quad c_{\text{total}} = c \oplus c_{\text{ar}}
其中 $h_{\text{tgt}}$、$w_{\text{tgt}}$ 为目标宽高比对应的高度和宽度(像素数接近 $1024^2$,且为 64 的倍数,适配自编码器下采样因子 $f=8$),$c_{\text{total}}$ 为包含大小、裁剪、宽高比的总条件向量,最终输入到 UNet 的各层 Transformer 块中,实现多宽高比的自适应生成。
训练时,将数据按宽高比划分为多个桶,同一批次采用相同宽高比的图像,批次间交替不同桶,保证模型对各宽高比的泛化能力。相比之下,自回归模型因序列长度与图像宽高比强绑定,适配多宽高比需重新训练不同的序列建模模型,工程化成本极高,而 SDXL 仅通过条件嵌入即可实现多宽高比适配,灵活性远高于自回归模型。
1.2.4 改进的自编码器:强化感知压缩,提升细节保留能力
LDMs 的自编码器是感知压缩的核心,SDXL 未改变自编码器'编码器 E+ 解码器 D'的架构,而是通过优化训练策略提升重建质量,其损失函数在 LDMs 原有基础上优化为:
L_{\text{Autoencoder-SDXL}} = L_1(\mathcal{D}(\mathcal{E}(x)), x) + \lambda_{\text{GAN}} L_{\text{PatchGAN}}(\mathcal{D}(\mathcal{E}(x)), x) + \lambda_{\text{LPIPS}} L_{\text{LPIPS}}(\mathcal{D}(\mathcal{E}(x)), x)
同时引入指数移动平均(EMA) 优化权重更新:
\theta_{\text{ema}} = \alpha \cdot \theta_{\text{ema}} + (1-\alpha) \cdot \theta_{\text{current}}
其中 $\theta_{\text{ema}}$ 为 EMA 权重,$\theta_{\text{current}}$ 为当前训练权重,$\alpha=0.9999$ 为衰减系数;训练批大小从 SD1.x 的 9 提升至 256,让模型学习到更丰富的图像特征,最终改进后的自编码器在 PSNR、SSIM、LPIPS 等重建指标上全面超越 SD1.x,为潜在扩散生成提供更高质量的'数字底片'。
与自回归模型的 VQ-VAE 对比:自回归模型通常采用向量量化自编码器(VQ-VAE) 构建离散潜在空间,其量化损失会导致潜在表示丢失细节,而 SDXL 的自编码器采用连续潜在空间,无量化损失,结合感知损失+PatchGAN 损失,重建细节远优于 VQ-VAE,这也是 SDXL 生成图像细节更丰富的重要原因。
1.2.5 整体整合与细化阶段:多阶段生成,突破细节瓶颈
SDXL 通过多阶段训练逐步提升模型分辨率适配能力,再引入独立细化模型进行潜在空间二次去噪,实现'全局构图 + 局部细节'的双重优化,核心流程通过公式化表示为两阶段生成过程,相比自回归模型的'单阶段顺序生成',SDXL 的多阶段生成在不损失效率的前提下,实现了细节的二次优化。
1. 多阶段训练:分分辨率逐步优化
SDXL 的训练分为三个阶段,均基于 LDMs 的潜在扩散损失,逐步提升分辨率和条件适配能力:
\begin{align*}
&\text{Stage1: } L_1 = \mathbb{E}_{\mathcal{E}(x), y, c_{\text{size}}, c_{\text{crop}}, \epsilon, t} \left[ \| \epsilon - \epsilon_{\theta_1}(z_t, t, \tau(y), c_{\text{size}}, c_{\text{crop}}) \|^2_2 \right] \quad (x:256\times256) \\
&\text{Stage2: } L_2 = \mathbb{E}_{\mathcal{E}(x), y, c_{\text{size}}, c_{\text{crop}}, \epsilon, t} \left[ \| \epsilon - \epsilon_{\theta_2}(z_t, t, \tau(y), c_{\text{size}}, c_{\text{crop}}) \|^2_2 \right] \quad (x:512\times512) \\
&\text{Stage3: } L_3 = \mathbb{E}_{\mathcal{E}(x), y, c_{\text{total}}, \epsilon, t} \left[ \| \epsilon - \epsilon_{\theta_3}(z_t+\sigma \cdot \epsilon_{\text{shift}}, t, \tau(y), c_{\text{total}}) \|^2_2 \right] \quad (x:\text{多宽高比})
\end{align*}
其中 $\theta_1 \rightarrow \theta_2 \rightarrow \theta_3$ 为模型权重的逐步微调,$\sigma=0.05$ 为偏移噪声系数,提升模型对高分辨率的泛化能力。
2. 细化阶段:潜在空间二次去噪,提升细节保真度
针对基础模型局部细节不足的问题,SDXL 训练独立的细化模型 $\epsilon_{\theta_{\text{refine}}}$,在基础模型生成的潜在表示 $z_0^{\text{base}}$ 上应用SDEdit 加噪 - 去噪过程,公式化表示为:
\begin{align*}
&z_s^{\text{noisy}} = z_0^{\text{base}} + \sqrt{1-\bar{\alpha}_s} \cdot \epsilon, \quad \epsilon \sim \mathcal{N}(0,1) \\
&\hat{z}_0^{\text{refine}} = \text{DDIM-Sample}(\epsilon_{\theta_{\text{refine}}}, z_s^{\text{noisy}}, s, \tau(y)), \quad s \in [1,200]
\end{align*}
其中:
- $z_0^{\text{base}} = \text{SDXL-Base}(y)$ 为基础模型生成的干净潜在表示;
- $z_s^{\text{noisy}}$ 为对 $z_0^{\text{base}}$ 添加 $s$ 步噪声后的带噪潜在表示,SDXL 限定 $s \in [1,200]$(仅针对前 200 个噪声尺度训练,聚焦细节修复);
DDIM-Sample(·)为 DDIM 采样算法,通过细化模型 $\epsilon_{\theta_{\text{refine}}}$ 逐步去噪得到更精细的潜在表示 $\hat{z}_0^{\text{refine}}$;- 最终高分辨率图像为 $\hat{x} = \mathcal{D}(\hat{z}_0^{\text{refine}})$,细节保真度远高于基础模型生成的 $\mathcal{D}(z_0^{\text{base}})$。
用户研究验证,加入细化阶段后,SDXL 的用户偏好胜率从 36.93% 提升至 48.44%,尤其在人脸、纹理、背景细节上提升显著。而自回归模型若要实现细节优化,需增加序列建模的层数和参数,会进一步降低生成效率,难以兼顾质量和速度。
1.3 SDXL 技术改进总结
| 技术维度 | Stable Diffusion 1.x | Stable Diffusion XL(SDXL) | 自回归模型(VQGAN+Transformer) | 核心公式/表示 |
|---|---|---|---|---|
| 生成方式 | 非自回归(扩散) | 非自回归(扩散) | 自回归(序列建模) | $p(z)\propto\mathcal{N}(z;\mu,\sigma^2)$ / $p(z)=\prod p(z_i |
| UNet 架构 | 8.6 亿参数,固定 Transformer 块数 | 26 亿参数,异构 Transformer 块分布 | 无 UNet,采用 Transformer 序列建模 | $n_l$ 固定 / $n_l \in {0,2,10}$ / $p(z_i |
| 文本编码 | 单一 CLIP 编码器,$\tau(y) \in \mathbb{R}^{d_1}$ | 双编码器融合,$\tau_{\theta}(y) \in \mathbb{R}^{d_2}, d_2 \gg d_1$ | 单一文本编码器,$\tau(y) \in \mathbb{R}^{d_3}$ | $\tau(y)=\text{CLIP}(y)$ / $\tau_{\theta}(y)=\text{Concat(CLIP-L, OpenCLIP)}$ / $\tau(y)=\text{CLIP}(y)$ |
| 条件机制 | 无,仅文本条件 | 大小 + 裁剪 + 宽高比条件,傅里叶嵌入 | 仅文本条件,无微条件化 | $c=\emptyset$ / $c=\text{FourierEmbedding}(h,w,top,left)$ / $c=\emptyset$ |
| 自编码器 | $L_{\text{AE}}=L1+LPIPS$,批大小 9 | $L_{\text{AE}}$+EMA,批大小 256 | VQ-VAE(含量化损失) | $\theta_{\text{ema}}=\emptyset$ / $\theta_{\text{ema}}=\alpha\theta_{\text{ema}}+(1-\alpha)\theta_{\text{current}}$ / $L_{\text{VQ}}=$ |
| 生成流程 | 单阶段:$\hat{x}=\mathcal{D}(\text{SD1.x}(y))$ | 两阶段:$\hat{x}=\mathcal{D}(\text{Refine}(\text{SDXL-Base}(y)))$ | 单阶段:$\hat{x}=\mathcal{D}(\text{AutoReg}(y))$ | $\hat{z}_0=\text{Base}$ / $\hat{z}_0=\text{Refine}(\text{Base})$ / $\hat{z}=\text{AutoRegSeq}$ |
| 推理效率 | 中等(512×512) | 高(1024×1024,并行生成) | 低(512×512,顺序生成) | 512×512 需 20 步/1024×1024 需 20 步/512×512 需 $512\times512$ 步 |
1.4 SDXL 的局限性与未来方向
尽管 SDXL 实现了显著的技术进步,但仍存在一些固有局限性,这些局限性也为后续 SD3 的架构革新指明了方向,同时反映了潜在扩散模型对比自回归模型的当前技术边界:
- 两阶段生成的效率损耗:细化模型需加载两个大模型,显存占用提升,采样速度下降,未来需探索单阶段高细节生成模型,让 $\epsilon_{\theta}$ 直接生成高质量 $\hat{z}_0$,无需二次去噪;
- 文本合成能力不足:生成清晰可读长文本仍有困难,公式中双文本编码器仍基于词级分词,未来可引入字符级自回归文本编码器 $\tau_{\text{char}}(y)$,让文本特征更精细;
- 复杂结构生成困难:对人手、人体解剖结构的生成仍有偏差,源于潜在空间中 3D 结构特征建模不足,未来可引入 3D 条件 $c_{\text{3D}}$(如深度、姿态)扩展条件向量;
- 推理成本提升:26 亿参数 UNet 导致推理 VRAM 占用增加,未来可通过知识蒸馏得到轻量模型 $\epsilon_{\theta_{\text{distill}}}$,满足低算力设备需求,蒸馏损失为:
L_{\text{distill}} = \mathbb{E}_{z_t,t,y,c} \left[ \| \epsilon_{\theta}(z_t,t,y,c) - \epsilon_{\theta_{\text{distill}}}(z_t,t,y,c) \|^2_2 \right] - 概念混淆与偏见:多物体属性混淆(如红帽子→蓝帽子)、训练数据集引入社会偏见,未来需优化文本 - 图像特征的语义绑定,让交叉注意力的 Q-K 匹配更精准,同时可结合自回归模型的序列语义建模优势,提升特征匹配的准确性。
二、论文翻译:SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis(SDXL:改进潜在扩散模型以实现高分辨率图像合成)
0 摘要
我们提出了 SDXL,一种用于文本到图像合成的潜在扩散模型。与之前版本的 Stable Diffusion 相比,SDXL 利用了三倍大的 UNet 主干网络:模型参数的增加主要源于更多的注意力块和更大的交叉注意力上下文,因为 SDXL 使用了第二个文本编码器。我们设计了多种新颖的条件方案,并在多种宽高比上训练了 SDXL。我们还引入了一个细化模型,该模型用于通过后处理的图像到图像技术来提高 SDXL 生成样本的视觉保真度。我们证明,与之前版本的 Stable Diffusion 相比,SDXL 显示出显著改进的性能,并实现了与黑盒最先进图像生成器相竞争的结果。本着促进开放研究和增强大模型训练与评估透明度的精神,我们提供了代码和模型权重的访问权限。
1 引言
过去一年,深度学习生成模型在多种数据领域取得了巨大飞跃,例如自然语言 [50]、音频 [17] 和视觉媒体 [38,37,40,44,15,3,7]。在本报告中,我们聚焦于后者,并发布 SDXL——Stable Diffusion 的一个显著改进版本。Stable Diffusion 是一个潜在的文生图扩散模型(DM),它作为一系列最新进展的基础,例如在 3D 分类 [43]、可控图像编辑 [54]、图像个性化 [10]、合成数据增强 [48]、图形用户界面原型设计 [51] 等方面。值得注意的是,其应用范围异常广泛,涵盖了从音乐生成 [9] 到从 fMRI 脑扫描重建图像 [49] 等众多不同领域。
用户研究表明,SDXL consistently 以显著优势超越所有先前版本的 Stable Diffusion(见图 1)。在本报告中,我们介绍了导致此性能提升的设计选择,包括:i) 与先前 Stable Diffusion 模型相比,UNet 骨干网络扩大了 3 倍(第 2.1 节);ii) 两种简单而有效的附加条件技术(第 2.2 节),这些技术不需要任何形式的额外监督;以及 iii) 一个独立的基于扩散的细化模型,该模型对 SDXL 产生的潜在表示应用加噪 - 去噪过程 [28],以提升其样本的视觉质量(第 2.5 节)。
视觉媒体创作领域的一个主要担忧是,虽然黑盒模型通常被认为是先进的,但其架构的不透明性阻碍了对其性能进行忠实评估和验证。这种透明度的缺乏阻碍了可重复性,抑制了创新,并阻止了社区在此类模型的基础上进一步发展科学和艺术。此外,这些闭源策略使得以公正客观的方式评估这些模型的偏见和局限性变得困难,而这对于其负责任和符合伦理的部署至关重要。通过 SDXL,我们发布了一个开源模型,其性能与黑盒图像生成模型相竞争(见图 10 和图 11)。
2 改进 Stable Diffusion
在本节中,我们介绍了对 Stable Diffusion 架构的改进。这些改进是模块化的,可以单独或组合使用以扩展任何模型。尽管以下策略是作为潜在扩散模型(LDMs)[38] 的扩展实现的,但其中大多数也适用于其像素空间对应物。
2.1 架构与规模
从 Ho 等人 [14] 和 Song 等人 [47] 的开创性工作开始,这些工作证明了 DMs 是图像合成的强大生成模型,卷积 UNet [39] 架构一直是基于扩散的图像合成的主导架构。然而,随着基础 DMs [40, 37, 38] 的发展,底层架构不断演进:从添加自注意力和改进的上采样层 [5],到用于文本到图像合成的交叉注意力 [38],再到纯粹的基于变换器的架构 [33]。
我们遵循这一趋势,并遵循 Hoogeboom 等人 [16] 的做法,将变换器计算的主要部分转移到 UNet 中的较低层级特征。特别是,与原始 Stable Diffusion 架构相比,我们在 UNet 内部使用了异构的变换器块分布:出于效率原因,我们省略了最高特征级别的变换器块,在较低级别使用 2 和 10 个块,并完全移除了 UNet 中的最低级别(8 倍下采样)——参见表 1 对 Stable Diffusion 1.x 和 2.x 与 SDXL 架构的比较。
我们选择使用一个更强大的预训练文本编码器用于文本条件。具体来说,我们结合使用 OpenCLIP ViT-bigG [19] 和 CLIP ViT-L [34],其中我们沿通道轴连接倒数第二个文本编码器输出 [1]。除了使用交叉注意力层以文本输入为条件外,我们遵循 [30] 并额外以 OpenCLIP 模型汇集后的文本嵌入为条件。这些更改导致 UNet 中的模型大小达到 26 亿参数,参见表 1。文本编码器总大小为 8.17 亿参数。
2.2 微条件化
以图像大小为条件模型
LDM 范式 [38] 的一个众所周知的缺点是,由于其两阶段架构,训练模型需要最小图像尺寸。解决此问题的两种主要方法是:要么丢弃所有低于某个最小分辨率的训练图像(例如,Stable Diffusion 1.4/1.5 丢弃了任何尺寸低于 512 像素的图像),要么对过小的图像进行上采样。然而,根据所需的图像分辨率,前一种方法可能导致丢弃大部分训练数据,这可能会造成性能损失,并在图 2 中可视化了 SDXL 预训练数据集上的此类影响。对于此特定数据选择,丢弃所有低于我们预训练分辨率 $256^2$ 像素的样本将导致显著丢弃 39% 的数据。另一方面,第二种方法通常会引入上采样伪影,这些伪影可能会泄漏到最终模型输出中,例如导致模糊样本。
相反,我们提出以原始图像分辨率作为 UNet 模型的条件,这在训练期间是琐碎可用的。特别是,我们将图像的原始(即,在任何重新缩放之前)高度和宽度作为附加条件提供给模型 $c_{\text{size}} = (h_{\text{original}}, w_{\text{original}})$。每个分量使用傅里叶特征编码独立嵌入,并将这些编码连接成一个单一向量,通过将其添加到时间步长嵌入 [5] 中馈送到模型。
在推理时,用户可以通过此大小条件设置所需的图像表观分辨率。显然(参见图 3),模型已学会将条件 $c_{\text{size}}$ 与分辨率相关的图像特征相关联,这可用于修改对应于给定提示的输出外观。注意,对于图 3 所示的可视化,我们可视化由 512 x 512 模型生成的样本(详见第 2.5 节),因为在随后的用于我们最终 SDXL 模型的多宽高比微调之后,大小条件的效果不太明显。
我们通过训练和评估三个在空间尺寸 $512^2$ 的类条件 ImageNet [4] 上的 LDM,定量评估此简单但有效的条件技术的效果:对于第一个模型(CIN-512-only),我们丢弃所有至少有一条边小于 512 像素的训练示例,这导致训练数据集仅包含 70k 图像。对于 CIN-nocond,我们使用所有训练示例但没有大小条件。此附加条件仅用于 CIN-size-cond。训练后,我们使用 50 个 DDIM 步骤 [46] 和(无分类器)引导尺度 5 [13] 为每个模型生成 5k 样本,并计算 IS [42] 和 FID [12](针对完整验证集)。对于 CIN-size-cond,我们生成样本时始终以 $c_{\text{size}} = (512, 512)$ 为条件。表 2 总结了结果,并验证了 CIN-size-cond 在两个指标上均优于基线模型。我们将 CIN-512-only 的性能下降归因于由于在小训练数据集上过拟合而导致的泛化能力差,而 CIN-nocond 样本分布中模糊样本模式的影响导致 FID 分数降低。注意,虽然我们发现这些经典定量分数不适用于评估基础(文本到图像)DMs 的性能 [40, 37, 38](见附录 F),但它们仍然是 ImageNet 上的合理指标,因为 FID 和 IS 的神经主干是在 ImageNet 本身上训练的。
以裁剪参数为条件模型
图 4 的前两行说明了先前 SD 模型的典型失败模式:合成对象可能被裁剪,例如左例中 SD 1-5 和 SD 2-1 中猫的头部被切断。对此行为的直观解释是在模型训练期间使用随机裁剪:由于在 PyTorch [32] 等 DL 框架中整理批次需要相同大小的张量,典型的处理流程是(i)调整图像大小使得最短尺寸匹配所需目标大小,接着(ii)沿较长轴随机裁剪图像。虽然随机裁剪是一种自然的数据增强形式,但它可能泄漏到生成的样本中,导致上述恶意效果。
为了解决此问题,我们提出了另一种简单而有效的条件方法:在数据加载期间,我们均匀采样裁剪坐标 $c_{\text{top}}$ 和 $c_{\text{left}}$(整数,指定分别从左上角沿高度和宽度轴裁剪的像素量),并通过傅里叶特征嵌入将它们作为条件参数馈送到模型,类似于上述大小条件。连接后的嵌入 $c_{\text{crop}}$ 然后用作附加条件参数。我们强调此技术不限于 LDM,可用于任何 DM。注意,裁剪和大小条件可以轻松组合。在这种情况下,我们在将特征嵌入添加到 UNet 中的时间步长嵌入之前,沿通道维度连接特征嵌入。算法 1 说明了如果应用此类组合,我们在训练期间如何采样 $c_{\text{crop}}$ 和 $c_{\text{size}}$。
鉴于我们的经验表明大规模数据集平均上是面向对象的,我们在推理期间设置 $(c_{\text{top}}, c_{\text{left}}) = (0, 0)$,从而从训练模型中获取以对象为中心的样本。参见图 5 进行说明:通过调整 $(c_{\text{top}}, c_{\text{left}})$,我们可以在推理期间成功模拟裁剪量。这是一种条件增强形式,已以各种形式与自回归 [20] 模型一起使用,最近与扩散模型 [21] 一起使用。
虽然像数据分桶 [31] 这样的其他方法成功解决了相同的任务,我们仍然受益于裁剪 induced 的数据增强,同时确保它不泄漏到生成过程中——我们实际上利用它来获得对图像合成过程的更多控制。此外,它易于实现,并且可以在训练期间以在线方式应用,无需额外数据预处理。
2.3 多宽高比训练
真实世界数据集包括各种尺寸和宽高比的图像(参见图 2)。虽然文本到图像模型的常见输出分辨率是 512 x 512 或 1024 x 1024 像素的方形图像,但我们认为这是一个相当不自然的选择,考虑到横屏(例如 16:9)或竖屏格式显示的广泛分布和使用。
受此启发,我们对模型进行微调以同时处理多个宽高比:我们遵循常见实践 [31] 并将数据划分为不同宽高比的桶,其中我们保持像素数尽可能接近 $1024^2$ 像素,相应地在 64 的倍数中变化高度和宽度。用于训练的所有宽高比的完整列表在附录 I 中提供。在优化期间,训练批次由来自同一桶的图像组成,并且我们在每个训练步骤之间交替桶大小。此外,模型接收桶大小(或目标大小)作为条件,表示为整数元组 $ar = (h_{\text{tgt}}, w_{\text{tgt}})$,其被嵌入到傅里叶空间中,类似于上述大小和裁剪条件。
在实践中,我们将多宽高比训练作为在固定宽高比和分辨率下预训练模型后的微调阶段应用,并通过沿通道轴连接将其与第 2.2 节中引入的条件技术结合。附录 J 中的图 16 提供了此操作的 python 代码。注意,裁剪条件和多宽高比训练是互补操作,并且裁剪条件然后仅在桶边界内工作(通常 64 像素)。然而,为便于实现,我们选择为多宽高比模型保留此控制参数。
2.4 改进的自编码器
Stable Diffusion 是一个 LDM,在一个预训练的、学习的(和固定的)改进自编码器的潜在空间中操作。虽然大部分语义组合由 LDM [38] 完成,但我们可以通过改进自编码器来改善生成图像中的局部高频细节。为此,我们以更大的批大小(256 vs 9)训练用于原始 Stable Diffusion 的相同自编码器架构,并另外使用指数移动平均跟踪权重。得到的自编码器在所有评估的重建指标中均优于原始模型,参见表 3。我们将此自编码器用于所有实验。
2.5 整体整合
我们以多阶段过程训练最终模型 SDXL。SDXL 使用第 2.4 节中的自编码器和具有 1000 步的离散时间扩散调度 [14, 45]。首先,我们在内部数据集上预训练一个基础模型(参见表 1),其高度和宽度分布如图 2 所示,在 256 x 256 像素分辨率和批大小 2048 下进行 600000 次优化步骤,使用第 2.2 节中描述的大小和裁剪条件。我们继续在 512 x 512 像素图像上训练另外 200000 次优化步骤,最后利用多宽高比训练(第 2.3 节)结合 0.05 的偏移噪声 [11, 25] 水平,在约 1024x1024 像素区域的不同宽高比(第 2.3 节,附录 I)上训练模型。
细化阶段
经验上,我们发现得到的模型有时产生局部质量低的样本,参见图 6。为了提高样本质量,我们在相同潜在空间中训练一个单独的 LDM,该模型专门处理高质量、高分辨率数据,并在基础模型的样本上应用 SDEdit [28] 引入的加噪 - 去噪过程。我们遵循 [1] 并将此细化模型专门用于前 200 个(离散)噪声尺度。在推理期间,我们从基础 SDXL 渲染潜在表示,并使用相同的文本输入,在潜在空间中直接用细化模型对它们进行扩散和去噪(参见图 1)。我们注意此步骤是可选的,但提高了详细背景和人脸的样本质量,如图 6 和图 13 所示。
为了评估我们的模型(有和没有细化阶段)的性能,我们进行了一项用户研究,让用户从以下四个模型中选择他们最喜欢的生成:SDXL、SDXL(带细化器)、Stable Diffusion 1.5 和 Stable Diffusion 2.1。结果表明,带细化阶段的 SDXL 是评分最高的选择,并且以显著优势优于 Stable Diffusion 1.5 和 2.1(胜率:SDXL 带细化:48.44%,SDXL 基础:36.93%,Stable Diffusion 1.5:7.91%,Stable Diffusion 2.1:6.71%)。参见图 1,该图也提供了完整流程的概述。然而,当使用经典性能指标如 FID 和 CLIP 分数时,SDXL 相对于先前方法的改进并未反映出来,如图 12 所示并在附录 F 中讨论。这与 Kirstain 等人 [23] 的发现一致并进一步支持。
3 未来工作
本报告对用于文本到图像合成的基础模型 Stable Diffusion 的改进进行了初步分析。虽然我们在合成图像质量、提示词遵循度和构图方面取得了显著改进,但在下文中,我们讨论了一些我们认为模型可能可以进一步改进的方面:
- 单阶段模型:目前,我们使用带有额外细化模型的两阶段方法从 SDXL 生成最佳样本。这导致必须将两个大模型加载到内存中,影响了可访问性和采样速度。未来的工作应研究如何提供具有同等或更高质量的单阶段模型。
- 文本合成:虽然模型规模和更大的文本编码器(OpenCLIP ViT-bigG [19])有助于改进文本渲染能力,优于先前版本的 Stable Diffusion,但纳入字节级分词器 [52, 27] 或直接将模型扩展到更大规模 [53, 40] 可能会进一步改进文本合成。
- 架构:在本工作的探索阶段,我们简要尝试了基于变换器的架构,如 UViT [16] 和 DiT [33],但没有发现立竿见影的好处。然而,我们仍然乐观地认为,仔细的超参数研究最终将能够扩展到更大的、以变换器为主的架构。
- 蒸馏:虽然我们对原始 Stable Diffusion 模型的改进是显著的,但这是以增加推理成本(包括 VRAM 和采样速度)为代价的。因此,未来的工作将侧重于减少推理所需的计算量并提高采样速度,例如通过引导蒸馏 [29]、知识蒸馏 [6,22,24] 和渐进式蒸馏 [41,2,29]。
- 我们的模型采用 [14] 的离散时间公式进行训练,并且需要偏移噪声 [11,25] 才能产生美观的结果。Karras 等人的 EDM 框架 [21] 是未来模型训练的一个有前途的候选方案,因为其连续时间公式允许提高采样灵活性,并且不需要噪声调度修正。
局限性
虽然我们的模型在生成真实图像和合成复杂场景方面展现了令人印象深刻的能力,但承认其固有的局限性至关重要。理解这些局限性对于进一步改进和确保技术的负责任使用至关重要。
首先,该模型在合成复杂结构(例如人手,参见图 7 左上角)时可能会遇到挑战。尽管它已经在多样化的数据上进行了训练,但人体解剖结构的复杂性给持续实现精确表示带来了困难。这一局限性表明需要针对细粒度细节的合成进行进一步的规模扩展和专门的训练技术。发生这种情况的原因可能是手和类似物体在照片中出现的差异性非常大,模型难以在这种情况下提取真实 3D 形状和物理限制的知识。
其次,虽然该模型在其生成的图像中实现了显著的真实感水平,但需要注意的是,它并未达到完美的照片真实感。某些细微差别,例如微妙的光照效果或微小的纹理变化,在生成的图像中可能仍然缺失或表现不够忠实。这种局限性意味着,在需要高度视觉保真度的应用中,仅依赖模型生成的视觉效果时应谨慎行事。
此外,该模型的训练过程严重依赖于大规模数据集,这可能会无意中引入社会和人种偏见。因此,模型在生成图像或推断视觉属性时可能会无意中加剧这些偏见。
在某些包含多个对象或主体的样本中,模型可能会表现出一种称为'概念混淆'的现象。这个问题表现为不同视觉元素的意外合并或重叠。例如,在图 14 中,观察到一个橙色太阳镜,这表明了橙色毛衣概念混淆的一个实例。另一个例子可见于图 8,企鹅本应有一顶'蓝帽子'和'红手套',但生成的却是蓝手套和一顶红帽子。识别并解决此类情况对于改进模型在复杂场景中准确分离和表示单个对象的能力至关重要。其根本原因可能在于所使用的预训练文本编码器:首先,它们被训练将所有信息压缩到单个令牌中,因此可能无法仅绑定正确的属性和对象,Feng 等人 [8] 通过将词关系显式编码到编码中来缓解此问题。其次,对比损失也可能对此有贡献,因为需要在同一批次中包含具有不同绑定的负样本 [35]。
此外,虽然我们的模型相对于 SD 之前的版本代表了显著的进步,但在渲染长段、清晰可读的文本时仍然遇到困难。偶尔,生成的文本可能包含随机字符或表现出不一致,如图 8 所示。克服这一局限性需要进一步研究和开发技术,以增强模型的文本生成能力,特别是对于较长的文本内容——例如参见 Liu 等人 [27] 的工作,他们提出通过字符级文本分词器来增强文本渲染能力。或者,扩展模型规模确实能进一步改进文本合成 [53, 40]。
总之,我们的模型在图像合成方面表现出显著的优势,但它也存在某些局限性。与合成复杂结构、实现完美照片真实感、进一步解决偏见、减轻概念混淆以及改进文本渲染相关的挑战,突出了未来研究和优化的途径。


