什么是 Stable Diffusion,什么是炼丹师?
Stable Diffusion(简称 SD)是一种先进的图像生成技术,市场份额不断增长。炼丹师是指那些专门研究、开发与应用 Stable Diffusion 模型的专业人士或爱好者。
一、SD 绘画原理
基本概念
| 名词 | 解释说明 |
|---|---|
| Stable Diffusion | 是一种基于扩散模型的先进的人工智能技术,特别适用于文本到图像(Text-to-Image)的生成任务。该模型由 CompVis、Stability AI、LAION 等研究机构和公司合作研发,它利用扩散过程在潜在空间(latent space)中生成图像,而不是直接在高维像素空间中操作。 |
| SD WebUI | Stable Diffusion Web UI (SD WebUI) 是一个用于交互式控制和使用 Stable Diffusion 模型的网页应用程序界面。用户可以通过这个界面输入文本提示(prompt)来驱动模型生成相应的图像,提供了简单易用的方式来体验和定制基于 Stable Diffusion 的文本到图像生成过程。 |
| Python | 是一种广泛使用的高级编程语言,以其语法简洁清晰和代码可读性强而著称。在 AI 领域,Python 尤为流行,因为它拥有丰富的科学计算、机器学习和数据处理相关的库。在部署和使用像 Stable Diffusion 这样的深度学习模型时,Python 常被作为开发和运行环境的基础。 |
| Controlnet 插件 | 是针对 Stable Diffusion 模型开发的一种功能扩展插件,它允许用户在文本生成图像的过程中实现更为细致和精确的控制。该插件使得用户不仅能够通过文本提示(prompt)指导模型生成图像,还能添加额外的输入条件,比如控制图像的构图、颜色、纹理、物体位置、人物姿势、景深、线条草图、图像分割等多种图像特征。通过这种方式,ControlNet 提升了 AI 绘画系统的可控性和灵活性。 |
| Controlnet 模型 | 是配合上述插件工作的一个组成部分,它是经过训练以实现对大型预训练扩散模型(如 Stable Diffusion)进行细粒度控制的附加神经网络模型。ControlNet 模型可以学习如何根据用户的特定需求去调整原始扩散模型的输出。例如,ControlNet 可能包括用于识别和利用边缘映射、分割映射或关键点信息的子模块。 |
| VAE | Variational Autoencoder (VAE): 变分自编码器是一种概率生成模型,它结合了编码器(将输入数据编码为潜在空间中的概率分布)和解码器(从潜在空间重构数据)的概念。在图像生成场景中,VAE 可以用来学习数据的潜在表示,并基于这些表示生成新的图像。 |
| CHECKPOINT | SD 能够绘图的基础模型,因此被称为大模型、底模型或者主模型,WebUI 上就叫它 Stable Diffusion 模型。安装完 SD 软件后,必须搭配主模型才能使用。不同的主模型,其画风和擅长的领域会有侧重。checkpoint 模型包含生成图像所需的一切,不需要额外的文件。 |
| hyper-network | 超网络是一种模型微调技术,最初是由 NOVA AI 公司开发的。它是一个附属于 Stable Diffusion 稳定扩散模型的小型神经网络,是一种额外训练出来的辅助模型,用于修正 SD 稳定扩散模型的风格。 |
| LORA | 全称是 Low-Rank Adaptation of Large Language Models 低秩的适应大语言模型,可以理解为 SD 模型的一种插件,和 hyper-network,controlNet 一样,都是在不修改 SD 模型的前提下,利用少量数据训练出一种画风/IP/人物,实现定制化需求,所需的训练资源比训练 SD 模要小很多,非常适合社区使用者和个人开发者。LoRA 最初应用于 NLP 领域,用于微调 GPT-3 等模型。由于 GPT 参数量超过千亿,训练成本太高,因此 LoRA 采用了一个办法,仅训练低秩矩阵(low rank matrics),使用时将 LoRA 模型的参数注入(inject)SD 模型,从而改变 SD 模型的生成风格,或者为 SD 模型添加新的人物/IP。 |
| prompt |








