Stable Diffusion 入门教程：绘画原理与本地部署安装

Stable Diffusion 是一种基于扩散模型的文本到图像生成技术。本文介绍了其核心概念如 VAE、ControlNet、Checkpoint 及 LoRA，阐述了从潜在空间去噪的工作原理。提供了本地部署所需的硬件配置建议（显卡显存、内存、存储）及软件环境要求（Windows/macOS）。详细说明了通过整合包进行 WebUI 安装的步骤，并解析了界面基本功能，包括提示词权重设置、采样迭代步数及随机种子等参数，帮助用户快速上手生成第一张 AI 绘画。

锁机制发布于 2025/2/7更新于 2026/4/191 浏览

什么是 Stable Diffusion，什么是炼丹师？

Stable Diffusion（简称 SD）是一种先进的图像生成技术，市场份额不断增长。炼丹师是指那些专门研究、开发与应用 Stable Diffusion 模型的专业人士或爱好者。

一、SD 绘画原理

基本概念

名词	解释说明
Stable Diffusion	是一种基于扩散模型的先进的人工智能技术，特别适用于文本到图像（Text-to-Image）的生成任务。该模型由 CompVis、Stability AI、LAION 等研究机构和公司合作研发，它利用扩散过程在潜在空间（latent space）中生成图像，而不是直接在高维像素空间中操作。
SD WebUI	Stable Diffusion Web UI (SD WebUI) 是一个用于交互式控制和使用 Stable Diffusion 模型的网页应用程序界面。用户可以通过这个界面输入文本提示（prompt）来驱动模型生成相应的图像，提供了简单易用的方式来体验和定制基于 Stable Diffusion 的文本到图像生成过程。
Python	是一种广泛使用的高级编程语言，以其语法简洁清晰和代码可读性强而著称。在 AI 领域，Python 尤为流行，因为它拥有丰富的科学计算、机器学习和数据处理相关的库。在部署和使用像 Stable Diffusion 这样的深度学习模型时，Python 常被作为开发和运行环境的基础。
Controlnet 插件	是针对 Stable Diffusion 模型开发的一种功能扩展插件，它允许用户在文本生成图像的过程中实现更为细致和精确的控制。该插件使得用户不仅能够通过文本提示（prompt）指导模型生成图像，还能添加额外的输入条件，比如控制图像的构图、颜色、纹理、物体位置、人物姿势、景深、线条草图、图像分割等多种图像特征。通过这种方式，ControlNet 提升了 AI 绘画系统的可控性和灵活性。
Controlnet 模型	是配合上述插件工作的一个组成部分，它是经过训练以实现对大型预训练扩散模型（如 Stable Diffusion）进行细粒度控制的附加神经网络模型。ControlNet 模型可以学习如何根据用户的特定需求去调整原始扩散模型的输出。例如，ControlNet 可能包括用于识别和利用边缘映射、分割映射或关键点信息的子模块。
VAE	Variational Autoencoder (VAE): 变分自编码器是一种概率生成模型，它结合了编码器（将输入数据编码为潜在空间中的概率分布）和解码器（从潜在空间重构数据）的概念。在图像生成场景中，VAE 可以用来学习数据的潜在表示，并基于这些表示生成新的图像。
CHECKPOINT	SD 能够绘图的基础模型，因此被称为大模型、底模型或者主模型，WebUI 上就叫它 Stable Diffusion 模型。安装完 SD 软件后，必须搭配主模型才能使用。不同的主模型，其画风和擅长的领域会有侧重。checkpoint 模型包含生成图像所需的一切，不需要额外的文件。
hyper-network	超网络是一种模型微调技术，最初是由 NOVA AI 公司开发的。它是一个附属于 Stable Diffusion 稳定扩散模型的小型神经网络，是一种额外训练出来的辅助模型，用于修正 SD 稳定扩散模型的风格。
LORA	全称是 Low-Rank Adaptation of Large Language Models 低秩的适应大语言模型，可以理解为 SD 模型的一种插件，和 hyper-network，controlNet 一样，都是在不修改 SD 模型的前提下，利用少量数据训练出一种画风/IP/人物，实现定制化需求，所需的训练资源比训练 SD 模要小很多，非常适合社区使用者和个人开发者。LoRA 最初应用于 NLP 领域，用于微调 GPT-3 等模型。由于 GPT 参数量超过千亿，训练成本太高，因此 LoRA 采用了一个办法，仅训练低秩矩阵（low rank matrics），使用时将 LoRA 模型的参数注入（inject）SD 模型，从而改变 SD 模型的生成风格，或者为 SD 模型添加新的人物/IP。
prompt

	最低推荐配置	推荐配置	备注
显卡（GPU）	GTX1050Ti	低配推荐：RTX4060Ti-16G 高配推荐：RTX4090	为达到良好的体验，请尽可能使用 8GB 显存及以上显卡。低显存虽然能跑，但是体验极差
内存（RAM）	8GB 内存	总内存 24GB 及以上	可以开启虚拟内存，内存过小会在加载模型的时候出现问题
存储空间	20GB 任意存储设备	500GB 以上固态硬盘	强烈建议单独使用一个盘符，如果不想启动的时候等 10 分钟的话，那么只推荐使用 SSD
CPU	x86 架构的 Intel 或 AMD 等处理器都可以，若为 Mac 电脑建议使用搭载 M 系列芯片的机型。

界面及操作说明
stable diffusion 模型	下拉，替换大模型/底模
正面提示词 Tag	（想要的内容，提示词）如：masterpiece, best quality,
反面提示词 Tag	（不想要的内容，提示词）如：lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
提示词加权重	(girl) 加权重，这里是 1.1 倍。 ((girl)) 加很多权重，1.1*1.1=1.21 倍，以此类推。
提示词减权重	[girl] 减权重，一般用的少。减权重也一般就用下面的指定倍数。
提示词指定权重	(girl:1.5) 指定倍数，这里是 1.5 倍的权重。还可以 (girl:0.9) 达到减权重的效果
采样迭代步数	不需要太大，一般在 50 以内。通常 28 是一个不错的值。
采样方法	没有优劣之分，但是他们速度不同。全看个人喜好。推荐的是图中圈出来的几个，速度效果都不错
提示词相关性	代表你输入的 Tag 对画面的引导程度有多大，可以理解为'越小 AI 越自由发挥'，太大会出现锐化、线条变粗的效果。太小 AI 就自由发挥了，不看 Tag
随机种子	生成过程中所有随机性的源头每个种子都是一幅不一样的画。默认的 -1 是代表每次都换一个随机种子。由随机种子，生成了随机的噪声图，再交给 AI 进行画出来

Stable Diffusion 入门教程：绘画原理与本地部署安装

一、SD 绘画原理

更多推荐文章

相关免费在线工具

二、本地部署安装 SD WebUI

三、生成第一张 SD 绘画

Stable Diffusion 入门教程：绘画原理与本地部署安装

一、SD 绘画原理

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

二、本地部署安装 SD WebUI

三、生成第一张 SD 绘画