第五节.Stable Diffusion大模型

优质文章学习记录

11 Apr 2026 — 8 min read

🍉大模型（Stable Diffusion 模型）

大模型，也叫 Stable Diffusion 模型，是 Stable Diffusion 绘图的核心基础，所有生成效果都依赖它。

常见版本

大模型已迭代出多个版本，常见的有：

Stable Diffusion 1.4（SD1.4）
Stable Diffusion 1.5（SD1.5）
Stable Diffusion 2.0（SD2.0）
Stable Diffusion 2.1（SD2.1）
Stable Diffusion XL（SDXL）
Playground、Stable Cascade 等

对初学者来说，重点记住两个主流版本：

SD1.5：最经典、生态最成熟，适合大多数场景
SDXL：新一代大模型，画质更高、细节更强

其他版本可以后续慢慢了解。

重要注意事项

SD1.5 和 SDXL 不通用：

SD1.5 必须搭配 SD1.5 专用 的 ControlNet 等模型
SDXL 必须搭配 SDXL 专用 的 ControlNet 等模型用错版本会直接报错，后面会结合案例详细说明。

🍉为什么要切换不同的大模型？

要理解为什么要切换大模型，核心是搞清楚 SD1.5 和 SDXL 这两代主力模型的区别：

1. 理论层面：SDXL 更 “强”

SDXL（新版本）：训练用的是 1024×1024 分辨率图像
- 理论上出图效果更好
- 能理解更多词汇
- 画面更精致、细节更丰富
SD1.5（老版本）：训练用的是 512×512 分辨率图像
- 基础能力不如 SDXL

2. 现实层面：SD1.5 更 “好用”

SD1.5
- 发布早，生态极其成熟
- 有海量微调模型、LoRA、ControlNet 等配套资源
- 出图效果已经很好，商用场景大多够用
- 对显卡要求低，生成速度快
SDXL
- 发布晚，生态还在追赶
- 模型体积大，对显卡要求高
- 微调难度大，间接拖慢生态发展
- 出图速度比 SD1.5 慢好几倍
- 这些限制导致普及速度较慢

简单总结：

追求画质、细节、表现力 → 优先用 SDXL
追求速度、兼容性、生态资源 → 优先用 SD1.5

2026.1现状：SDXL 生态变好，但 SD1.5 仍主流

到 2026 年 1 月，SDXL 的生态已经比刚发布时完善很多，但 SD1.5 依然是很多人的首选。这一点很重要，因为后面用别人的 ComfyUI 工作流时，必须先看作者用的是哪个版本的大模型，再做对应调整，否则容易报错。

加速模型：LCM / Turbo / Lightning

除了官方版本，你还会遇到带 LCM、Turbo、Lightning 等后缀的模型，它们都属于加速模型。

背景：SDXL 对电脑性能要求高，生成速度慢，所以官方和第三方都在做加速方案。
代价：加速通常会牺牲一点画质（优秀的加速模型，画质损失很小）。
用途：适合需要快速出图、预览效果的场景。

刚才花了一点时间，了解两大版本的差别，那么为什么每个版本下，会有那么多的第三方模型呢？

主要是为了增强某些方面的特殊优化。

优化之后，有些模型会更适合画写实类的画面，有些是二次元，还有一些模型会很适合画幻想元素等等。这个就好比，第三节提到的“雕刻师”都是转职过的，技能上会有所偏向，平时大家使用的，也大多是这些微调的大模型，效果会更好。

🍉模型下载网站：

LibLib（哩布哩布）

LibLib 是国内的大模型分享平台，无需科学上网即可访问。

经过一年多发展，已沉淀大量优质模型，包含不少原创作者的作品；
同时也搬运了许多国外优秀模型，下载方便；
虽有部分模型不开放下载，但绝大多数可免费获取。

官方地址：https://www.liblib.art/

Civitai（C 站）

Civitai 是业内老牌的模型网站，也被称作 C 站。

特点：模型全、更新快，配有缩略图，方便筛选；
限制：需要科学上网 (魔法)才能访问；
官方地址：https://civitai.com/

Hugging Face（抱脸）

Hugging Face 也被称作 “抱脸”，是一个可以下载插件、模型和代码的平台。

特点：更偏向开发者，而非设计师，查找资源的操作门槛相对较高；
访问限制：早期无需科学上网，现在需要科学上网才能正常访问；
官方地址：https://huggingface.co/

🍉模型推荐

面对众多模型，如何挑选效果好的？

其实没有绝对标准，核心是按任务和目标选择：

做漫画 → 选二次元风格大模型
做摄影 → 选写实类大模型

这也是 AI 绘画需要大容量硬盘的原因 —— 很多人会下载几十 G 甚至上百 G 的模型，来覆盖不同场景。

当然，也有一些公认优秀的模型，下面做简单推荐，大家可以先下载，后续使用时就不用临时等待下载了。

这里我将一些常用的模型存到了网盘里，大家可以去一键下载。
链接: https://pan.baidu.com/s/1zUVEfCKQmvYUx7JAN_1rvw 提取码: g2wp

SD1.5

写实类模型推荐

majicMIX realistic（麦橘写实）

这是一款非常优秀的真人写实模型，深受摄影师群体喜爱；
生成美女等写实人像效果稳定、靠谱；
下载地址：majicMIX realistic 麦橘写实

ChilloutMix

一款老牌写实真人模型，在早期非常流行；
虽然现在看技术上稍显落后，但日常使用依然可行；
下载地址：ChilloutMix

Realistic Vision

一款通用型写实大模型，适用场景广、通用性强；
缺点：生成亚洲面孔时，效果不如 majicMIX realistic、ChilloutMix 出色；
优点：在其他写实场景（如风景、静物、欧美人像等）中表现实用；
下载地址：Realistic Vision V6.0

2.5D 模型

ReVAnimated

实用性非常高，已默认打包在提供的 ComfyUI 中；
若不慎删除，可在相关网站或网盘中重新下载；
下载地址：ReVAnimated

动漫模型

Counterfeit-V2.5

经典动漫风格大模型，适合二次元插画、角色生成；
下载地址：Counterfeit-V2.5

SDXL 写实类模型推荐

XXMix_9realisticSDXL

专门针对 SDXL 版本 的写实模型；
解决了默认 SDXL 模型生成亚洲面孔效果不佳的问题，适合生成亚洲人像；
下载地址：XXMix_9realisticSDXL

realisticStockPhoto_v20

一款通用性很强的 SDXL 写实类模型；
下载地址：realisticStockPhoto_v20

其他模型

Juggernaut XL

一款通用性较强的模型，在数字艺术类作品的生成上表现出色；
下载地址：Juggernaut XL

🍉模型下载后，如何安装？

在 ComfyUI 中，大模型无需安装，只需放到指定文件夹即可。

下载的 Stable Diffusion 大模型，放在 models 下的 checkpoints 文件夹中；
可以在 checkpoints 里建二级文件夹分类存放，也可以直接放进去，ComfyUI 都能识别。

下一节，我们就基于一个实际案例，来讲解如何通过大模型来生成一张不错的图片，大家不见不散。

AI 编程效率翻倍：Superpowers Skills 上手清单 + 完整指南

前言在 AI 编程普及的当下，很多开发者都会用 Claude Code、Cursor、Copilot 等 AI 助手写代码，但普遍面临一个痛点：AI 写代码 “无规划、低质量、无流程”，往往写出来的代码需要大量返工，甚至不符合工程规范，反而降低开发效率。而 Superpowers Skills（简称 “Superpowers”），正是为解决这个问题而生 —— 它是一套系统化的 AI 编程工作流框架，把资深工程师的开发经验，固化为 20 + 个可组合的 “技能（Skill）”，强制 AI 遵循 TDD、系统化调试等最佳实践，让 AI 从 “盲目写代码” 变成 “有规划、重质量、可追溯” 的专业开发伙伴。

Python 构建AI多智能体系统：让三个 AI 协作完成复杂任务

单个 AI 能做的事有限，三个 AI 分工协作能做的事远超你想象。本文用纯 Python 从零实现一个多智能体系统，完整代码可直接运行。 * 一、什么是多智能体系统（Multi-Agent System）？ * 二、为什么不用现成框架？ * 三、系统架构设计 * 四、代码实现 * 4.1 基础类：定义 Agent * 4.2 定义三个专业 Agent * 4.3 协调者：任务调度中心 * 4.4 主程序：启动你的 AI 团队 * 五、执行流程详解 * 六、扩展：加入工具能力 * 七、性能对比 * 八、注意事项 * 总结一、

8倍速语音转写革命：Whisper V3 Turbo如何重塑实时交互体验

8倍速语音转写革命：Whisper V3 Turbo如何重塑实时交互体验【免费下载链接】whisper-large-v3-turbo 项目地址: https://ai.gitcode.com/hf_mirrors/openai/whisper-large-v3-turbo 导语 OpenAI最新发布的Whisper V3 Turbo模型通过架构革新，将语音识别速度提升8倍的同时保持高精度，重新定义了实时语音转写的技术标准，为会议记录、多语言直播、智能客服等场景带来效率飞跃。行业现状：实时交互的技术瓶颈 2024年语音识别技术正从"能听懂"向"会理解"快速进化，但实时性与准确性的平衡始终是行业痛点。据行业研究显示，传统语音识别系统平均延迟超过500ms，在直播字幕、实时会议等场景中难以满足用户需求。声网音频算法专家李嵩指出："当前系统都是说完话后才开始理解，而人与人交流时听众在说话过程中就已开始理解"，这种延迟严重影响了实时交互体验。与此同时，多语言支持成为全球化应用的关键挑战。随着跨境会议、国际直播等场景的爆发式增长，

Stable Diffusion底模对应的VAE推荐：提升生成质量的关键技术解析

Stable Diffusion底模对应的VAE推荐：提升生成质量的关键技术解析引言：VAE在Stable Diffusion生态系统中的核心作用变分自编码器（VAE）是Stable Diffusion生成架构中不可或缺的组件，负责将潜在空间表示与像素空间相互转换。尽管常常被忽视，VAE的质量直接影响图像生成的细节表现、色彩准确性和整体视觉效果。本文将深入解析不同Stable Diffusion底模对应的最优VAE配置，从技术原理到实践应用全面剖析VAE的选择策略。 VAE在Stable Diffusion中的核心功能包括： * 编码过程：将输入图像压缩到潜在空间表示（latent representation） * 解码过程：将潜在表示重构为高质量图像 * 正则化作用：确保潜在空间遵循高斯分布，便于扩散过程采样一、VAE技术原理深度解析 1.1 变分自编码器的数学基础变分自编码器的目标是学习数据的潜在表示，其数学基础建立在变分推断之上。给定输入数据 x x x，VAE试图最大化证据下界(ELBO)： log ⁡ p ( x ) ≥ E q ( z ∣