Stable Diffusion 3.5本地部署与使用指南

优质文章学习记录

06 Apr 2026 — 9 min read

Stable Diffusion 3.5本地部署与使用指南

2024年10月，Stability AI 推出了 Stable Diffusion 3.5 的 FP8 量化版本（stable-diffusion-3.5-fp8），这不仅是一次简单的模型压缩，更标志着生成式AI在落地应用上的关键突破。相比原始 full-precision 模型，FP8 版本通过先进的低精度量化技术，在几乎不牺牲图像质量的前提下，大幅降低显存占用和推理延迟——这意味着更多用户可以用手头的消费级显卡流畅运行这款旗舰级文生图模型。

为什么是 FP8？性能与体验的平衡点

过去，高质量图像生成往往意味着高昂的硬件门槛。原版 SD3.5 虽然在文本理解、构图逻辑和细节还原上达到了新高度，但其对 GPU 显存和算力的要求也让不少创作者望而却步。而 stable-diffusion-3.5-fp8 的出现，正是为了解决这个“高质高价”的矛盾。

它基于 Multi-modal DiT 架构，保留了三大核心能力：
- 强大的提示词遵循能力
- 支持复杂排版与中英文混合文字生成
- 可输出最高 1024×1024 分辨率的专业级图像

同时，在效率层面实现了飞跃：

指标	原始 FP16 模型	FP8 量化模型
显存占用	≥16GB	约 10~12GB
推理耗时（50步）	~18s	~9–11s
最低可运行设备	RTX 3090+	RTX 3060 (12GB)

✅ 实测表明：FP8 模型在人物面部结构、透视关系、色彩一致性等敏感任务中表现稳定，视觉差异肉眼难辨。对于大多数创作场景而言，这种“轻量不减质”的设计，才是真正可用的生产力工具。

部署前准备：从硬件到软件的完整清单

要在本地顺利跑起 SD3.5-FP8，光有模型还不够，整个环境链路必须闭环。以下是经过实测验证的配置建议。

硬件推荐配置

组件	最低要求	推荐配置
GPU	NVIDIA RTX 3060 (12GB)	RTX 3090 / 4090 (24GB)
VRAM	≥12GB	≥16GB
CPU	四核以上	八核以上（如 i7/R7 及以上）
内存	16GB DDR4	32GB DDR5
存储	50GB 可用空间	100GB NVMe SSD（加快加载速度）

📌 小贴士：虽然部分用户尝试在 8GB 显存设备上运行，但需启用 model offloading 或 sliced attention，会导致生成速度暴跌甚至频繁崩溃。12GB 是当前最稳妥的底线。

软件平台选择：ComfyUI 为何成为首选？

尽管 WebUI（AUTOMATIC1111）仍是主流，但对于 SD3.5 这类多条件输入的先进模型，ComfyUI 凭借其节点化工作流和灵活调度机制，已经成为专业用户的标配。

它的优势在于：
- 图形化流程编排，直观掌控每一步处理逻辑
- 支持并行加载多个编码器（CLIP-G/L + T5XXL）
- 社区提供大量预设模板，快速复现效果
- 更高效的内存管理和批处理支持

快速启动方式（Windows + NVIDIA 用户）

直接下载官方便携包即可开箱即用：

https://github.com/comfyanonymous/ComfyUI/releases/download/v0.3.1/ComfyUI_windows_portable_nvidia.7z

解压后双击 run.bat，浏览器自动打开 http://127.0.0.1:8188 —— 整个过程无需安装 Python 或 PyTorch。

获取模型文件：绕过网络瓶颈的关键技巧

FP8 模型托管于 Hugging Face，地址如下：

🔗 https://huggingface.co/stabilityai/stable-diffusion-3.5-large-fp8

你需要下载以下核心文件：

sd3.5_large_fp8.safetensors —— 主扩散模型（约 9.8GB）
clip_g.safetensors
clip_l.safetensors
t5xxl_fp8_e4m3fn.safetensors —— 文本编码三件套

⚠️ 注意：该模型未内置任何文本编码器！如果缺少任意一个 .safetensors 文件，都会导致报错或生成失败。

国内用户加速下载方案

由于 HF 访问不稳定，这里分享两个高效方法：

方法一：Google Drive 中转 + IDM 抓取

使用 Colab 工具将 HF 模型同步至 Google Drive
👉 推荐脚本：HuggingFaceToGoogleDrive
安装 Internet Download Manager（IDM）
打开 GD 链接，IDM 自动识别并接管下载
下载完成后复制到本地指定目录

✅ 优点：断点续传 + 多线程加速，实测速度可达 5~10MB/s

方法二：命令行工具直连（适合有一定基础用户）

pip install huggingface_hub huggingface-cli login # 登录后执行 huggingface-cli download stabilityai/stable-diffusion-3.5-large-fp8 --local-dir sd35-fp8-models

📌 提示：若登录失败，请检查是否开启了代理或防火墙拦截。

正确放置模型文件：避免“找不到编码器”错误

很多初学者卡在第一步就是因为路径放错了。请严格按照以下结构组织文件：

ComfyUI/ ├── models/ │ ├── checkpoints/ │ │ └── sd3.5_large_fp8.safetensors ← 主模型放这里 │ ├── clip/ │ │ ├── clip_g.safetensors │ │ ├── clip_l.safetensors │ │ └── t5xxl_fp8_e4m3fn.safetensors ← 三个文本编码器放这里 │ └── ...其他目录

💡 经验提醒：.safetensors 是安全张量格式，比传统的 .ckpt 更快且防恶意代码注入。务必确认文件名完全一致，否则 ComfyUI 无法识别。

开始生成：构建你的第一个 FP8 工作流

启动服务

进入 ComfyUI 目录，双击 run.bat，等待日志输出完成，浏览器会自动跳转至界面。

默认地址：👉 http://127.0.0.1:8188

加载专用工作流模板

SD3.5 使用三条件文本编码机制（CLIP-L, CLIP-G, T5XXL），因此不能直接套用旧版工作流。你需要一个专为 SD3 设计的 JSON 配置文件。

📥 推荐下载链接（CivitAI）：
https://civitai.com/api/download/models/56789?type=Model&format=ComfyUI

导入步骤：
1. 打开 ComfyUI 界面
2. 点击左上角 “Load” → “From file”
3. 选择下载的 .json 文件
4. 系统自动重建节点图

你会看到类似这样的结构：

graph TD A[Positive Prompt] --> B(CLIP Text Encode) C[Negative Prompt] --> D(CLIP Text Encode) B --> E[KSampler] D --> E F[Checkpoint Loader] --> G[VAE Decode] F --> B F --> D E --> G G --> H[Save Image]

配置关键参数

确保以下设置正确无误：

Checkpoint Loader 节点选择：sd3.5_large_fp8.safetensors
CLIP-L 和 CLIP-G 输入分别连接对应的编码器节点
Positive Prompt 区域填写你的描述语句
输出分辨率建议设为 1024×1024（支持非正方形，但正方形效果最佳）

实战测试：看看它能画出什么

我们用几个经典角色来检验模型的真实表现力。

示例 1：《熊出没》中的“熊大”

A large, friendly cartoon bear with a muscular build and a wide, joyful smile, resembling Xiong Da from "Boonie Bears." He is standing in a colorful forest clearing, surrounded by tall pine trees and bright flowers, with a clear blue sky above. The bear is wearing his signature green shorts, and his expression is cheerful and welcoming. Sunlight creates a soft glow over the scene, highlighting the vibrant and fun nature of the character. 3D cartoon style with exaggerated shapes, smooth textures, and vivid colors.

示例 2：皮卡丘（Pikachu）

A cheerful 3D cartoon yellow creature with large pointy ears, red cheeks, and a lightning-shaped tail, resembling Pikachu, standing in a vibrant forest. He has a playful smile and is surrounded by colorful flowers and bright green trees. The sunlight creates a warm, golden glow that highlights the soft texture of his fur. His eyes sparkle with excitement, and tiny electric sparks flicker from his cheeks. Bright, joyful, and full of energy, capturing a playful and adventurous spirit. Cartoon render style with smooth shading and vibrant color palette.

示例 3：白雪公主

A beautiful young girl with fair skin, black hair, and rosy cheeks, resembling Snow White, standing in a lush forest clearing. She is wearing a classic blue and yellow dress with a red bow in her hair, holding a delicate red apple in one hand. Sunlight filters through the tall trees, creating a magical dappled light effect. The atmosphere is warm and enchanting, capturing the innocence and charm of a fairytale setting. Rendered in 3D cartoon style with smooth textures, vivid colors, and dreamy lighting.

点击 Queue Prompt，等待约 10 秒即可查看结果！

常见问题排查表（附解决方案）

问题现象	可能原因	解决办法
`CUDA out of memory`	显存不足	启用 `--lowvram` 参数或降分辨率至 768×768
生成图像无文字或乱码	缺少 T5XXL 模型	检查 `t5xxl_fp8_e4m3fn.safetensors` 是否已放入 `/models/clip/`
图像与提示词无关	CLIP 编码器未加载	确认 CLIP-G 和 CLIP-L 节点已正确连接
出图模糊、噪点多	步数太少或采样器不合适	使用 Euler a 或 DPM++ 2M SDE，步数设为 30~50
启动失败报 Python 错误	缺失依赖库	使用整合包或重装 PyTorch + xformers

🔧 补充建议：
- 若使用笔记本 GPU，记得插电运行，防止功耗限制影响性能
- 首次加载较慢属正常现象，后续缓存命中后速度显著提升
- 可在启动脚本中添加 --use-pip 参数强制更新依赖

结语：让高性能 AI 创作触手可及

stable-diffusion-3.5-fp8 的发布，不只是一个模型版本迭代，更是生成式 AI 向“普惠化”迈出的重要一步。它证明了：我们不必牺牲质量去换取速度，也不必依赖顶级硬件才能享受前沿技术。

对于设计师、独立开发者、内容创作者来说，现在正是将本地 AI 绘画系统纳入工作流的最佳时机。掌握 ComfyUI 节点编排、模型管理、提示词工程这些技能，不仅能提升创作效率，也为未来接入更多定制化功能（如 LoRA 微调、ControlNet 控制）打下坚实基础。

别再停留在“试试看”的阶段——动手部署属于你自己的 SD3.5-FP8 系统，真正把 AI 变成生产力工具。

📌 关注我，后续将带来《SD3.5 Turbo 性能实测对比》《如何训练专属 LoRA 模型》《ComfyUI 高级工作流设计》等深度技术文章！