本地使用ComfyUI运行Stable Diffusion 3.5

优质文章学习记录

06 Apr 2026 — 9 min read

本地使用 ComfyUI 运行 Stable Diffusion 3.5-FP8

你有没有试过用一张消费级显卡，在不到两分钟内生成一张细节拉满的 1024×1024 分辨率图像？现在，这已经不是幻想。随着 Stable Diffusion 3.5-FP8 的发布，开源文生图模型正式迈入“高效推理”时代——不仅画质不输原版，速度更快、显存更省，甚至能在 RTX 3060 上流畅跑起来。

而搭配 ComfyUI 这个高度模块化的前端工具，整个部署过程变得异常轻量且可控。本文将带你从零开始，一步步在本地搭建这套高性能量化系统，并避开国内用户最头疼的网络和路径问题。

硬件要求没你想的那么高

很多人一听到 SD3.5 就下意识觉得“得上专业卡”，其实那是针对未量化的大模型版本。FP8 版本通过 8-bit 浮点精度压缩，大幅降低了计算负载和内存占用。

实测表明：

RTX 3060 12GB：可稳定生成 1024×1024 图像，单张耗时约 90 秒
RTX 4060 Ti / 4070：60 秒左右，支持小批量并发
RTX 4090：最快可在 35 秒内完成推理

💡 显存建议 ≥12GB。若只有 8GB 显卡，可尝试降分辨率至 768×768 并启用 --fp8-storage 参数优化加载策略。

其他配置方面：
- 操作系统：Windows 10/11 或 Linux（本文以 Win11 为例）
- 存储空间：预留至少 15GB（含缓存与临时文件）
- CUDA 支持：需安装最新 NVIDIA 驱动（推荐 550+）

最关键的是，我们不需要手动装 Python、torch 或 xformers —— 一切都可以通过便携包搞定。

下载与部署：绕开 Hugging Face 的国内方案

直接访问 Hugging Face 下载 SD3.5 模型对很多用户来说等于“断续下载 + 超时失败”。好消息是，魔塔社区（ModelScope）已同步上线了完整 FP8 版本镜像，下载速度快、文件完整，是国内用户的首选。

第一步：获取 ComfyUI 便携环境

前往 GitHub 官方 releases 页面下载适用于 NVIDIA 显卡的便携版：

👉 https://github.com/comfyanonymous/ComfyUI/releases/latest/download/ComfyUI_windows_portable_nvidia.7z

解压到任意目录，例如：

D:\AI\ComfyUI_windows_portable

这个包已经内置了 Python 3.10 和所有必要依赖，双击即可运行，完全免安装。

第二步：下载 SD3.5-FP8 核心模型

打开 ModelScope 页面：

👉 https://www.modelscope.cn/models/stabilityai/stable-diffusion-3.5-fp8

点击“模型文件”标签，找到以下五个关键文件并下载：

文件名	类型	推荐存放路径
`sd3.5_fp8_e4m3fn.safetensors`	主模型	`\models\checkpoints\`
`clip_g.safetensors`	文本编码器	`\models\clip\`
`clip_l.safetensors`	同上	`\models\clip\`
`t5xxl_fp8_e4m3fn.safetensors`	T5 编码器（FP8 专用）	`\models\clip\`
`SD3.5-FP8_example_workflow.json`	工作流模板	本地保留备用

🔒 所有 .safetensors 文件均为安全格式，避免恶意代码注入，放心使用。

文件放置说明：

主模型放入：
ComfyUI_windows_portable\ComfyUI\models\checkpoints\
三个 CLIP 模型统一放入：
ComfyUI_windows_portable\ComfyUI\models\clip\

别忘了把 SD3.5-FP8_example_workflow.json 暂存到桌面或项目文件夹，稍后要拖进浏览器加载。

启动服务与加载工作流

进入解压后的根目录，找到并双击运行：

run_nvidia_gpu.bat

首次运行会自动检测环境并安装缺失组件（如 git、pip 包等），可能需要几分钟，请耐心等待。

启动成功后，命令行窗口会输出类似信息：

Starting server To see the GUI go to: http://127.0.0.1:8188

随后浏览器应自动打开页面 http://127.0.0.1:8188，显示一个空白节点画布——这就是 ComfyUI 的主界面。

接下来，将之前保存的 SD3.5-FP8_example_workflow.json 文件直接拖入浏览器窗口，即可一键加载预设工作流。

你会看到一组连接好的节点，包括：

Load Checkpoint
CLIP Text Encode (G/L/T5)
KSampler
VAEDecode
Save Image

但此时还不能直接生成，因为 CLIP 模型还没正确绑定。

关键设置：三段式文本编码必须配对

SD3.5 最大的技术突破之一就是采用了 多模态联合文本编码架构，它不再依赖单一 CLIP 模型，而是融合了三种不同的编码器：

clip_g：来自 OpenCLIP 的 ViT-bigG/14，擅长语义理解
clip_l：ViT-L/14，处理基础文本特征
t5xxl_fp8_e4m3fn：Google T5-XXL 的 FP8 量化版，专为复杂语言结构设计

尤其是最后这个 T5 模型，FP8 版本使用了 e4m3fn 浮点格式，在保持精度的同时极大提升了推理效率。如果你用错了普通 T5 模型，轻则提示词失效，重则报错中断。

因此，必须手动为每个节点指定对应的模型文件：

节点名称	应选模型
CLIP Text Encode (G)	`clip_g.safetensors`
CLIP Text Encode (L)	`clip_l.safetensors`
CLIP Text Encode (T5)	`t5xxl_fp8_e4m3fn.safetensors`

操作方式：点击对应节点 → 在下拉菜单中选择正确的模型文件。选中后，节点左上角会出现绿色勾选标志，表示加载成功。

全部配对完成后，整个流程才算真正就绪。

开始生成你的第一张图

现在可以输入提示词了。

在 Positive Prompt 节点中填写一段描述，比如：

A futuristic city floating above clouds, neon lights, cyberpunk style, 8K ultra-detailed, cinematic lighting

如果需要排除某些元素，可以在 Negative Prompt 中加入：

blurry, low quality, distorted face, extra limbs, watermark

参数	建议值	说明
Steps	30	FP8 模型收敛快，20~40 步足够
Sampler	Euler a	稳定且细节丰富
CFG Scale	7	控制提示词权重，过高易失真
Width / Height	1024 × 1024	最大支持分辨率（取决于显存）
Seed	留空	使用随机种子探索多样性

GPU	单图平均耗时
RTX 3060 12GB	~90 秒
RTX 4060 Ti 16GB	~65 秒
RTX 4090 24GB	~35 秒

为什么你应该选择 SD3.5-FP8？

这不是一次简单的“压缩瘦身”，而是一次面向生产环境的工程优化。FP8 版本在几乎不影响视觉质量的前提下，带来了三大核心优势：

⚡ 推理速度提升近一倍

得益于 NVIDIA Ampere 架构及以上 GPU 对 FP8 Tensor Core 的原生支持，模型在执行注意力层和前馈网络时效率显著提高。

实测数据显示：
- 相比原版 SD3.5 Large，端到端延迟减少 40%~50%
- 在批量生成任务中吞吐量翻倍
- 更适合接入 Web API 或自动化脚本

📉 显存占用降低 30%

模型体积从原始的 ~7GB 压缩至 4.8GB（.safetensors），这对消费级显卡意义重大：

RTX 3060 用户也能跑 1024 分辨率
多任务切换时不轻易触发 OOM
可配合 LoRA 微调实现风格迁移

🎨 完整继承 SD3.5 的顶级能力

FP8 并非牺牲质量换速度。相反，它保留了 SD3.5 的全部核心特性：

出色的文字渲染能力（支持 logo、标语生成）
强大的提示词遵循度（prompt adherence）
能理解空间关系（如“A 在 B 左边”、“C 被 D 包围”）

这意味着你可以用自然语言精确控制画面布局，而不只是模糊地“感觉像”。

🎯 典型应用场景：
- 内容创作者快速出图
- 游戏美术原型设计
- 教学演示中的 AI 绘画实验
- 企业私有化图像生成服务

常见问题排查指南

❗ 启动时报错 “CUDA out of memory”

这是最常见的问题，尤其在低显存设备上。

解决方法：
- 关闭其他占用 GPU 的程序（如游戏、视频播放器）
- 尝试降低分辨率为 768×768 测试是否能运行
- 在 run_nvidia_gpu.bat 同级目录创建 extra_args.txt，添加：
--gpu-only --disable-smart-memory
强制只使用显存，避免 CPU 卸载带来的碎片问题

❗ 提示 “File not found: t5xxl_fp8_e4m3fn.safetensors”

说明 CLIP 模型路径错误。

检查清单：
- 文件是否真的放在 \models\clip\ 目录下？
- 文件名拼写是否完全一致？注意大小写和下划线
- 是否误用了普通 t5xxl 模型而非 FP8 专用版本？

ComfyUI 不会自动搜索子目录，路径必须精准匹配。

❗ 图像模糊、结构混乱或人物畸形

可能是以下原因导致：

提示词太泛：如只写“一个人”而不加细节
步数太少：低于 20 步可能导致未收敛
用了错误的工作流模板：某些通用模板不兼容三段式编码

建议做法：
- 使用官方提供的 SD3.5-FP8_example_workflow.json
- 增加步数至 30~40
- 细化提示词，例如改为：
A woman in red dress standing on a rooftop at sunset, photorealistic, sharp focus, Canon EOS R5

写在最后：轻量部署，旗舰体验

过去我们总以为“高性能 = 高门槛”，但现在，Stable Diffusion 3.5-FP8 + ComfyUI 的组合打破了这一认知。你不需要万元级显卡，也不需要复杂的 Docker 部署，只需一个便携包、几个模型文件，就能在自家电脑上运行当前最先进的开源文生图系统。

更重要的是，这种 FP8 量化思路正在成为趋势。未来我们会看到更多模型支持 ONNX 导出、Diffusers 集成、甚至移动端部署。而你现在掌握的这套流程，正是通往本地 AI 自动化创作的第一步。

下一步你可以尝试：

加载 LoRA 模型微调风格（如动漫、水墨风）
接入 ControlNet 实现姿势控制或边缘引导
使用 Prompt Expressions 插件编写条件逻辑
搭建 FastAPI 接口，让其他程序调用你的生成服务

AI 创作的主动权，从来就不该被云服务垄断。当你能在本地掌控每一帧图像的生成过程时，真正的自由才刚刚开始。

🎨 Happy Generating!

本地使用ComfyUI运行Stable Diffusion 3.5

优质文章学习记录