Stable Diffusion 3.5本地部署与使用指南

优质文章学习记录

07 Apr 2026 — 9 min read

Stable Diffusion 3.5 FP8 本地部署实战指南：高画质与高效能的完美平衡

2024年10月，Stability AI 推出 Stable Diffusion 3.5 FP8 量化版本，标志着文生图模型正式迈入“低比特、高效率”时代。这一新镜像不仅延续了 SD3.5 在图像质量、提示理解与排版能力上的全面提升，更通过前沿的 FP8（Floating Point 8）精度量化技术 实现推理性能的跨越式突破。

对于开发者、设计师和AI爱好者而言，这意味着：你不再需要顶级显卡也能流畅运行高质量生成任务。在几乎不损失画质的前提下，FP8 模型将显存占用降低近50%，推理速度提升30%-40%——真正实现了“用更少资源，做更快更好的图”。

为什么是 FP8？一场从“拼参数”到“拼能效”的转型

过去几年，AIGC 的发展路径似乎总绕不开“更大即更强”——更大的模型、更多的参数、更高的算力消耗。但现实是，绝大多数用户并没有 H100 或多卡服务器，如何让顶级模型跑得动、用得起，成了落地的关键瓶颈。

Stable Diffusion 3.5 FP8 的出现，正是对这个问题的精准回应。它首次将 FP8 精度量化 应用于主干扩散模型，代表了行业从“追求规模”向“追求能效比”的战略转向。

FP8 到底是什么？

FP8 是一种仅使用8位浮点数表示的数据格式，相比传统的 FP16（16位）或 BF16，体积直接减半。虽然理论上会损失一定精度，但在现代 GPU 架构（如 NVIDIA Hopper 及后续 Blackwell）的支持下，FP8 能以极高的计算吞吐完成推理任务，且视觉差异几乎不可察觉。

更重要的是，更低的带宽需求和显存占用 让原本只能在高端设备上运行的模型，现在也能在消费级显卡上稳定输出 1024×1024 高清图像。

特性	表现
推理速度	提升约 30%-40%，尤其在多步采样中优势明显
显存占用	压缩近50%，最低支持 12GB 显存设备
图像质量	官方测试显示细节还原度 >98%，肉眼难辨差异
分辨率支持	完整支持 1024×1024 输出，适合插画、海报、UI设计等专业场景
部署成本	更低资源消耗 = 更高并发 + 更低成本，私有化部署友好

✅ 总结一句话：
SD3.5 FP8 不是妥协，而是优化——它是为真实世界而生的高性能文生图引擎。

准备工作：你的机器达标了吗？

在动手前，请先确认本地环境是否满足基本要求。以下是推荐配置与必备工具清单。

必备软件与工具栈

ComfyUI 一键整合包（NVIDIA版）
图形化节点式操作界面，支持复杂工作流编排，极大简化部署流程。
Hugging Face 账号
用于登录并下载官方授权模型文件（需同意许可协议）。
高速下载工具
- Git LFS（命令行方式）
- IDM（Internet Download Manager）配合代理
- Aria2 多线程下载器
Python 环境（可选）
若选择手动搭建而非使用整合包，则需安装 PyTorch、xformers、safetensors 等依赖库。

部署全流程：三步搞定本地运行

第一步：获取 ComfyUI 启动包

推荐使用社区广泛验证的便携版整合包，省去繁琐依赖安装过程。

# Windows NVIDIA 用户下载链接： https://github.com/comfyanonymous/ComfyUI/releases/download/v0.3.1/ComfyUI_windows_portable_nvidia.zip

解压后双击 run.bat 即可启动，默认浏览器会打开 http://127.0.0.1:8188，进入图形界面。

第二步：下载 SD3.5 FP8 模型文件

前往 Hugging Face 官方仓库获取核心组件：

🔗 https://huggingface.co/stabilityai/stable-diffusion-3.5-fp8

⚠️ 注意事项：
- 需注册并登录 Hugging Face 账户
- 接受模型许可证（Model License）后方可下载
- 强烈建议使用 Git LFS 或 IDM + Google Drive 代理 加速大文件传输

需要下载的核心文件包括：

文件名	类型	功能说明
`sd35_fp8.safetensors`	主模型	FP8量化后的Stable Diffusion 3.5核心权重
`clip_g.safetensors`	CLIP模型	处理长文本描述的关键编码器
`clip_l.safetensors`	CLIP模型	支持基础语义理解
`t5xxl_fp8_e4m3fn.safetensors`	T5 XXL 编码器	FP8量化版，负责深度文本解析

❗ 特别提醒：该版本未内置CLIP/T5模块，必须手动加载这三个独立编码器才能正常工作！

第三步：正确放置模型文件

将下载好的文件放入对应目录结构中，否则 ComfyUI 无法识别。

ComfyUI/ ├── models/ │ ├── checkpoints/ │ │ └── sd35_fp8.safetensors │ ├── clip/ │ │ ├── clip_g.safetensors │ │ └── clip_l.safetensors │ └── text_encoders/ │ └── t5xxl_fp8_e4m3fn.safetensors

📌 目录说明：
- 主模型放在 checkpoints
- 两个 CLIP 模型放在 clip
- T5 编码器必须放在 text_encoders 目录下（这是 SD3.5 的新规范）

✅ 放置完成后重启 ComfyUI，在 Checkpoint Loader 下拉菜单中即可看到 sd35_fp8 模型选项。

如何构建高效工作流？两种实用方法

方法一：导入预设模板（新手推荐）

我们提供一个专为 SD3.5 FP8 优化的标准工作流 JSON 文件，涵盖三编码器联合输入与高分辨率生成设置。

📥 下载地址：

https://example.com/sd35-fp8-comfyui-workflow.json

导入步骤：
1. 打开 ComfyUI 界面
2. 点击左上角 Load → Load from file
3. 选择 .json 文件
4. 自动加载完整节点图

📌 工作流关键节点解析：
- [Checkpoint Loader]：加载 sd35_fp8.safetensors
- [CLIP Text Encode] ×3：分别接入 clip_g, clip_l, t5xxl
- [KSampler]：推荐设置 steps=28, cfg=4.5, sampler=euler, scheduler=normal
- [VAE Decode]：启用内置 VAE 提升色彩还原
- [Save Image]：定义输出路径

这个模板经过多次实测调优，适合大多数创作场景，开箱即用。

方法二：手动搭建简易流程（进阶用户适用）

若你想深入理解 SD3.5 的工作机制，可以尝试手动连接节点：

添加 Checkpoint Loader 节点，选择 sd35_fp8.safetensors
创建三个文本编码器：
- 使用两个 CLIP Text Encode 分别加载 clip_g 和 clip_l
- 使用 T5 XXL Text Encode 加载 t5xxl_fp8_e4m3fn
将三个编码输出合并后接入 KSampler 的 positive 输入端
设置采样参数：
yaml Steps: 24–30 CFG Scale: 4.0 ~ 5.0 Sampler: Euler a / DPM++ 2M Karras Size: 1024×1024（支持任意比例）
连接 VAE 和图像保存节点，点击 Queue Prompt 开始生成

💡 经验建议：
- 对于写实类图像，优先使用 DPM++ 2M Karras
- 对于艺术风格，Euler a 更具创造性
- CFG 控制在 4.0–5.0 区间，过高易导致过饱和或失真

实战演示：看看它到底有多强？

下面通过三个典型 prompt 展示 SD3.5 FP8 的实际表现力。

示例1：中国风少女 · 水墨江南

Prompt: A graceful Chinese girl in traditional hanfu, standing beside a stone bridge over a tranquil river in an ancient water town. Willow trees sway gently in the breeze, and soft mist floats above the water. She holds a delicate paper umbrella, her long black hair flowing in the wind. Ink painting style with subtle brushstrokes, light gray and pink tones, evoking a poetic and serene atmosphere. Negative prompt: low quality, cartoonish, deformed hands, extra limbs, noisy background

🔧 参数设置：
- Steps: 28
- CFG: 4.8
- Size: 1024×768
- Sampler: Euler a

🎨 效果亮点：线条柔美，意境悠远，水墨晕染自然，充分展现东方美学神韵。

示例2：赛博朋克城市夜景

Prompt: A futuristic cyberpunk city at night, illuminated by neon lights in deep purple, electric blue, and hot pink. Hover cars zip between towering skyscrapers covered in holographic ads. Rain falls on reflective wet streets, creating dazzling light reflections. The atmosphere is dense with fog and energy, blending high-tech aesthetics with urban decay. Ultra-detailed, cinematic lighting, 8K resolution feel.

🔧 参数设置：
- Steps: 30
- CFG: 5.0
- Size: 1024×1024
- Scheduler: Karras

🎨 效果亮点：光影层次丰富，建筑结构精准，广告牌文字清晰可辨，充分体现 SD3.5 对复杂提示词的强大解析能力。

示例3：童话风格小红帽

Prompt: A cute little girl wearing a bright red hooded cloak, holding a wicker basket filled with fresh bread and flowers. She walks along a mossy forest path surrounded by giant mushrooms and glowing fireflies. The trees have twisted trunks and kind faces carved into their bark. Soft sunlight filters through the canopy, creating a magical fairytale world. Rendered in 3D cartoon style with smooth shading and vivid colors.

🔧 参数设置：
- Steps: 24
- CFG: 4.5
- Size: 896×1152（竖屏构图）
- Sampler: DPM++ 2M

🎨 效果亮点：角色表情生动，场景充满童趣，色彩饱和而不刺眼，非常适合儿童绘本创作。

常见问题与解决方案

❓ Q1：提示“Not enough memory”怎么办？

尝试降低分辨率至 896×896 或启用 taesd 微缩VAE
关闭 Chrome、游戏等后台应用释放显存
启动时添加 --disable-xformers 排除兼容性冲突

❓ Q2：生成的文字模糊或乱码？

必须同时启用 clip_g + clip_l + t5xxl 三大编码器
在 prompt 中明确指定字体样式，例如：“with clear English letters painted on the signboard”
避免堆叠过长句子，建议分句表达逻辑

❓ Q3：如何进一步提速？

减少 steps 至 20 以内（牺牲少量细节换取速度）
后续若推出 Turbo 模式可尝试
使用 TensorRT 或 ONNX Runtime 加速（需额外转换模型）
多卡环境下可启用并行推理

写在最后：FP8 不只是技术升级，更是生态变革

Stable Diffusion 3.5 FP8 的意义，远不止于一次模型优化。它让我们看到：高性能不再等于高门槛。无论是个人创作者还是中小企业，都能以极低成本获得顶级生成能力。

随着 NVIDIA Blackwell 架构全面支持 FP8 指令集，未来更多模型将拥抱低比特推理。这场由能效驱动的技术浪潮，正在重塑整个 AIGC 生态。

而现在，你已经掌握了在本地部署这套先进系统的完整方法。下一步，就是动手实践，创造出属于你的惊艳作品。

立即行动，把最强的AI绘图引擎装进电脑，开启创造力的新纪元！