【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel（RTX 3090 sm_86）

优质文章学习记录

11 Apr 2026 — 11 min read

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel（RTX 3090 sm_86）

系列：Windows AI 环境 “没有轮子（.whl）就自己造” 从零到一 · 第 N 期
难度：⭐⭐⭐⭐
适用场景：SD WebUI + xformers 0.0.31.post1 + flash-attn 版本冲突修复

适用场景：其他版本的 Flash-Attention 编译实战请见文末引用链接

一、背景与问题描述

彻底解决 Stable Diffusion WebUI 启动报错：AttributeError: ‘MessageFactory’ object has no attribute ‘GetProto

【SD WebUI踩坑】启动报错 Expecting value: line 1 column 1 (char 0) 的终极解决方案

最近给 Stable Diffusion WebUI（AUTOMATIC1111）加了一条启动参数：

--xformers-flash-attention

以开启 Flash-Attention 注意力加速。启动后，日志中出现以下报错：

*** Cannot import xformers ImportError: Requires Flash-Attention version >=2.7.1,<=2.8.0 but got 2.8.3. *** Error loading script: inpaint_anything.py ImportError: Requires Flash-Attention version >=2.7.1,<=2.8.0 but got 2.8.3.

根本原因：xformers 0.0.31.post1 对 flash-attn 有严格的版本上限要求（<=2.8.0），而环境中装的是 flash-attn 2.8.3，触发硬性版本检查导致导入失败，进而引发 inpaint_anything 等依赖 diffusers 的插件连锁崩溃。

解决思路：将 flash-attn 降级到 2.8.0。由于 flash-attn 官方没有 Windows 预编译 wheel，需要从源码本地编译。

快速查找 FlashAttention的预构建轮子（flash_attn wheels）：Windows/Linux 用户快速查找神器

二、环境信息

项目	版本
OS	Windows 11
GPU	RTX 3090（sm_86）
驱动	595.02
Python（venv）	3.11.13
PyTorch	2.7.1+cu126
xformers	0.0.31.post1
CUDA 编译器	13.1（nvcc V13.1.80）
Visual Studio	VS 2022 / VS 18 Insiders（MSVC 14.50.35717）
Windows SDK	10.0.26100.0
SD WebUI 路径	`G:\PythonProjects2\stable-diffusion-webui`

⚠️ 注意：PyTorch 内部 CUDA 版本是 12.6，但编译时需要用 CUDA 13.1，原因见第四节。

三、克隆 flash-attn 2.8.0 源码

Dao-AILab/flash-attention：快速且内存高效的精确注意力

cd G:\PythonProjects2\stable-diffusion-webui git clone https://github.com/Dao-AILab/flash-attention.git --branch v2.8.0 --depth 1

--depth 1 只拉最新一个 commit，节省流量和时间（约 5MB）。

四、为什么不用 CUDA 12.6 编译？

flash-attn 2.8.0 的 setup.py 在检测到 bare_metal_version >= 12.8 时会自动向架构列表追加 sm_100 和 sm_120（Blackwell 架构）：

# setup.py 第 186-189 行 if bare_metal_version >= Version("12.8") and "100" in cuda_archs(): ... if bare_metal_version >= Version("12.8") and "120" in cuda_archs(): ...

当用 CUDA 13.1（>= 12.8）时，这两行会触发；而 CUDA 12.6 的 nvcc 不支持 compute_120，导致：

nvcc fatal: Unsupported gpu architecture 'compute_120'

因此必须使用 CUDA 13.1 编译，同时通过 TORCH_CUDA_ARCH_LIST=8.6 限定只编译 RTX 3090 所需的架构，跳过 sm_100/sm_120 的实际 kernel 编译。

五、编译环境准备

Switch-CUDA 脚本来源详见：

Windows 多版本 CUDA + cuDNN 环境配置完全指南

5.1 切换 CUDA 版本

使用 Switch-CUDA 脚本切换到 CUDA 13.1：

. D:\Program\switch-cuda.ps1 Switch-CUDA 13.1

输出确认：

✅ 已切换到 CUDA 13.1 CUDA : C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1 Cuda compilation tools, release 13.1, V13.1.80

5.2 挂载 subst 虚拟盘（规避长路径）

subst Z: "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1"

5.3 设置编译环境变量

$env:CUDA_HOME = "Z:" $env:CUDA_PATH = "Z:" $env:CUDA_ROOT = "Z:" $env:CudaToolkitDir = "Z:" $env:TORCH_CUDA_ARCH_LIST = "8.6" # 仅编译 RTX 3090 所需架构 $env:FLASH_ATTN_CUDA_ARCHS = "86" # flash-attn 内部架构控制 $env:FLASH_ATTENTION_FORCE_BUILD = "TRUE" # 强制本地编译，跳过预编译 wheel 下载 $env:MAX_JOBS = "8" # 并行编译任务数 $env:NVCC_THREADS = "2" # nvcc 内部线程数 $env:DISTUTILS_USE_SDK = "1" # 强制使用 MSVC SDK $env:NVCC_PREPEND_FLAGS = "-allow-unsupported-compiler" # 绕过 nvcc VS 版本检查

5.4 配置 x64 MSVC 编译器

查找系统中可用的 x64 cl.exe：

Get-ChildItem "C:\Program Files\Microsoft Visual Studio" -Recurse -Filter "cl.exe" -ErrorAction SilentlyContinue | Where-Object {$_.FullName -like "*Hostx64\x64*"} | Select-Object FullName

将最新版本的 x64 cl.exe 加入 PATH 最前面（本例为 VS 18 Insiders 14.50.35717）：

$env:PATH = "C:\Program Files\Microsoft Visual Studio\18\Insiders\VC\Tools\MSVC\14.50.35717\bin\Hostx64\x64;" + $env:PATH

验证：

cl.exe 2>&1 | Select-Object -First 1 # 应输出：Microsoft (R) C/C++ Optimizing Compiler 19.50.xxxxx for x64

5.5 添加 Windows SDK rc.exe

链接阶段需要 rc.exe（Windows 资源编译器），通常不在默认 PATH 中：

$env:PATH = "C:\Program Files (x86)\Windows Kits\10\bin\10.0.26100.0\x64;" + $env:PATH where.exe rc.exe # 确认可找到

5.6 验证关键工具

where.exe nvcc # 应指向 CUDA 13.1 where.exe cl.exe # 应指向 x64 MSVC where.exe rc.exe # 应指向 Windows SDK

六、关键 Patch：绕过 PyTorch CUDA 版本检查

PyTorch 的 cpp_extension.py 会校验 nvcc 版本与 PyTorch 内部 CUDA 版本是否一致。由于 PyTorch 是 cu126 版本，而我们用 CUDA 13.1 的 nvcc 编译，会触发：

RuntimeError: The detected CUDA version (13.1) mismatches the version that was used to compile PyTorch (12.6).

定位问题行：

$file = "G:\PythonProjects2\stable-diffusion-webui\.venv\Lib\site-packages\torch\utils\cpp_extension.py" # 先用 Python 确认实际缩进（repr 显示原始字符） G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe -c " f = open(r'$file', encoding='utf-8') lines = f.readlines() f.close() for i, line in enumerate(lines[474:484], start=475): print(repr(line)) "

确认目标行内容后，用 Python 精确替换（避免 PowerShell 字符串编码问题）：

G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe -c " f = open(r'G:\PythonProjects2\stable-diffusion-webui\.venv\Lib\site-packages\torch\utils\cpp_extension.py', encoding='utf-8') content = f.read() f.close() old = ' raise RuntimeError(CUDA_MISMATCH_MESSAGE.format(cuda_str_version, torch.version.cuda))' new = ' pass # raise RuntimeError(CUDA_MISMATCH_MESSAGE.format(cuda_str_version, torch.version.cuda))' print('found:', old in content) content2 = content.replace(old, new) open(r'G:\PythonProjects2\stable-diffusion-webui\.venv\Lib\site-packages\torch\utils\cpp_extension.py', 'w', encoding='utf-8').write(content2) print('done') "

输出 found: True + done 即成功。

⚠️ 还原说明：编译完成后建议还原此文件，执行 pip install --force-reinstall --no-deps torch==2.7.1+cu126 --index-url https://download.pytorch.org/whl/cu126 即可覆盖还原。

七、执行编译

# 清理上次失败的缓存（如有） Remove-Item -Recurse -Force G:\PythonProjects2\stable-diffusion-webui\flash-attention\build -ErrorAction SilentlyContinue # 进入源码目录 cd G:\PythonProjects2\stable-diffusion-webui\flash-attention # 开始编译 G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe setup.py bdist_wheel ` --dist-dir G:\PythonProjects2\stable-diffusion-webui\wheels

编译过程会大量刷屏（ninja 调用 nvcc 编译各 kernel），属正常现象。RTX 3090 + MAX_JOBS=8 约需 30~60 分钟。

编译成功标志：

adding 'flash_attn-2.8.0.dist-info/RECORD' removing build\bdist.win-amd64\wheel

八、安装 Wheel

# 确认生成的 whl 文件 Get-ChildItem G:\PythonProjects2\stable-diffusion-webui\wheels\flash_attn*.whl # 安装进 SD WebUI venv（--no-deps 避免意外升级 torch） G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\pip.exe install ` G:\PythonProjects2\stable-diffusion-webui\wheels\flash_attn-2.8.0-cp311-cp311-win_amd64.whl ` --force-reinstall --no-deps

预期输出：

Successfully installed flash-attn-2.8.0

九、验证

# 验证 xformers 可正常导入 G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe -c "import xformers; print('xformers OK:', xformers.__version__)" # 输出：xformers OK: 0.0.31.post1

启动 SD WebUI，日志中应出现：

Applying attention optimization: xformers... done.

原来的两处报错全部消失：

✅ Cannot import xformers → 消失
✅ Error loading script: inpaint_anything.py → 消失

Flash-Attention 注意力加速开启成功 ✅

十、踩坑全记录

#	报错	原因	解决
1	`nvcc cannot find a supported version of Microsoft Visual Studio`	在普通 PowerShell 中运行，未初始化 VS 环境	手动将 VS x64 cl.exe 目录加入 PATH
2	`fatal error C1189: You need C++17 to compile PyTorch`	PATH 中的 cl.exe 是旧版 x86（VS 2019 14.16）	将 VS 18 Insiders `14.50.35717\Hostx64\x64` 加到 PATH 最前面
3	`RuntimeError: CUDA version (13.1) mismatches PyTorch (12.6)`	PyTorch cpp_extension.py 的版本硬检查	Python 直接替换文件，将 `raise RuntimeError` 改为 `pass`
4	`nvcc fatal: Unsupported gpu architecture 'compute_120'`	CUDA 12.6 不支持 sm_120；setup.py 在 CUDA≥12.8 时自动追加该架构	改用 CUDA 13.1 编译
5	`LINK: fatal error LNK1158: 无法运行"rc.exe"`	Windows SDK rc.exe 不在 PATH	将 `Windows Kits\10\bin\10.0.26100.0\x64` 加入 PATH
6	`IndentationError: expected an indented block after 'if' statement`	注释掉 `raise RuntimeError` 后 `if` 块变空	用 `pass` 替换（同行注释形式，避免缩进问题）
7	PowerShell `.Replace()` 无法匹配文件内容	文件实际缩进（12空格）与肉眼估计（16空格）不符；PowerShell 字符串有编码问题	先用 Python `repr()` 查看原始内容，再用 Python 执行替换

十一、完整环境变量一览

# ============================== # Flash-Attn 2.8.0 编译环境设置 # 适用：Python 3.11 + PyTorch 2.7.1+cu126 + RTX 3090 # ============================== # 1. 切换 CUDA . D:\Program\switch-cuda.ps1 Switch-CUDA 13.1 # 2. subst 挂载 subst Z: /d # 先卸载旧挂载（如有） subst Z: "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1" # 3. CUDA 环境变量 $env:CUDA_HOME = "Z:" $env:CUDA_PATH = "Z:" $env:CUDA_ROOT = "Z:" $env:CudaToolkitDir = "Z:" # 4. 编译控制 $env:TORCH_CUDA_ARCH_LIST = "8.6" $env:FLASH_ATTN_CUDA_ARCHS = "86" $env:FLASH_ATTENTION_FORCE_BUILD = "TRUE" $env:MAX_JOBS = "8" $env:NVCC_THREADS = "2" $env:DISTUTILS_USE_SDK = "1" $env:NVCC_PREPEND_FLAGS = "-allow-unsupported-compiler" # 5. MSVC x64 工具链 $env:PATH = "C:\Program Files\Microsoft Visual Studio\18\Insiders\VC\Tools\MSVC\14.50.35717\bin\Hostx64\x64;" + $env:PATH # 6. Windows SDK rc.exe $env:PATH = "C:\Program Files (x86)\Windows Kits\10\bin\10.0.26100.0\x64;" + $env:PATH

十二、小结

本文记录了在 Windows 11 + RTX 3090 环境下，为 Stable Diffusion WebUI 专属 venv（Python 3.11 + PyTorch 2.7.1+cu126）从源码编译 flash-attn 2.8.0 的完整过程。

核心要点：

CUDA 版本选择：flash-attn 2.8.0 在 CUDA ≥ 12.8 时会自动加入 sm_100/sm_120，必须用能支持这些架构的 CUDA 13.1 编译，而不是与 PyTorch 版本一致的 CUDA 12.6。
PyTorch 版本检查 patch：用 Python 直接操作文件，将 raise RuntimeError 替换为 pass，是绕过 CUDA 版本不匹配检查最可靠的方式（避免 PowerShell 字符串编码坑）。
rc.exe 问题：Windows 编译 CUDA extension 时，链接阶段依赖 Windows SDK 的 rc.exe，需手动加入 PATH，这是 Linux 编译文档中不会提到的 Windows 专属坑。
--no-deps 安装：安装 wheel 时务必加 --no-deps，防止 flash-attn 的 setup.py 把 torch 升级到最新版本破坏现有环境。

十三、参考资料

【独家资源】Windows 本地部署微软 BitNet b1.58： Flash Attention + CUDA GPU 加速 (sm_86) + AVX2 优化 + 1.58bit 量化

手把手编译 Ollama 源码：启用 CUDA + Flash Attention 双加速（Windows + RTX 3090）

llama-cpp-python 编译 CUDA + Flash Attention 双加速实战完整指南--Windows

Windows 强制编译 Flash Attention 完全指南：绕过 CUDA 版本地狱零、实战验证环境（已测试通过）

【高阶编译】Windows 环境下强制编译 Flash Attention：绕过 CUDA 版本不匹配高阶指南

快速查找 FlashAttention的预构建轮子（flash_attn wheels）：Windows/Linux 用户快速查找神器

Windows 下 Flash Attention “the provided PTX was compiled with an unsupported toolchain” 错误全面解决笔记

Z-Image-Turbo 项目 Windows 下从 CPU-only 到完整 CUDA + Flash Attention 部署教程（2026年1月回忆版）

Flash Attention 2.8.3 在 Windows + RTX 3090 上成功编译与运行复盘笔记（2026年1月版）

【笔记】Windows 下本地编译 Flash-Attention 2.8.3 后对 RTX 3090 (sm_86) Kernel 支持的完整验证

Windows 11 下再次成功本地编译 Flash-Attention 2.8.3 并生成自定义 Wheel（RTX 3090 sm_86 专属版）

Windows 11 下 Z-Image-Turbo 完整部署与 Flash Attention 2.8.3 本地编译复盘

Windows 下成功编译 Flash Attention 2.8.3 （flash-attn /flash_attn）个人复盘记录

Flash Attention 在 Windows 上编译成功复盘笔记

Windows 系统中安装 flash_attn （flash-attn）

本文是 Windows AI 开发环境系列的一部分，更多文章见 ZEEKLOG 主页。

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel（RTX 3090 sm_86）

优质文章学习记录

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel（RTX 3090 sm_86）

一、背景与问题描述

二、环境信息

三、克隆 flash-attn 2.8.0 源码

四、为什么不用 CUDA 12.6 编译？

五、编译环境准备

5.1 切换 CUDA 版本

5.2 挂载 subst 虚拟盘（规避长路径）

5.3 设置编译环境变量

5.4 配置 x64 MSVC 编译器

5.5 添加 Windows SDK rc.exe

5.6 验证关键工具

六、关键 Patch：绕过 PyTorch CUDA 版本检查

七、执行编译

八、安装 Wheel

九、验证

十、踩坑全记录

十一、完整环境变量一览

十二、小结

十三、参考资料

Read more

【SpringAI Alibaba】快速搭建带对话记忆与历史追溯的智能客服聊天机器人

AI调参技巧：贝叶斯优化Optuna

零基础学AI大模型之RunnableLambda

技术拆解：P2P组网如何一键远程AI

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel（RTX 3090 sm_86）

一、背景与问题描述

二、环境信息

三、克隆 flash-attn 2.8.0 源码

四、为什么不用 CUDA 12.6 编译？

五、编译环境准备

5.1 切换 CUDA 版本

5.2 挂载 subst 虚拟盘（规避长路径）

5.3 设置编译环境变量

5.4 配置 x64 MSVC 编译器

5.5 添加 Windows SDK rc.exe

5.6 验证关键工具

六、关键 Patch：绕过 PyTorch CUDA 版本检查

七、执行编译

八、安装 Wheel

九、验证

十、踩坑全记录

十一、完整环境变量一览

十二、小结

十三、参考资料

Read more

【SpringAI Alibaba】快速搭建带对话记忆与历史追溯的 智能客服聊天机器人

AI调参技巧：贝叶斯优化Optuna

零基础学AI大模型之RunnableLambda

技术拆解：P2P组网如何一键远程AI

【SpringAI Alibaba】快速搭建带对话记忆与历史追溯的智能客服聊天机器人