【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel(RTX 3090 sm_86)

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel(RTX 3090 sm_86)

【实战】Windows 下为 Stable Diffusion WebUI 编译 Flash-Attention 2.8.0 专属 Wheel(RTX 3090 sm_86)

系列:Windows AI 环境 “没有轮子(.whl)就自己造” 从零到一 · 第 N 期
难度:⭐⭐⭐⭐
适用场景:SD WebUI + xformers 0.0.31.post1 + flash-attn 版本冲突修复

适用场景:其他版本的 Flash-Attention 编译实战请见文末引用链接

一、背景与问题描述

彻底解决 Stable Diffusion WebUI 启动报错:AttributeError: ‘MessageFactory’ object has no attribute ‘GetProto
【SD WebUI踩坑】启动报错 Expecting value: line 1 column 1 (char 0) 的终极解决方案

最近给 Stable Diffusion WebUI(AUTOMATIC1111)加了一条启动参数:

--xformers-flash-attention

以开启 Flash-Attention 注意力加速。启动后,日志中出现以下报错:

*** Cannot import xformers ImportError: Requires Flash-Attention version >=2.7.1,<=2.8.0 but got 2.8.3. *** Error loading script: inpaint_anything.py ImportError: Requires Flash-Attention version >=2.7.1,<=2.8.0 but got 2.8.3. 

根本原因xformers 0.0.31.post1 对 flash-attn 有严格的版本上限要求(<=2.8.0),而环境中装的是 flash-attn 2.8.3,触发硬性版本检查导致导入失败,进而引发 inpaint_anything 等依赖 diffusers 的插件连锁崩溃。

解决思路:将 flash-attn 降级到 2.8.0。由于 flash-attn 官方没有 Windows 预编译 wheel,需要从源码本地编译。

快速查找 FlashAttention的预构建轮子(flash_attn wheels):Windows/Linux 用户快速查找神器

二、环境信息

项目版本
OSWindows 11
GPURTX 3090(sm_86)
驱动595.02
Python(venv)3.11.13
PyTorch2.7.1+cu126
xformers0.0.31.post1
CUDA 编译器13.1(nvcc V13.1.80)
Visual StudioVS 2022 / VS 18 Insiders(MSVC 14.50.35717)
Windows SDK10.0.26100.0
SD WebUI 路径G:\PythonProjects2\stable-diffusion-webui
⚠️ 注意:PyTorch 内部 CUDA 版本是 12.6,但编译时需要用 CUDA 13.1,原因见第四节。

三、克隆 flash-attn 2.8.0 源码

Dao-AILab/flash-attention:快速且内存高效的精确注意力
cd G:\PythonProjects2\stable-diffusion-webui git clone https://github.com/Dao-AILab/flash-attention.git --branch v2.8.0 --depth 1 

--depth 1 只拉最新一个 commit,节省流量和时间(约 5MB)。


四、为什么不用 CUDA 12.6 编译?

flash-attn 2.8.0 的 setup.py 在检测到 bare_metal_version >= 12.8 时会自动向架构列表追加 sm_100sm_120(Blackwell 架构):

# setup.py 第 186-189 行 if bare_metal_version >= Version("12.8") and "100" in cuda_archs(): ... if bare_metal_version >= Version("12.8") and "120" in cuda_archs(): ... 

当用 CUDA 13.1(>= 12.8)时,这两行会触发;而 CUDA 12.6 的 nvcc 不支持 compute_120,导致:

nvcc fatal: Unsupported gpu architecture 'compute_120' 

因此必须使用 CUDA 13.1 编译,同时通过 TORCH_CUDA_ARCH_LIST=8.6 限定只编译 RTX 3090 所需的架构,跳过 sm_100/sm_120 的实际 kernel 编译。


五、编译环境准备

Switch-CUDA 脚本来源详见:

Windows 多版本 CUDA + cuDNN 环境配置完全指南

5.1 切换 CUDA 版本

使用 Switch-CUDA 脚本切换到 CUDA 13.1:

. D:\Program\switch-cuda.ps1 Switch-CUDA 13.1 

输出确认:

✅ 已切换到 CUDA 13.1 CUDA : C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1 Cuda compilation tools, release 13.1, V13.1.80 

5.2 挂载 subst 虚拟盘(规避长路径)

subst Z: "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1" 

5.3 设置编译环境变量

$env:CUDA_HOME = "Z:" $env:CUDA_PATH = "Z:" $env:CUDA_ROOT = "Z:" $env:CudaToolkitDir = "Z:" $env:TORCH_CUDA_ARCH_LIST = "8.6" # 仅编译 RTX 3090 所需架构 $env:FLASH_ATTN_CUDA_ARCHS = "86" # flash-attn 内部架构控制 $env:FLASH_ATTENTION_FORCE_BUILD = "TRUE" # 强制本地编译,跳过预编译 wheel 下载 $env:MAX_JOBS = "8" # 并行编译任务数 $env:NVCC_THREADS = "2" # nvcc 内部线程数 $env:DISTUTILS_USE_SDK = "1" # 强制使用 MSVC SDK $env:NVCC_PREPEND_FLAGS = "-allow-unsupported-compiler" # 绕过 nvcc VS 版本检查 

5.4 配置 x64 MSVC 编译器

查找系统中可用的 x64 cl.exe:

Get-ChildItem "C:\Program Files\Microsoft Visual Studio" -Recurse -Filter "cl.exe" -ErrorAction SilentlyContinue | Where-Object {$_.FullName -like "*Hostx64\x64*"} | Select-Object FullName 

将最新版本的 x64 cl.exe 加入 PATH 最前面(本例为 VS 18 Insiders 14.50.35717):

$env:PATH = "C:\Program Files\Microsoft Visual Studio\18\Insiders\VC\Tools\MSVC\14.50.35717\bin\Hostx64\x64;" + $env:PATH 

验证:

cl.exe 2>&1 | Select-Object -First 1 # 应输出:Microsoft (R) C/C++ Optimizing Compiler 19.50.xxxxx for x64 

5.5 添加 Windows SDK rc.exe

链接阶段需要 rc.exe(Windows 资源编译器),通常不在默认 PATH 中:

$env:PATH = "C:\Program Files (x86)\Windows Kits\10\bin\10.0.26100.0\x64;" + $env:PATH where.exe rc.exe # 确认可找到 

5.6 验证关键工具

where.exe nvcc # 应指向 CUDA 13.1 where.exe cl.exe # 应指向 x64 MSVC where.exe rc.exe # 应指向 Windows SDK 

六、关键 Patch:绕过 PyTorch CUDA 版本检查

PyTorch 的 cpp_extension.py 会校验 nvcc 版本与 PyTorch 内部 CUDA 版本是否一致。由于 PyTorch 是 cu126 版本,而我们用 CUDA 13.1 的 nvcc 编译,会触发:

RuntimeError: The detected CUDA version (13.1) mismatches the version that was used to compile PyTorch (12.6). 

定位问题行

$file = "G:\PythonProjects2\stable-diffusion-webui\.venv\Lib\site-packages\torch\utils\cpp_extension.py" # 先用 Python 确认实际缩进(repr 显示原始字符) G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe -c " f = open(r'$file', encoding='utf-8') lines = f.readlines() f.close() for i, line in enumerate(lines[474:484], start=475): print(repr(line)) " 

确认目标行内容后,用 Python 精确替换(避免 PowerShell 字符串编码问题):

G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe -c " f = open(r'G:\PythonProjects2\stable-diffusion-webui\.venv\Lib\site-packages\torch\utils\cpp_extension.py', encoding='utf-8') content = f.read() f.close() old = ' raise RuntimeError(CUDA_MISMATCH_MESSAGE.format(cuda_str_version, torch.version.cuda))' new = ' pass # raise RuntimeError(CUDA_MISMATCH_MESSAGE.format(cuda_str_version, torch.version.cuda))' print('found:', old in content) content2 = content.replace(old, new) open(r'G:\PythonProjects2\stable-diffusion-webui\.venv\Lib\site-packages\torch\utils\cpp_extension.py', 'w', encoding='utf-8').write(content2) print('done') " 

输出 found: True + done 即成功。

⚠️ 还原说明:编译完成后建议还原此文件,执行 pip install --force-reinstall --no-deps torch==2.7.1+cu126 --index-url https://download.pytorch.org/whl/cu126 即可覆盖还原。

七、执行编译

# 清理上次失败的缓存(如有) Remove-Item -Recurse -Force G:\PythonProjects2\stable-diffusion-webui\flash-attention\build -ErrorAction SilentlyContinue # 进入源码目录 cd G:\PythonProjects2\stable-diffusion-webui\flash-attention # 开始编译 G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe setup.py bdist_wheel ` --dist-dir G:\PythonProjects2\stable-diffusion-webui\wheels 

编译过程会大量刷屏(ninja 调用 nvcc 编译各 kernel),属正常现象。RTX 3090 + MAX_JOBS=8 约需 30~60 分钟

编译成功标志:

adding 'flash_attn-2.8.0.dist-info/RECORD' removing build\bdist.win-amd64\wheel 

八、安装 Wheel

# 确认生成的 whl 文件 Get-ChildItem G:\PythonProjects2\stable-diffusion-webui\wheels\flash_attn*.whl # 安装进 SD WebUI venv(--no-deps 避免意外升级 torch) G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\pip.exe install ` G:\PythonProjects2\stable-diffusion-webui\wheels\flash_attn-2.8.0-cp311-cp311-win_amd64.whl ` --force-reinstall --no-deps 

预期输出:

Successfully installed flash-attn-2.8.0 

九、验证

# 验证 xformers 可正常导入 G:\PythonProjects2\stable-diffusion-webui\.venv\Scripts\python.exe -c "import xformers; print('xformers OK:', xformers.__version__)" # 输出:xformers OK: 0.0.31.post1 

启动 SD WebUI,日志中应出现:

Applying attention optimization: xformers... done. 

原来的两处报错全部消失:

  • Cannot import xformers → 消失
  • Error loading script: inpaint_anything.py → 消失

Flash-Attention 注意力加速开启成功 ✅


十、踩坑全记录

#报错原因解决
1nvcc cannot find a supported version of Microsoft Visual Studio在普通 PowerShell 中运行,未初始化 VS 环境手动将 VS x64 cl.exe 目录加入 PATH
2fatal error C1189: You need C++17 to compile PyTorchPATH 中的 cl.exe 是旧版 x86(VS 2019 14.16)将 VS 18 Insiders 14.50.35717\Hostx64\x64 加到 PATH 最前面
3RuntimeError: CUDA version (13.1) mismatches PyTorch (12.6)PyTorch cpp_extension.py 的版本硬检查Python 直接替换文件,将 raise RuntimeError 改为 pass
4nvcc fatal: Unsupported gpu architecture 'compute_120'CUDA 12.6 不支持 sm_120;setup.py 在 CUDA≥12.8 时自动追加该架构改用 CUDA 13.1 编译
5LINK: fatal error LNK1158: 无法运行"rc.exe"Windows SDK rc.exe 不在 PATHWindows Kits\10\bin\10.0.26100.0\x64 加入 PATH
6IndentationError: expected an indented block after 'if' statement注释掉 raise RuntimeErrorif 块变空pass 替换(同行注释形式,避免缩进问题)
7PowerShell .Replace() 无法匹配文件内容文件实际缩进(12空格)与肉眼估计(16空格)不符;PowerShell 字符串有编码问题先用 Python repr() 查看原始内容,再用 Python 执行替换

十一、完整环境变量一览

# ============================== # Flash-Attn 2.8.0 编译环境设置 # 适用:Python 3.11 + PyTorch 2.7.1+cu126 + RTX 3090 # ============================== # 1. 切换 CUDA . D:\Program\switch-cuda.ps1 Switch-CUDA 13.1 # 2. subst 挂载 subst Z: /d # 先卸载旧挂载(如有) subst Z: "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v13.1" # 3. CUDA 环境变量 $env:CUDA_HOME = "Z:" $env:CUDA_PATH = "Z:" $env:CUDA_ROOT = "Z:" $env:CudaToolkitDir = "Z:" # 4. 编译控制 $env:TORCH_CUDA_ARCH_LIST = "8.6" $env:FLASH_ATTN_CUDA_ARCHS = "86" $env:FLASH_ATTENTION_FORCE_BUILD = "TRUE" $env:MAX_JOBS = "8" $env:NVCC_THREADS = "2" $env:DISTUTILS_USE_SDK = "1" $env:NVCC_PREPEND_FLAGS = "-allow-unsupported-compiler" # 5. MSVC x64 工具链 $env:PATH = "C:\Program Files\Microsoft Visual Studio\18\Insiders\VC\Tools\MSVC\14.50.35717\bin\Hostx64\x64;" + $env:PATH # 6. Windows SDK rc.exe $env:PATH = "C:\Program Files (x86)\Windows Kits\10\bin\10.0.26100.0\x64;" + $env:PATH 

十二、小结

本文记录了在 Windows 11 + RTX 3090 环境下,为 Stable Diffusion WebUI 专属 venv(Python 3.11 + PyTorch 2.7.1+cu126)从源码编译 flash-attn 2.8.0 的完整过程。

核心要点:

  1. CUDA 版本选择:flash-attn 2.8.0 在 CUDA ≥ 12.8 时会自动加入 sm_100/sm_120,必须用能支持这些架构的 CUDA 13.1 编译,而不是与 PyTorch 版本一致的 CUDA 12.6。
  2. PyTorch 版本检查 patch:用 Python 直接操作文件,将 raise RuntimeError 替换为 pass,是绕过 CUDA 版本不匹配检查最可靠的方式(避免 PowerShell 字符串编码坑)。
  3. rc.exe 问题:Windows 编译 CUDA extension 时,链接阶段依赖 Windows SDK 的 rc.exe,需手动加入 PATH,这是 Linux 编译文档中不会提到的 Windows 专属坑。
  4. --no-deps 安装:安装 wheel 时务必加 --no-deps防止 flash-attn 的 setup.py 把 torch 升级到最新版本破坏现有环境

十三、参考资料

【独家资源】Windows 本地部署微软 BitNet b1.58: Flash Attention + CUDA GPU 加速 (sm_86) + AVX2 优化 + 1.58bit 量化
手把手编译 Ollama 源码:启用 CUDA + Flash Attention 双加速(Windows + RTX 3090)
llama-cpp-python 编译 CUDA + Flash Attention 双加速 实战完整指南--Windows
Windows 强制编译 Flash Attention 完全指南:绕过 CUDA 版本地狱零、实战验证环境(已测试通过)
【高阶编译】Windows 环境下强制编译 Flash Attention:绕过 CUDA 版本不匹配高阶指南
快速查找 FlashAttention的预构建轮子(flash_attn wheels):Windows/Linux 用户快速查找神器
Windows 下 Flash Attention “the provided PTX was compiled with an unsupported toolchain” 错误全面解决笔记
Z-Image-Turbo 项目 Windows 下从 CPU-only 到完整 CUDA + Flash Attention 部署教程(2026年1月回忆版)
Flash Attention 2.8.3 在 Windows + RTX 3090 上成功编译与运行复盘笔记(2026年1月版)
【笔记】Windows 下本地编译 Flash-Attention 2.8.3 后对 RTX 3090 (sm_86) Kernel 支持的完整验证
Windows 11 下再次成功本地编译 Flash-Attention 2.8.3 并生成自定义 Wheel(RTX 3090 sm_86 专属版)
Windows 11 下 Z-Image-Turbo 完整部署与 Flash Attention 2.8.3 本地编译复盘
Windows 下成功编译 Flash Attention 2.8.3 (flash-attn /flash_attn)个人复盘记录
Flash Attention 在 Windows 上编译成功复盘笔记
Windows 系统中安装 flash_attn (flash-attn)

本文是 Windows AI 开发环境系列的一部分,更多文章见 ZEEKLOG 主页

Read more

Llama Factory成本效益分析:企业级微调投入产出比

Llama Factory成本效益分析:企业级微调投入产出比 想用大模型解决自家业务问题,但一听到“微调”两个字,很多技术负责人就头疼。自己搭环境、写代码、调参数,不仅周期长,对团队技术要求高,最后算下来,人力、算力、时间成本可能远超预期,投入产出比(ROI)成了一笔糊涂账。 有没有一种方法,能让企业像搭积木一样,低成本、高效率地定制自己的专属大模型?Llama Factory的出现,正在让这个想法变成现实。它把复杂的模型微调过程,变成了一个可视化的“工厂流水线”。今天,我们就来算一笔账:使用Llama Factory进行企业级模型微调,到底能省多少钱、提多少效?它的真实投入产出比如何? 1. 传统企业微调:一笔昂贵的“技术债” 在深入分析Llama Factory之前,我们得先看看,如果不使用它,企业通常会面临哪些成本和挑战。 1.1 显性成本:看得见的资金消耗

AI绘画R18提示词实战指南:从基础原理到安全实践

快速体验 在开始今天关于 AI绘画R18提示词实战指南:从基础原理到安全实践 的探讨之前,我想先分享一个最近让我觉得很有意思的全栈技术挑战。 我们常说 AI 是未来,但作为开发者,如何将大模型(LLM)真正落地为一个低延迟、可交互的实时系统,而不仅仅是调个 API? 这里有一个非常硬核的动手实验:基于火山引擎豆包大模型,从零搭建一个实时语音通话应用。它不是简单的问答,而是需要你亲手打通 ASR(语音识别)→ LLM(大脑思考)→ TTS(语音合成)的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说,这是个绝佳的练手项目。 从0到1构建生产级别应用,脱离Demo,点击打开 从0打造个人豆包实时通话AI动手实验 AI绘画R18提示词实战指南:从基础原理到安全实践 背景痛点分析 1. 伦理风险与合规挑战 在AI绘画领域,R18内容创作面临着多重挑战。平台审核机制日益严格,违规内容可能导致账号封禁甚至法律风险。同时,不同地区对数字内容的法律界定存在差异,开发者需要特别注意合规边界。

Python 实现 AI 图像生成:调用 Stable Diffusion API 完整教程

Python 实现 AI 图像生成:调用 Stable Diffusion API 完整教程

从零开始学习使用 Python 调用 Stable Diffusion API 生成图像,涵盖本地部署、API 调用、ControlNet、图生图等进阶技巧。 1. 技术架构 Python 客户端 Stable Diffusion API 本地部署 SD WebUI / ComfyUI 云端 API Replicate / Stability AI Stable Diffusion 模型 文生图 txt2img 图生图 img2img 局部重绘 inpainting 超分辨率 upscale 输出图像 后处理管道 存储 本地/OSS 2. 图像生成方式对比 50%25%15%10%

系统开发成本为何居高不下:低代码的工程化降本路径

在企业信息系统建设中,开发成本长期处于高位,往往并非源于单一技术选择,而是由需求不确定性、交付周期拉长、重复性开发以及后期维护复杂化等多重因素共同叠加所致。传统定制开发模式在复杂业务场景下,容易陷入人力密集、协同成本高企和工程可控性不足的问题。 低代码并非通过简化操作来“替代”工程能力,而是尝试以模型驱动、自动化生成与结构化配置为核心,重构系统开发与交付的工程路径。在这一框架下,成本的降低更多体现在重复劳动的压缩、交付链条的收敛以及系统演进过程的可控化,而非单纯的开发速度提升。 理解低代码在工程体系中的作用边界与技术前提,是判断其是否具备真实降本能力的关键。 可视化工作流 流程功能 流程功能清单 流程使用示例 系统界面 流程参数设置 流程示例 流程设计(请假申请) 流程设计(主管审批) 流程设计(完整请假流程) 可视化开发:应用构建技术分析 1.组件化设计:模块化与复用 组件化设计是可视化开发的核心基础,通过将界面元素与业务逻辑拆解为独立可组合单元,实现开发效率、可维护性和系统复用性的提升。在实际应用中,组件化不仅涉及前