Stable Diffusion WebUI本地部署全步骤（含CUDA，cuDNN，Pytorch GPU版安装过程）（Win 11 + RTX5060）

优质文章学习记录

06 Apr 2026 — 5 min read

部署SD WebUI前，先安装CUDA+cuDNN+Pytorch

电脑配置：

系统：windows 11

显卡：NVIDIA GeForce RTX 5060 Laptop GPU

内存：24G

下载版本：

CUDA：13.0

cuDNN：9.13.1

Pytorch：12.9

第一步：安装CUDA

步骤一：查看CUDA version

win+R输入cmd，在命令提示符窗口中输入nvidia-smi，查看CUDA Version

我的CUDA version 为13.0，所以我下载的版本为13.0的（也可以向下安装低版本的，我建议下载最新的版本）。
CUDA下载网址：https://developer.nvidia.com/cuda-toolkit-archive

本文以13.0的安装为例。

步骤二：下载CUDA安装包

打开网站后，选择13.0版本，点击箭头指向的位置。

跳转到下图页面

选择对应的选项，我的是win11系统，所以选择的11，如果你是win10系统，则选择10；

Installer Type可以是本地下载exe(local)，也可以是exe(network)，这里我选择的是exe(network)，点击download即可

步骤三：运行安装包

双击运行

点“同意并继续”

选择自定义，然后点击下一步

点击下一步

这里的安装路径，可以放在C盘，也可以放在D盘，可以自定义路径，我是C盘空间不足，所以放到了D盘，路径选择好之后，点击下一步。

继续点击下一步

关闭

CUDA的安装完成

第二步：安装cuDNN

步骤一：下载cuDNN安装包

打开网址https://docs.nvidia.com/deeplearning/cudnn/backend/latest/index.html

点击cuDNN 9.13.1后下载安装包

双击运行安装包

下一步选择自定义，自定义路径选择D:\Program Files\NVIDIA\CUDNN\v9.13，然后下一步

点击关闭

cuDNN的安装完毕

第三步：安装Pytorch

步骤一：打开pytorch官网

打开pytorch官网：https://pytorch.org/get-started/locally/

下载stable版本的 CUDA 12.9
复制这串代码：pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu129

步骤二：全局环境下安装pytorch

注意，这里要在全局环境下安装pytorch，不要在虚拟环境下安装pytorch。

按win+R，输入cmd打开命令提示符，

输入D: ，进入D盘

输入pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu129

pytorch安装成功

第四步：本地部署Stable Diffusion WebUI

按win+R，输入cmd打开命令提示符，

输入D: ，进入D盘

输入git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

按下Enter回车

在D盘根目录下就有一个stable-diffusion-webui文件夹

然后在项目中创建一个虚拟python环境：

cd stable-diffusion-webui //进入刚才下载项目 python -m venv .\venv //创建一个虚拟python环境

创建完成以后，我们进入到venv目录中的Scripts文件夹，执行activate：

cd .\venv\Scripts .\activate.bat

执行完成后，Windows命令行会自动清屏（之前执行的所有命令及输出结果清空），首会出现“(venv)”的字样，表示我们已经进入了虚拟环境。

开始安装项目的依赖项：

cd ../.. pip install -r requirements_versions.txt

等待安装完成后，运行项目：

.\webui-user.bat

还需要修改一下 webui-user.bat 这个文件, 设置PYTHON路径安装的路径/stable-diffusion-webui\venv\Scripts\python.exe：

set PYTHON=G:\StableDiffusion\stable-diffusion-webui\venv\Scripts\python.exe

后边再启动，直接双击执行webui-user.bat即可，可以发送桌面快捷方式到桌面，后面再启动，可以直接在桌面启动。

Stable Diffusion与Z-Image-Turbo部署对比：推理速度与显存占用评测

Stable Diffusion与Z-Image-Turbo部署对比：推理速度与显存占用评测 1. 为什么这场对比值得你花5分钟读完你是不是也遇到过这样的情况：想用AI画张图，结果等了快两分钟才出第一张预览；好不容易跑起来，显存直接飙到98%，连浏览器都卡顿；换了个提示词，画面崩得莫名其妙，文字渲染像乱码…… 这些问题，在Z-Image-Turbo出现之前，几乎是Stable Diffusion用户的日常。但最近，阿里通义实验室开源的Z-Image-Turbo，悄悄改写了“快”和“稳”的定义——它不是简单地提速，而是从模型结构、推理流程、内存调度三个层面重新设计了一套轻量级文生图范式。这不是又一个“参数调优”的小改进，而是一次面向真实使用场景的工程重构：8步出图、16GB显存跑满、中英文提示词原生支持、Gradio界面开箱即用。我们实测了同一台A100（40GB）服务器上Stable Diffusion XL（SDXL）与Z-Image-Turbo的完整部署表现，重点盯住两个最影响体验的硬指标：端到端推理耗时和峰值显存占用。下面不讲论文公式，不列训练细节，只给你

llama.cpp加载多模态gguf模型

llama.cpp预编译包还不支持cuda12.6 llama.cpp的编译，也有各种坑 llama.cpp.python的也需要编译 llama.cpp命令行加载多模态模型 llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg **模型主gguf文件要和mmporj文件从一个库里下载，否则会有兼容问题，建议从ggml的官方库里下载 Multimodal GGUFs官方库 llama.cpp.python加载多模态模型看官方文档要使用LlamaChatHandler类，官方已经写好了不少多模态模型的加载类，比如qwen2.5vl的写法： from llama_cpp import Llama

文心一言 4.5 开源深度剖析：性能中文双项碾压，开源引擎驱动行业变革，解锁大模型新范式

引言不知道大家关注到没？文心大模型 ERNIE 4.5 已开源并首发于 GitCode 平台！不同于以往的开源模型，百度这次一口气开源了 10 款模型，覆盖基础、对话、多模态、思考等多个方向，甚至将核心训练框架、分布式策略完全开放。在基准测试中，文心开源即刷榜，性能大幅超越 Qwen3 、 DeepSeek-V3 等模型；下面跟随博主一起从模型架构特性、技术分析、部署难度等来对文心模型全面解析一下！文章目录 * 引言 * 一、文心大模型 ERNIE 4.5 开源简介 * 1.1 开源模型版本介绍 * 1.2 基准测试表现 * 1.3 全面的工具生态链 * 二、文心大模型 ERNIE 4.5技术分析

GLM-4v-9b实战指南：用llama.cpp GGUF格式在消费级GPU部署多模态模型

GLM-4v-9b实战指南：用llama.cpp GGUF格式在消费级GPU部署多模态模型 1. 为什么你需要关注GLM-4v-9b 你有没有遇到过这样的场景：一张密密麻麻的财务报表截图发到工作群，大家却没人愿意花十分钟手动抄录数据；或者客户发来一张手机拍的电路板照片，问“这个元件型号是什么”，你只能回个尴尬的微笑；又或者团队正在做竞品分析，需要从几十份PDF产品手册里快速提取图表信息——这些不是小问题，而是每天真实消耗工程师、运营、产品经理大量时间的“视觉理解黑洞”。过去，这类任务要么靠人工硬啃，要么得调用API付费接口，响应慢、成本高、隐私难保障。直到2024年，智谱AI开源了glm-4v-9b——一个真正能在你自己的RTX 4090上跑起来的90亿参数多模态模型。它不只是一张“能看图说话”的新名片，而是把高分辨率图像理解能力，塞进了一张消费级显卡的显存里。重点来了：它支持原生1120×1120输入，这意味着你不用再把一张A4扫描件缩成模糊小图上传；它对中文表格、小字号OCR、技术类图表的理解，在公开评测中直接超过了GPT-4-turbo和Claude 3 Opus；