Stable Diffusion WebUI本地部署全步骤(含CUDA,cuDNN,Pytorch GPU版安装过程)(Win 11 + RTX5060)

部署SD WebUI前,先安装CUDA+cuDNN+Pytorch

电脑配置:

系统:windows 11

显卡:NVIDIA GeForce RTX 5060 Laptop GPU

内存:24G

下载版本:

CUDA:13.0

cuDNN:9.13.1

Pytorch:12.9

第一步:安装CUDA

步骤一:查看CUDA version

win+R输入cmd,在命令提示符窗口中输入nvidia-smi,查看CUDA Version

我的CUDA version 为13.0,所以我下载的版本为13.0的(也可以向下安装低版本的,我建议下载最新的版本)。
CUDA下载网址:https://developer.nvidia.com/cuda-toolkit-archive

本文以13.0的安装为例。

步骤二:下载CUDA安装包

打开网站后,选择13.0版本,点击箭头指向的位置。

跳转到下图页面

选择对应的选项,我的是win11系统,所以选择的11,如果你是win10系统,则选择10;

Installer Type可以是本地下载exe(local),也可以是exe(network),这里我选择的是exe(network),点击download即可

步骤三:运行安装包

双击运行

点“同意并继续”

选择自定义,然后点击下一步

点击下一步

这里的安装路径,可以放在C盘,也可以放在D盘,可以自定义路径,我是C盘空间不足,所以放到了D盘,路径选择好之后,点击下一步。

继续点击下一步

关闭

CUDA的安装完成

第二步:安装cuDNN

步骤一:下载cuDNN安装包

打开网址https://docs.nvidia.com/deeplearning/cudnn/backend/latest/index.html

点击cuDNN 9.13.1后下载安装包

双击运行安装包

下一步选择自定义,自定义路径选择D:\Program Files\NVIDIA\CUDNN\v9.13,然后下一步

点击关闭

cuDNN的安装完毕

第三步:安装Pytorch

步骤一:打开pytorch官网

打开pytorch官网:https://pytorch.org/get-started/locally/

下载stable版本的 CUDA 12.9
复制这串代码:pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu129

步骤二:全局环境下安装pytorch

注意,这里要在全局环境下安装pytorch,不要在虚拟环境下安装pytorch。

按win+R,输入cmd打开命令提示符,

输入D: ,进入D盘

输入pip3 install torch torchvision --index-url https://download.pytorch.org/whl/cu129

pytorch安装成功

第四步:本地部署Stable Diffusion WebUI

 按win+R,输入cmd打开命令提示符,

输入D: ,进入D盘

输入git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

按下Enter回车

在D盘根目录下就有一个stable-diffusion-webui文件夹

然后在项目中创建一个虚拟python环境:

cd stable-diffusion-webui //进入刚才下载项目 python -m venv .\venv //创建一个虚拟python环境

创建完成以后,我们进入到venv目录中的Scripts文件夹,执行activate:

cd .\venv\Scripts .\activate.bat

执行完成后,Windows命令行会自动清屏(之前执行的所有命令及输出结果清空),首会出现“(venv)”的字样 ,表示我们已经进入了虚拟环境。

开始安装项目的依赖项:

cd ../.. pip install -r requirements_versions.txt

等待安装完成后,运行项目:

.\webui-user.bat

还需要修改一下 webui-user.bat 这个文件, 设置PYTHON路径安装的路径/stable-diffusion-webui\venv\Scripts\python.exe:

set PYTHON=G:\StableDiffusion\stable-diffusion-webui\venv\Scripts\python.exe

后边再启动,直接双击执行webui-user.bat即可,可以发送桌面快捷方式到桌面,后面再启动,可以直接在桌面启动。

Read more

Stable Diffusion与Z-Image-Turbo部署对比:推理速度与显存占用评测

Stable Diffusion与Z-Image-Turbo部署对比:推理速度与显存占用评测 1. 为什么这场对比值得你花5分钟读完 你是不是也遇到过这样的情况: 想用AI画张图,结果等了快两分钟才出第一张预览; 好不容易跑起来,显存直接飙到98%,连浏览器都卡顿; 换了个提示词,画面崩得莫名其妙,文字渲染像乱码…… 这些问题,在Z-Image-Turbo出现之前,几乎是Stable Diffusion用户的日常。但最近,阿里通义实验室开源的Z-Image-Turbo,悄悄改写了“快”和“稳”的定义——它不是简单地提速,而是从模型结构、推理流程、内存调度三个层面重新设计了一套轻量级文生图范式。 这不是又一个“参数调优”的小改进,而是一次面向真实使用场景的工程重构:8步出图、16GB显存跑满、中英文提示词原生支持、Gradio界面开箱即用。我们实测了同一台A100(40GB)服务器上Stable Diffusion XL(SDXL)与Z-Image-Turbo的完整部署表现,重点盯住两个最影响体验的硬指标:端到端推理耗时和峰值显存占用。 下面不讲论文公式,不列训练细节,只给你

llama.cpp加载多模态gguf模型

llama.cpp预编译包还不支持cuda12.6 llama.cpp的编译,也有各种坑 llama.cpp.python的也需要编译 llama.cpp命令行加载多模态模型 llama-mtmd-cli -m Qwen2.5-VL-3B-Instruct-q8_0.gguf --mmproj Qwen2.5-VL-3B-Instruct-mmproj-f16.gguf -p "Describe this image." --image ./car-1.jpg **模型主gguf文件要和mmporj文件从一个库里下载,否则会有兼容问题,建议从ggml的官方库里下载 Multimodal GGUFs官方库 llama.cpp.python加载多模态模型 看官方文档 要使用LlamaChatHandler类,官方已经写好了不少多模态模型的加载类,比如qwen2.5vl的写法: from llama_cpp import Llama

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

文心一言 4.5 开源深度剖析:性能中文双项碾压,开源引擎驱动行业变革,解锁大模型新范式

引言 不知道大家关注到没?文心大模型 ERNIE 4.5 已开源并首发于 GitCode 平台!不同于以往的开源模型,百度这次一口气开源了 10 款模型,覆盖基础、对话、多模态、思考等多个方向,甚至将核心训练框架、分布式策略完全开放。在基准测试中,文心开源即刷榜,性能大幅超越 Qwen3 、 DeepSeek-V3 等模型;下面跟随博主一起从模型架构特性、技术分析、部署难度等来对文心模型全面解析一下! 文章目录 * 引言 * 一、文心大模型 ERNIE 4.5 开源简介 * 1.1 开源模型版本介绍 * 1.2 基准测试表现 * 1.3 全面的工具生态链 * 二、文心大模型 ERNIE 4.5技术分析

GLM-4v-9b实战指南:用llama.cpp GGUF格式在消费级GPU部署多模态模型

GLM-4v-9b实战指南:用llama.cpp GGUF格式在消费级GPU部署多模态模型 1. 为什么你需要关注GLM-4v-9b 你有没有遇到过这样的场景:一张密密麻麻的财务报表截图发到工作群,大家却没人愿意花十分钟手动抄录数据;或者客户发来一张手机拍的电路板照片,问“这个元件型号是什么”,你只能回个尴尬的微笑;又或者团队正在做竞品分析,需要从几十份PDF产品手册里快速提取图表信息——这些不是小问题,而是每天真实消耗工程师、运营、产品经理大量时间的“视觉理解黑洞”。 过去,这类任务要么靠人工硬啃,要么得调用API付费接口,响应慢、成本高、隐私难保障。直到2024年,智谱AI开源了glm-4v-9b——一个真正能在你自己的RTX 4090上跑起来的90亿参数多模态模型。它不只是一张“能看图说话”的新名片,而是把高分辨率图像理解能力,塞进了一张消费级显卡的显存里。 重点来了:它支持原生1120×1120输入,这意味着你不用再把一张A4扫描件缩成模糊小图上传;它对中文表格、小字号OCR、技术类图表的理解,在公开评测中直接超过了GPT-4-turbo和Claude 3 Opus;