Stable Diffusion + kohya_ss 的安装教程

Stable Diffusion + kohya_ss 的安装教程

工具简介

  • Stable Diffusion (SD): 开源的文本到图像生成模型,支持通过提示词生成高质量图像,内置自动标注功能(如BLIP、DeepBooru等)。
  • kohya_ss (KS): 基于SD的轻量级微调工具,支持LoRA、DreamBooth等训练方法,优化显存占用与训练效率。

一.SD的安装

对于SD大家可以通过github链接来下载

https://git-scm.com/ Automatic 1111:https://github.com/AUTOMATIC1111

这里提供的链接,下载的SD是最基础的,如果大家想要让他有其他的扩展功能就需要下载相关的插件(后面会写一个关于下载插件的教程请大家持续关注)。

1.准备 Conda 环境
1.1 创建并激活 Conda 环境
# 创建名为 sd-webui 的环境(Python 3.10 推荐,需匹配仓库要求) conda create -n sd-webui python=3.10 -y # 激活环境 conda activate sd-webui
1.2确认 Python 路径

记录当前 Conda 环境的 Python 路径(后续配置需要)

which python # 示例输出:/home/用户名/miniconda3/envs/sd-webui/bin/python
2. 下载仓库代码
# 克隆仓库 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git cd stable-diffusion-webui #指定下载路径 git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git 你指定的下载路径
3. 配置 webui 以使用 Conda 环境
3.1 编辑配置文件

在 webui-user.sh 中添加 / 修改以下内容(根据实际路径调整):

# 复制默认配置文件(若不存在) cp webui-user.sh webui-user.sh.bak # 备份(可选,不过建议还是备份一下) nano webui-user.sh
3.2 修改关键配置

在 webui-user.sh 中添加 / 修改以下内容(根据实际路径调整):

# 指定 Conda 环境的 Python 路径(替换为步骤 1.2 中获取的路径) python_cmd="/home/用户名/miniconda3/envs/sd-webui/bin/python" # 禁用自动创建虚拟环境(使用 Conda 环境而非 venv) venv_dir="-" # 可选:添加启动参数(如低显存模式) export COMMANDLINE_ARGS="--medvram --opt-split-attention"
3.3 保存并退出

按 Ctrl+O 保存,Ctrl+X 退出编辑器。

4. 安装依赖并启动
4.1 运行安装脚本
./webui.sh

运行完这个命令后该脚本会自动检测 Conda 环境并安装 requirements.txt 和 requirements_versions.txt 中的依赖,针对 PyTorch 适配问题(如 AMD 显卡)会根据 GPU 型号自动设置 TORCH_COMMAND,安装完成后终端将显示访问地址(通常为http://127.0.0.1:7860),用户可通过浏览器直接使用。

下面的图片就是我通过地址访问的SD界面,不过我安装了一些插件,所以你们的可能跟我的长的不一样,但是不会影响使用。

5. 安装好之后的启动步骤
# 每次启动前激活 Conda 环境 conda activate sd-webui # 进入仓库目录并启动 cd stable-diffusion-webui ./webui.sh

这几行代码建议大家写到一个txt文本里面,这样需要用的时候直接复制粘贴进去就可以了。

二.kohya_ss的安装

这个是Kohya_ss的库的下载链接:https://github.com/bmaltais/kohya_ss

方法一:uv 安装
1. 克隆仓库(含子模块)
# 克隆仓库并进入目录 git clone --recursive https://github.com/bmaltais/kohya_ss.git cd kohya_ss
2. 运行安装脚本
# 执行 uv 安装脚本 ./gui-uv.sh
方法二:pip 安装
1. 克隆仓库(含子模块)
git clone --recursive https://github.com/bmaltais/kohya_ss.git cd kohya_ss
2. 安装依赖(可选 Conda 环境)

选项 A:使用系统 Python 或 venv

# 赋予脚本执行权限并运行 setup.sh chmod +x setup.sh ./setup.sh

选项 B:使用 Conda 环境(推荐)

# 创建并激活 Conda 环境(Python 3.11) conda create -n kohyass python=3.11 conda activate kohyass # 运行安装脚本 chmod +x setup.sh ./setup.sh
3. 启动 GUI
# 赋予执行权限并启动 chmod +x gui.sh ./gui.sh

启动后,若看到类似 Running on http://0.0.0.0:7860 的输出,说明安装成功,可通过浏览器访问该地址使用 GUI。

可能出现的问题
1.缺少 python3-tk 依赖包
Skipping git operations. Ubuntu detected. This script needs YOU to install the missing python3-tk packages. Please install with: sudo apt update -y && sudo apt install -y python3-tk

如果出现上面的错误,只需要下载缺失的包就行了,命令如下:

sudo apt update -y && sudo apt install -y python3-tk
2.不支持 socks 协议的代理 URL 
ValueError: Unknown scheme for proxy URL URL('socks://127.0.0.1:7897/')

通过终端配置环境变量

1.确定你的shell是bash还是zsh
在终端执行以下命令,会显示当前 shell 的进程名: echo $SHELL
  • 输出 /bin/bash → 当前默认是 bash
  • 输出 /bin/zsh → 当前默认是 zsh
2.编辑配置文件
bash 用户:nano ~/.bashrc zsh 用户:nano ~/.zshrc
3.添加 HTTP 代理配置
# 设置 HTTP 代理 export http_proxy="http://127.0.0.1:7897" export https_proxy="http://127.0.0.1:7897" 

将最后的“7897”换成你自己的代理地址的端口号,换好之后保存退出就行。

4.生效配置
# bash 用户 source ~/.bashrc # zsh 用户 source ~/.zshrc
5.编辑gui.sh文件
nano gui.sh

在脚本最顶部(第一行 #!/bin/bash 下方)添加这些内容:

#!/bin/bash # 清除可能的残留代理 unset http_proxy https_proxy HTTP_PROXY HTTPS_PROXY all_proxy ALL_PROXY # 强制设置 HTTP 代理(按实际端口修改,比如你的代理 HTTP 端口是 7897 就改这里) export http_proxy="http://127.0.0.1:7890" export https_proxy="http://127.0.0.1:7890" export export # 脚本原本的其他内容(保持不变) ...

保存退出

重新运行gui.sh就可以了

./gui.sh

出现以下内容就表明运行成功了

* Running on local URL: http://127.0.0.1:7860 * To create a public link, set `share=True` in `launch()`. ^CKeyboard interruption in main thread... closing server.

Read more

WebUI集成+零鉴权|MiDaS单目深度估计镜像使用全解析

WebUI集成+零鉴权|MiDaS单目深度估计镜像使用全解析 概述:从2D图像中“看见”3D空间 在计算机视觉领域,单目深度估计(Monocular Depth Estimation, MDE) 是一项极具挑战性但又至关重要的技术。它旨在仅通过一张普通的2D照片,推断出场景中每个像素点到摄像机的相对距离,从而重建出三维空间结构。这项能力对于机器人导航、自动驾驶、增强现实(AR)、虚拟现实(VR)以及智能安防等应用场景具有深远意义。 传统上,获取深度信息依赖于双目摄像头、激光雷达或ToF传感器等硬件设备,成本高且部署复杂。而MDE技术则提供了一种低成本、易部署的替代方案——只需一个普通摄像头,即可实现对环境的“3D感知”。 本文将深入解析一款基于 Intel MiDaS 模型 构建的轻量级、高稳定性、无需Token验证 的AI镜像:AI 单目深度估计 - MiDaS。该镜像不仅集成了WebUI交互界面,还针对CPU环境进行了深度优化,真正实现了“开箱即用”的深度估计体验。

多模态AI平民化|基于Qwen3-VL-WEBUI的零门槛部署方案

多模态AI平民化|基于Qwen3-VL-WEBUI的零门槛部署方案 在人工智能迈向“看得懂、想得清、做得准”的今天,多模态大模型正从实验室走向真实世界。然而,技术越强大,部署门槛往往也越高——复杂的依赖环境、昂贵的GPU资源、漫长的编译流程,让许多开发者望而却步。 而现在,这一切正在被彻底改变。 阿里开源的 Qwen3-VL-WEBUI 镜像,将迄今为止最强大的视觉-语言模型 Qwen3-VL-4B-Instruct 封装成一个可一键启动的Web服务,真正实现了无需代码、无需下载、零配置部署。无论你是前端工程师、产品经理,还是教育工作者和科研人员,只要会打开浏览器,就能调用具备高级视觉理解与推理能力的AI系统。 这不仅是一次技术升级,更是一场多模态AI的普惠革命。 为什么我们需要“开箱即用”的多模态AI? 传统大语言模型(LLM)擅长处理纯文本任务,但在面对现实世界的复杂信息时显得力不从心:用户上传一张带错误提示的截图,客服机器人却无法识别;学生拍下一道几何题,AI只能描述图像内容而不会解题;自动化测试脚本因界面改版而失效…… 这些问题的本质在于:现实世界是多模态的。文

如何快速使用noteDigger:前端音乐扒谱的完整指南

如何快速使用noteDigger:前端音乐扒谱的完整指南 【免费下载链接】noteDigger在线前端频率分析扒谱 front-end music transcription 项目地址: https://gitcode.com/gh_mirrors/no/noteDigger noteDigger是一款专业的前端音乐扒谱工具,专为音乐创作者、制作人和爱好者设计。这个纯前端应用无需安装任何软件,双击即可使用,支持音频导入、频谱分析、音符绘制和MIDI导出等核心功能。无论你是想扒取喜爱的歌曲旋律,还是进行音乐教学和研究,noteDigger都能提供简单高效的解决方案。 🎵 noteDigger的核心功能详解 音频导入与频谱分析 noteDigger支持多种音频格式,包括常见的mp3、wav文件,甚至视频格式如mp4、mov、m4v等。用户可以直接拖拽音频文件到界面,系统会自动进行频谱分析,将音频信号转换为可视化的频谱图。这种直观的可视化方式让你能够清晰看到音乐中的频率分布和音符位置。 智能音符绘制系统 在分析完成的频谱图上,你可以直接绘制MIDI音符。系统支持多种绘制

前端HTML转PDF的两种主流方案深度解析

前端 HTML 转 PDF 的两种主流方案深度解析(2026 年版) 目前前端生成 PDF 最主流的两种方案是: 1. 客户端方案:html2canvas + jsPDF(或其封装库 html2pdf.js) 2. 服务端方案:Puppeteer / Playwright(Node.js 无头浏览器) 这两种方案几乎占据了 90% 以上的实际项目。下面从原理、优缺点、适用场景、核心代码、坑点与优化等维度进行深度对比。 一、核心对比表(快速决策) 维度客户端方案(html2canvas + jsPDF)服务端方案(Puppeteer / Playwright)胜出方实现难度★☆☆☆☆(最简单)★★★☆☆(需后端)客户端生成质量中等(样式丢失常见)极高(接近浏览器打印效果)服务端中文/字体支持较差(