Stable Diffusion详解

Stable Diffusion详解

Stable Diffusion详解

一、Stable Diffusion 简介

Stable Diffusion(简称 SD)是由 Stability AICompVisRunway 团队合作开发的一种潜在扩散模型。它于 2022 年 8 月正式开源,具有出图快、扩展性强、数据安全等特点。

二、Stable Diffusion 的核心概念

1. 扩散模型(Diffusion Model)

扩散模型是一种生成式模型,其核心思想是:

  • 正向过程:对图像逐步添加高斯噪声,直到图像完全变为噪声。
  • 反向过程:从噪声中逐步恢复出原始图像。

2. 潜在扩散模型(Latent Diffusion Model)

为了解决扩散模型在像素空间中计算量大的问题,潜在扩散模型先将图像压缩到潜空间,再进行扩散过程,大大减少了计算量和内存需求。

3. Stable Diffusion WebUI

提供了一个图形化界面,用户无需编写代码即可操作模型生成图像。

在这里插入图片描述

三、Stable Diffusion 的特点

1. 可拓展性强

  • 开源模型与代码,支持自定义学习与创作。
  • 集成超过 110 种插件,支持局部重绘、姿势控制、高清修复等功能。

2. 出图速度快

  • 本地部署,依赖本地显卡算力,无需排队。
  • 支持 3 秒/张 的高效出图。

3. 数据安全

  • 所有图像生成过程在本地完成,避免数据上传到云端,保护用户隐私。

四、Stable Diffusion 的工作原理

在这里插入图片描述

1. 扩散过程

  • 加噪:逐步向图像添加噪声,模拟“墨汁扩散”过程。
  • 去噪:逐步从噪声中恢复图像,即逆向降噪。
在这里插入图片描述

2. 潜空间运算

Stable Diffusion 在潜空间中进行扩散过程,显著降低了计算复杂度。

在这里插入图片描述

3. 整体运行流程

在这里插入图片描述

4. Diffusion模型的原理

在这里插入图片描述

五、Stable Diffusion 的架构

Stable Diffusion 由三个核心组件构成:

在这里插入图片描述

1. CLIP Text Encoder

  • 将文本提示词转换为 768 维向量
  • 使用对比学习训练,理解文本与图像的关系。
  • ClipText ⽂本编码器:首先训练一个处理图像的 CNN 和一个处理文本的Transformer 模型,来预测图像的caption。对比学习阶段:给定一个 Batch 的 N 个 (图片,文本) 对,图片输入给 Image Encoder 得到表征 I1,I2,…,In,文本输入给 Text Encoder 得到表征 T1,T2,…,Tn,其中 (Ij,Tj)属于是正样本,(Ij,Tk)属于负样本。最大化 N 个正样本的Cosine 相似度,最小化N^2−N个负样本的 Cosine 相似度
在这里插入图片描述

Zero-Shot Transfer:这个阶段是使用 CLIP 的预训练好的 Image Encoder 和 Text Encoder 来做Zero-Shot Transfer。比如来一张 ImageNet-1K 验证集的图片,可以使用CLIP 预训练好的模型能完成这个分类的任务。模型的参数是冻结的,在图像生成过程中参数是不会发生变化的。

在这里插入图片描述

2. U-Net + Scheduler(图像信息生成器)

U-Net 原本是用于生物医学图像分割的神经网络模型,因为工作结构像一个 U 型字母,因此被称为 U 型神经网络训练模型。在扩散模型中,U-Net 可以辅助提取并解构训练图像的特征,有了它就能在较少训练样本的情况下获得更加准确多样的数据信息,从而使模型在出图结果上更加精确。

在这里插入图片描述
  • U-Net:提取图像特征,辅助去噪。
  • Scheduler:控制去噪步骤与采样算法。Scheduler 就是用来定义使用哪种算法来运行程序,它可以定义降噪的步骤、是否具备随机性、查找去噪后样本的算法等,因此它又被称为采样算法。

3. VAE 解码器

全称是 Variational Auto Encoder 变分自动编码器。简单来说,它的作用就是将高维数据(像素空间)映射到低维空间(潜空间),从而实现数据的压缩和降维。它由编码器(Encoder)和解码器(Decoder)两部分组成,编码器用于将图像信息降维并传入潜空间中,解码器将潜在数据表示转换回原始图像,而在潜在扩散模型的推理生成过程中我们只需用到 VAE 的解码器部分。

在这里插入图片描述

六、Stable Diffusion 的文生图流程

  1. 生成随机潜空间张量(受随机种子控制)
  2. U-Net 结合文本提示预测噪声
  3. 逐步去噪,重复多次(如 50 步)
  4. VAE 解码器将潜图像转换为最终图像
在这里插入图片描述

七、Stable Diffusion 的应用场景

1. 文生图(Text-to-Image)

将文本描述转换为图像,增强视觉表达能力。

2. 图生图(Image-to-Image)

基于原图与提示词进行二次创作,控制生成结果。

3. 图像修复(Inpainting)

替换或填充图像中指定区域,实现自然修复。

Read more

基于YOLOv10n-SOEP-PST的跟随式助老机器人目标检测与识别系统详解

1. 基于YOLOv10n-SOEP-PST的跟随式助老机器人目标检测与识别系统详解 【CC 4.0 BY-SA版权 版权声明:本文为博主原创文章,遵循版权协议,转载请附上原文出处链接和本声明。 文章标签: 深度学习 同时被 2 个专栏收录 这个损失函数由五个部分组成:边界框坐标损失(前两行)、置信度损失(第三、四行)和分类损失(最后一行)。 λ c o o r d \lambda_{coord} λcoord 和 λ n o o b j \lambda_{noobj} λnoobj 是权重参数,用于平衡不同损失的重要性。 I i j o b j

2026国产智能编程爆发!十家主流低代码+AI编程工具技术突破解析

2026国产智能编程爆发!十家主流低代码+AI编程工具技术突破解析

行业背景 2026年2月,国产智能编程工具与低代码开发迎来规模化落地期。 织信低代码推出首个AI智能体全领域开发平台,涵盖表格智能体、数据智能体、工作流智能体、仪表盘智能体、脚本智能体、网站智能体、API智能体等10个智能体,可覆盖企业信息化所有功能需求。 同时,摩尔线程推出首个基于国产全功能GPU的AI Coding Plan智能编程服务,集成GLM-4.7代码模型与硅基流动推理加速引擎,支持代码生成、调试全流程优化,标志着国产替代在AI编程领域实现关键突破。 政策层面,《新一代人工智能发展规划》《“十四五”数字经济发展规划》明确支持AI编程工具与实体经济融合,上海、广东等地对低代码开发企业给予最高5000万元补贴,推动技术渗透。 机构预测,2030年全球AI编程工具市场规模将突破2000亿元(Polaris数据),中国低代码开发市场年复合增长率达35%(IDC报告),国产智能编程占比有望超30%。本文基于上市公司公告、行业白皮书,梳理10家企业在AI编程平台、低代码框架、国产大模型的核心布局,聚焦技术突破与商业化进展。 一、核心企业深度解析 1、织信Inform

库卡机器人编程工具OrangeEdit 2.0.14.95安装与应用指南

本文还有配套的精品资源,点击获取 简介:库卡(KUKA)机器人编程软件OrangeEdit 2.0.14.95版本是一款为KUKA机器人离线编程设计的直观、高效的编程环境。本指南详细介绍安装过程、主要功能和操作界面,以及如何使用OrangeEdit进行机器人程序的编写、编辑、测试和仿真。OrangeEdit支持标准的KUKA机器人语言KRL,拥有强大的离线编程能力,减少生产现场调试时间,并支持程序的导入导出,便于团队协作。指南还介绍如何通过官方教程和示例程序学习基本编程语法和特定功能,以提升编程技能。 1. OrangeEdit 2.0.14.95版的安装过程 1.1 安装前的准备工作 为了确保安装过程的顺利进行,首先需要进行一些准备工作。在这个阶段,用户需要确认自己的操作系统是否与OrangeEdit 2.0.14.95版本兼容,并了解如何从官方网站或其他可信的下载源获取软件包。 1.1.1 系统兼容性检查 检查你的计算机操作系统是否满足OrangeEdit的最小要求。通常这些信息可以在官方文档或下载页面上找到。确认你的操作系统版本后,就可进入下一步——软件下载。

ESP32无人机远程识别终极指南:ArduRemoteID完全配置教程

ESP32无人机远程识别终极指南:ArduRemoteID完全配置教程 【免费下载链接】ArduRemoteIDRemoteID support using OpenDroneID 项目地址: https://gitcode.com/gh_mirrors/ar/ArduRemoteID 随着全球无人机监管政策的不断加强,FAA合规成为无人机操作者必须面对的重要挑战。ArduRemoteID作为基于ESP32的开源解决方案,为无人机爱好者提供了完整的远程识别功能实现。本文将为您提供从硬件选型到安全配置的全面指南。 无人机远程识别的核心挑战 无人机操作者面临的最大痛点是如何在满足FAA远程识别法规的同时,保持设备的灵活性和安全性。传统解决方案往往价格昂贵且配置复杂,而ArduRemoteID通过ESP32平台提供了经济高效的替代方案。 ESP32闪存工具配置 硬件选型与快速安装 ArduRemoteID支持多种ESP32开发板,包括: 硬件型号芯片类型推荐用途ESP32-S3 Dev BoardESP32-S3开发测试ESP32-C3 Dev BoardESP32-