Stable Diffusion 与 Stable Diffusion WebUI
现在网络上有很多人都混淆了 Stable Diffusion 与 Stable Diffusion WebUI 的关系,想要了解它们的关系,首先需要明确各自的定义和功能。
Stable Diffusion 是一个基于深度学习的图像生成模型,它通过学习大量的图像数据,能够根据用户输入的文本描述,生成符合要求的对应图片。该模型采用了潜扩散模型(Latent Diffusion Model)架构,具有稳定性和生成质量高的优点。
而 Stable Diffusion WebUI 则是一个用户界面,它为 Stable Diffusion 模型提供了一个更加简洁易操作的界面。通过这个界面,用户可以方便地调用 Stable Diffusion 模型,并对其各项参数进行调整,以生成符合自己需求的图片。此外,WebUI 还支持多种插件扩展,用户可以根据自己的需求添加相应的插件,以实现更加丰富的功能。
因此,Stable Diffusion 与 WebUI 的关系是相互依存的。Stable Diffusion 提供了图像生成的能力,而 WebUI 则为这些能力提供了一个友好的用户界面,使得用户可以更加方便地使用这些功能。在应用方面,用户可以通过 WebUI 上传自己的文本描述,并得到符合要求的图片。同时,用户还可以通过调整模型的参数和添加插件来优化生成结果,从而满足自己的需求。
Stable Diffusion 整合包
在国内,Stable Diffusion 的大众化推广离不开一些贡献者制作的整合包,例如秋叶 aaaki 制作的版本。这些整合包简化了使用流程,使得更多的人能够接触到并使用这一强大的图像生成工具。整合包通常预配置了环境,降低了安装门槛。
提示词
提示词是 Stable Diffusion 中最重要的概念之一。它是一种文本输入,用于指导模型生成符合特定描述或条件的图像。
在 Stable Diffusion 中,提示词分为正向提示词(Positive Prompt)和负向提示词(Negative Prompt)。正向提示词是用来描述和引导模型生成某些特定内容或特性的文本,例如'A cute little bear with brown fur is playing in the forest'。负向提示词则是用来排除或避免某些内容或特性的文本,例如'Excess arms and fingers'。
原生 Stable Diffusion 只支持英文提示词,用户可以输入风格、背景、人物描述、装饰、动作,甚至性格等等提示词,这些提示词需要使用逗号分隔,输入一整段话也是可以的,AI 会去自动匹配这段话中的关键词。
通过使用正向提示词和负向提示词,用户可以非常精确地控制模型生成图像的内容、风格和质量。例如,他们可以调整图像的色彩、对比度、亮度等,或者控制生成的物体或场景的类型、细节和比例等。
在 Stable Diffusion WebUI 中,用户可以通过输入框输入正向提示词和负向提示词,并选择相应的模型进行生成。同时,UI 还提供了一些默认的参数设置和调整选项,用户可以根据需要进行调整和优化,以获得更好的生成结果。
模型介绍
Stable Diffusion 中的模型类别包括 Checkpoint、LoRA、Textual Inversion 等。
Checkpoint
Checkpoint 模型是指训练好的神经网络模型,它包含了模型的所有权重和参数。用户可以通过加载 Checkpoint 模型,直接使用已经训练好的模型进行图像生成,而无需从头开始训练。这种模型可以节省大量的时间和计算资源,同时也使得模型的使用更加灵活和可定制。
Checkpoint 模型又被称为大模型,它是 Stable Diffusion 模型中最基础和最核心的模型。
LoRA
LoRA 模型是一种轻量级的图像生成模型,需要配合 Checkpoint 模型使用,它相较于传统的 GAN 模型更加轻便和高效。LoRA 模型在 Stable Diffusion 中得到了广泛的应用,它能够以更低的计算资源和更快的生成速度生成高质量的图像。LoRA 模型的优点在于其训练稳定性和生成图像的质量之间取得了很好的平衡。
LoRA 有很多种类型,有场景 LoRA、画风 LoRA、姿势 LoRA、服装 LoRA、汽车 LoRA、人物 LoRA 等,用户根据不同的需求和应用场景,可以针对性地选择适合的 LoRA 模型类型。例如,场景 LoRA 可以用于生成不同场景的图像,如城市、自然、建筑等;画风 LoRA 可以用于生成不同画风的图像,如抽象派、印象派、写实派等;姿势 LoRA 可以用于生成不同姿势的图像,如站立、坐姿、运动等;服装 LoRA 可以用于生成不同风格的服装图像,如古装、现代装、礼服等;汽车 LoRA 可以用于生成不同类型和品牌的汽车图像;人物 LoRA 可以用于生成不同年龄、性别、外貌等的人物图像。
Textual Inversion
Textual Inversion 是一种文本到图像生成的模型,它通过将文本编码为向量表示,并将其与图像编码相结合,生成符合文本描述的图像。与传统的文本到图像生成模型不同,Textual Inversion 更加注重文本和图像之间的语义一致性,生成的图像更加准确地反映了文本的描述。
除此以外,还有很多的模型类别,但我们常用的一般就是这三种。


