Python的AI大模型之runwayml/stable-diffusion-v1-5介绍与使用


🖼️ 1. runwayml/stable-diffusion-v1-5 是干啥的?

它是一个文生图(Text-to-Image)AI 模型,输入一段文字提示 Prompt,就能生成对应风格、内容的图像。

典型用途:

✔ 生成艺术插画
✔ 生成产品设计图
✔ 生成动漫风人物
✔ 生成建筑、工业设计概念图
✔ 做 AI 绘画工具的基础模型
✔ 图像扩散、修图、风格迁移、补图、扩图等功能


🏢 2. 由谁开发?

  • 开发方:Stability AI + RunwayML 合作
  • 发布年份:2022 年底
  • 模型基于:Stable Diffusion 1.x 系列

RunwayML 是一家专注于创作者工具的 AI 公司
Stability AI 则是 Stable Diffusion 系列模型的主要研发者。

runwayml/stable-diffusion-v1-5 是 Stable Diffusion 1.5 的官方托管 checkpoint


🧠 3. 它的功能和特点(非常详细)

✔ 文生图(Text → Image)

输入一句话生成图:

“a cat wearing sunglasses sitting on a cyberpunk motorcycle”

✔ 图生图(Image → Image,img2img)

使用一张图片+Prompt 来生成新的变化图。

✔ 图像修复(Inpainting)

你给一张图+mask,它可以补画被挖空的部分。

✔ 可控扩散(ControlNet 支持)

可以用姿势图、边缘图、深度图约束生成内容。

✔ 可调节分辨率

默认 512×512,可生成 768×768、1024×1024(显存越大越好)。

✔ 模型可 LoRA 微调

支持训练角色、风格、IP 角色形象。


🆚 4. 和其他模型区别?

模型类型功能备注
Helsinki-NLP/opus-mt-zh-en翻译模型中英互翻完全不是绘图模型
runwayml/stable-diffusion-v1-5文生图模型绘画、修图AI 图像生成主力模型
SDXL 1.0更强模型分辨率更高、效果更逼真2023 新一代
SD 1.5经典模型风格更开放、LoRA 多2022–2024 都很流行

你的项目如果是:

  • 翻译文本 → 选 opus-mt
  • 生成图像 → 选 stable-diffusion-v1-5

两者完全不同领域。


🧪 5. stable-diffusion-v1-5 的技术底层(简单理解)

  • 属于 扩散模型(Diffusion Model)
  • 基于 Latent Diffusion(图像先压缩到 latent,再扩散采样)
  • UNet + VAE 架构
  • 使用 2 亿+ 图片训练(LAION-5B 数据集筛选)
  • 需要显卡 ★最低 4GB 显存(CPU 也能跑但很慢)★

🧰 6. 用 Python 调用 stable-diffusion-v1-5(标准示例)

使用 Hugging Face diffusers(最主流方式)

📌 6.1 安装依赖

pip install diffusers transformers accelerate safetensors torch 

⚠ 如果你用 GPU(推荐),你需要正确安装 CUDA 版本 torch:

(Windows 示例)

pip install torch --index-url https://download.pytorch.org/whl/cu121 

📌 6.2 文生图最简代码(Text → Image)

from diffusers import StableDiffusionPipeline import torch # 加载模型 pipe = StableDiffusionPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda")# 如果无GPU则改为 "cpu" prompt ="a cute cat wearing sunglasses, cyberpunk style, high detail"# 推理 image = pipe(prompt).images[0]# 保存 image.save("output.png")

运行后,你会获得 output.png。


📌 6.3 增强版:控制分辨率、步骤数、种子

image = pipe( prompt, num_inference_steps=30,# 步数(越高越细致但越慢) guidance_scale=7.5,# 越大越听 prompt(通常7-10) width=768, height=768, generator=torch.manual_seed(42)# 固定种子,保持一致输出).images[0] image.save("cat2.png")

📌 6.4 图生图(img2img)

from diffusers import StableDiffusionImg2ImgPipeline from PIL import Image pipe = StableDiffusionImg2ImgPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda") init_image = Image.open("input.jpg").convert("RGB") prompt ="cyberpunk style, neon lights" image = pipe(prompt=prompt, image=init_image, strength=0.7).images[0] image.save("output_img2img.png")

📌 6.5 Inpainting(修复图像)

from diffusers import StableDiffusionInpaintPipeline from PIL import Image pipe = StableDiffusionInpaintPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16 ).to("cuda") image = Image.open("image.png") mask = Image.open("mask.png")# 白色表示要补的区域 result = pipe( prompt="a beautiful background with flowers", image=image, mask_image=mask ).images[0] result.save("inpaint.png")

🧩 7. 适用场景总结

场景能力
AI 绘画生成
角色卡风格训练强(LoRA)
产品设计草图生成
二次元插画
写实风格中等(SDXL 更强)
翻译/文本理解❌(不能翻译)
视频生成❌(不是视频模型)

7.1 模型下载本地

如果需要将模型下载到本地可以看我写的另一篇文章。
基于python的huggingface_hub库实现通用下载大模型存放到本地

🏁 总结

runwayml/stable-diffusion-v1-5:

  • ✔ AI 绘画模型(不是翻译模型)
  • ✔ 稳定、经典、最流行的基础模型
  • ✔ 由 Stability AI + RunwayML 联合开发
  • ✔ 支持文生图、图生图、修图、扩图
  • ✔ 可使用 diffusers 库轻松用 Python 调用

Read more

什么是Agentic AI?Agentic AI 与传统 AIGC 有什么区别?

什么是Agentic AI?Agentic AI 与传统 AIGC 有什么区别?

什么是 Agentic AI?Agentic AI 与传统 AIGC 有什么区别? 1. 引言 近年来,人工智能(AI)技术飞速发展,其中以生成式 AI(AIGC,Artificial Intelligence Generated Content)和 Agentic AI(智能代理 AI)最为热门。AIGC 通过深度学习模型生成文本、图像、视频等内容,而 Agentic AI 则更进一步,能够自主感知、决策并执行任务。那么,Agentic AI 究竟是什么?它与传统的 AIGC 有何不同?在本文中,我们将深入探讨 Agentic AI 的概念、技术原理、

【优质开源项目】AIGC开源推荐-全球情报监控平台worldmonitor

【优质开源项目】AIGC开源推荐-全球情报监控平台worldmonitor

1.概述 World Monitor 是一个开源的实时情报/监测仪表盘,聚合多类数据源(新闻、地理/卫星、航运/空中、财经、威胁情报等),提供交互式地理视图、AI 摘要、事件聚合与报警,支持 Web / PWA / Tauri 桌面三种运行方式,并可通过变体(WORLD / TECH / FINANCE)切换功能集。 2. 总体技术架构(分层视角) 客户端层(Browser / PWA / Tauri desktop) * • React + TypeScript + Vite 构建。 * • 地图/可视化:deck.gl(WebGL 3D globe)、MapLibre GL、D3

GLM-OCR效果展示:会议纪要手写笔记→结构化待办事项+时间线

GLM-OCR效果展示:会议纪要手写笔记→结构化待办事项+时间线 重要提示:本文所有展示效果基于真实测试,GLM-OCR模型在处理手写文档方面表现出色,但实际效果可能因书写质量、图片清晰度等因素有所差异。 1. 项目概述与核心价值 GLM-OCR 是一个基于先进多模态架构的智能文档识别模型,专门针对复杂文档理解场景设计。与传统OCR只能简单识别文字不同,GLM-OCR能够理解文档的语义结构,将杂乱的手写内容转化为结构化的信息。 为什么这个能力如此重要? 想象一下这样的场景:会议结束后,你的笔记本上满是潦草的手写笔记——待办事项散落在各处,时间点标记混乱,重要事项被随意标注。传统OCR只能给你一堆杂乱无章的文本,而GLM-OCR却能智能地: * 识别并提取所有待办事项 * 自动整理时间线和截止日期 * 区分不同优先级和责任人 * 生成可直接使用的结构化数据 这种从"杂乱手写"到"清晰结构化"的转换能力,正是GLM-OCR的核心价值所在。 2. 效果展示:真实案例对比 2.1 原始手写会议纪要 我们先来看一个真实的会议纪要手写案例。这是一张典型的会议笔记照片

Nano BananaPro生图使用指南:让AI绘画触手可及

Nano BananaPro生图使用指南:让AI绘画触手可及

最近在折腾AI生图的时候,偶然发现了一个让我眼前一亮的工具——Nano BananaPro。说实话,刚开始我也没抱太大期望,毕竟市面上的AI生图工具已经够多了。但用了几天之后,我发现这玩意儿确实有点东西,特别是配合Gemini使用的时候,那种"所想即所得"的感觉真的很爽。 今天就来聊聊这个工具到底怎么用,以及它能帮我们解决哪些实际问题。 一、Nano BananaPro是什么? 简单来说,Nano BananaPro是Google Gemini推出的一个高级图像生成模式。它不是一个独立的应用,而是集成在Gemini生态中的一个功能增强。你可以把它理解为Gemini的"专业绘图模式"——当你需要生成更复杂、更精细的图像时,就该它上场了。 不过,直接在Gemini里手敲提示词其实挺麻烦的,特别是那些需要精确描述的场景。这时候就需要一些辅助工具了,比如Banana Prompt Quicker这个浏览器扩展。它本质上是一个提示词快速插入工具,内置了大量针对Nano BananaPro优化过的提示词模板,覆盖工作、学习、生活等各种场景。 二、如何使用Nano BananaPro生