PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

优质文章学习记录

10 Apr 2026 — 2 min read

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

0. 前言
1. 基于扩散模型的文本生成图像
2. 将文本输入编码为嵌入向量
3. 条件 UNet 模型中的文本数据融合机制
4. 使用 Stable Diffusion 模型生成图像
相关链接

0. 前言

在本节中，我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程，实现从"纯噪声+文本"生成图像，而不仅是从纯噪声生成。

1. 基于扩散模型的文本生成图像

在扩散模型的 UNet 模型训练流程中，我们仅训练模型从含噪图像中预测噪声。为实现文生图功能，需使用以下架构，将文本作为额外输入注入 UNet 模型：

条件UNet

这样的 UNet 模型称为条件 UNet 模型，或者更精确地说，是文本条件 UNet 模型，因为该模型会根据输入文本来生成图像。为了训练此类模型，首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后，我们需要对 UNet 模型稍作修改，以适配嵌入文本形式的额外输入数据(除了图像之外)。接下来，首先介绍文本编码。

2. 将文本输入编码

Read more

从零搭建可落地 Agent：一文吃透 AI 智能体开发全流程

从零搭建可落地 Agent：一文吃透 AI 智能体开发全流程

🎁个人主页：我滴老baby 🎉欢迎大家点赞👍评论📝收藏⭐文章 🔍系列专栏：AI 文章目录： * 【前言】 * 一、先搞懂：2026年爆火的AI Agent，到底是什么？ * 1.1 Agent的核心定义 * 1.2 Agent的4大核心能力 * 1.3 2026年Agent的3个热门落地场景 * 二、框架选型：2026年6大主流Agent框架，新手该怎么选？ * 三、实战环节：从0到1搭建可落地的“邮件处理Agent”（全程代码+步骤） * 3.1 实战准备：环境搭建（10分钟搞定） * 3.1.1 安装Python环境 * 3.1.2 创建虚拟环境（避免依赖冲突） * 3.1.

【Coze-AI智能体平台】低门槛玩转Coze工作流！基础创建+五大核心节点+新闻扩展实战，新手直接抄作业

【Coze-AI智能体平台】低门槛玩转Coze工作流！基础创建+五大核心节点+新闻扩展实战，新手直接抄作业

🔥小龙报：个人主页 🎬作者简介：C++研发，嵌入式，机器人方向学习者 ❄️个人专栏：《coze智能体开发平台》 ✨ 永远相信美好的事情即将发生文章目录 * 前言 * 一、创建工作流 * 1.1 操作路径：从登录到进入创建界面 * 1.2 配置规范：名称与描述的设置规则 * 1.2.1 工作流名称要求： * 1.2.2 工作流描述 * 1.3 初始界面：默认节点与编辑区域 * 1.3.1 默认节点 * 1.3.2 编辑区域 * 二、节点系统详解 * 2.1 基础节点 * 2.1.1

Qwen3-ForcedAligner-0.6B快速上手：Chrome/Firefox/Edge浏览器兼容性验证

Qwen3-ForcedAligner-0.6B快速上手：Chrome/Firefox/Edge浏览器兼容性验证 1. 快速了解Qwen3-ForcedAligner-0.6B Qwen3-ForcedAligner-0.6B是阿里巴巴通义实验室推出的音文强制对齐模型，基于0.6B参数的Qwen2.5架构构建。这个模型的核心功能不是语音识别，而是将已知的参考文本与音频波形进行精确匹配，输出每个词语的精确时间戳。核心特点： * 精确对齐：能将文本中的每个字词与音频中的对应时间段精确匹配，精度达到±0.02秒 * 离线运行：模型权重预置在本地，无需连接外网即可工作 * 隐私安全：所有音频数据处理都在本地完成，数据不出域 * 多语言支持：支持中文、英文、日文、韩文、粤语等52种语言 2. 浏览器兼容性全面测试为了确保用户在不同浏览器上都能顺畅使用Qwen3-ForcedAligner，我们进行了详细的兼容性测试。 2.1 测试环境配置测试使用的硬件配置： * CPU：8核处理器 * 内存：16GB * GPU：NVIDIA RTX 4090（

【AIGC面试面经第七期】旋转位置编码RoPE：从 2D 到 nD 的完美扩展之旅

【AIGC面试面经第七期】旋转位置编码RoPE：从 2D 到 nD 的完美扩展之旅

AIGC面试面经项目： https://github.com/WeThinkIn/AIGC-Interview-Book * 1. 正余弦位置编码也有外推、相对距离表达、远程衰减，为什么大模型都用RoPE？ * 2. RoPE的base有什么作用、在控制什么？ * 3. RoPE为何能从2维扩展到n维？ * 4. Qwen中RoPE有GPT-J和GPT-NeoX两种实现，和理论不同，二者等价吗？ * 5. 长度外推中传统位置编码的OOD问题是什么？ * 6. 长度外推中RoPE的OOD问题是什么？ * 7. RoPE是绝对位置编码，训练过程中到底在训练什么？ * 8. 如何免训练外推RoPE？少量长文本训练如何强化外推？ * 9. 从几何+傅里叶角度，n维RoPE整体在做什么、代表什么？ * 10. RoPE高低频旋转圈数差异，和训练过程如何联系？ 1. 正余弦位置编码也有外推、相对距离表达、远程衰减，为什么大模型都用RoPE？原生sinusoidal正余弦位置编码公式为： { P E p o s , 2