PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

优质文章学习记录

07 Apr 2026 — 2 min read

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

0. 前言
1. 基于扩散模型的文本生成图像
2. 将文本输入编码为嵌入向量
3. 条件 UNet 模型中的文本数据融合机制
4. 使用 Stable Diffusion 模型生成图像
相关链接

0. 前言

在本节中，我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程，实现从"纯噪声+文本"生成图像，而不仅是从纯噪声生成。

1. 基于扩散模型的文本生成图像

在扩散模型的 UNet 模型训练流程中，我们仅训练模型从含噪图像中预测噪声。为实现文生图功能，需使用以下架构，将文本作为额外输入注入 UNet 模型：

条件UNet

这样的 UNet 模型称为条件 UNet 模型，或者更精确地说，是文本条件 UNet 模型，因为该模型会根据输入文本来生成图像。为了训练此类模型，首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后，我们需要对 UNet 模型稍作修改，以适配嵌入文本形式的额外输入数据(除了图像之外)。接下来，首先介绍文本编码。

2. 将文本输入编码

Read more

Ubuntu搭建PX4无人机仿真环境(5) —— 仿真环境搭建(以Ubuntu 22.04,ROS2 Humble,Micro XRCE-DDS Agent为例)

Ubuntu搭建PX4无人机仿真环境(5) —— 仿真环境搭建(以Ubuntu 22.04,ROS2 Humble,Micro XRCE-DDS Agent为例)

目录 * 前言 * 1. 准备 * 1.1 下载 PX4 源码 * 方式一： * 方式二： * 1.2 安装仿真依赖 * 1.3 安装 Gazebo * 2. 安装 Micro XRCE-DDS Agent * 3. 编译 PX4 * 4. 通信测试 * 5. 官方 offboard 程序 * 6. offboard 测试 * 参考前言本教程基于 ROS2 ，在搭建之前，需要把 ROS2、QGC 等基础环境安装配置完成。但是这块的资料相比较于 ROS1 下的少很多，不利于快速上手和后期开发，小白慎选！小白必看：

FPGA小白学习日志一：LED的点亮

1.工程准备首先建立一个名为led的工程文件夹，文件夹下包含了doc、quartus_prj、rtl、sim四个子文件夹：那么我们来分析各个文件夹包含了什么： doc：该文件夹主要包含了文档资料、数据手册、Visio波形等，相当于档案库； quartus_prj：该文件夹主要包括了使用Quartus II软件新建的工程，相当于操作台； rtl：该文件夹主要放置生成硬件电路的代码，相当于原材料； Sim：该文件夹放置对生成硬件电路代码的仿真文件，相当于质检室；这四个文件夹各自完成不同的分工，但是它们之间有什么联系呢？答案是：他们之间通过路径关联和文件引用，形成一个完美的FPGA开发闭环。quartus_prj作为工程中枢，向上访问doc读取说明，向下访问rtl获取硬件代码，向外访问sim获取仿真脚本；sim向上访问rtl在逻辑上验证硬件代码的正确性。 2.设计过程无论我们使用FPGA做什么类型的项目时，我们都要参照一个具体的流程，这里就介绍我自己的开发流程： 1.看手册和原理图，搞清楚我们需要实现什么功能，就像做饭时我们需要看食谱，要知道自己吃什么。

我是搞量化AI的，但我为什么劝你一定要关掉“自动交易机器人”？

我是搞量化AI的，但我为什么劝你一定要关掉“自动交易机器人”？

作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：很多市面上充斥着“睡后收入”、“AI自动炒股”的广告，听着很诱人吧？但作为一个在量化圈摸爬滚打多年的人，我要告诉你一个反常识的真相：这些机器人不仅不能帮你赚钱，反而是你亏损的罪魁祸首。今天不聊代码，聊聊为什么在AI时代，你的人脑依然不可替代。最近朋友圈全是卖“AI炒股机器人”的广告：号称年化100%，解放双手，让你躺着把钱赚了。看得我尴尬症都犯了。作为一个靠写代码和算法吃饭的人，我今天必须说句得罪同行的话：对于99%的普通投资者来说，全自动交易机器人（Trading Bots）就是一条通往破产的高速公路。这就好比你还没学会开车，就买了一辆号称能“全自动驾驶”但实际上连红绿灯都分不清的汽车，然后就在高速上睡着了。真正的交易不是代码的堆砌，而是对市场的洞察 01 机器人的死穴：它看不懂“空气” 你有没有过这种经历：走进一个房间，大家虽然没说话，但你立刻感觉到气氛不对：可能刚吵完架，可能有人在哭。这就是“

最完整WhisperLiveKit指南：从安装到生产部署的AI语音识别全流程

最完整WhisperLiveKit指南：从安装到生产部署的AI语音识别全流程【免费下载链接】WhisperLiveKitReal-time, Fully Local Speech-to-Text and Speaker Diarization. FastAPI Server & Web Interface 项目地址: https://gitcode.com/GitHub_Trending/wh/WhisperLiveKit 你是否还在为实时语音转文字的延迟问题困扰？是否需要一个完全本地化部署的解决方案来保护数据隐私？WhisperLiveKit作为GitHub热门的开源项目，将彻底改变你处理实时语音识别的方式。本文将带你从安装到生产部署，掌握这一强大工具的全流程应用。读完本文，你将能够： * 快速搭建本地语音识别服务 * 根据硬件条件选择最优模型配置 * 实现多语言实时转录与说话人分离 * 部署生产级别的Web应用与Chrome扩展 * 通过Docker容器化实现跨平台部署为什么选择WhisperLiveKit？传统的Whisper模型设计用于处理完整语