PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

优质文章学习记录

07 Apr 2026 — 2 min read

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

0. 前言
1. 基于扩散模型的文本生成图像
2. 将文本输入编码为嵌入向量
3. 条件 UNet 模型中的文本数据融合机制
4. 使用 Stable Diffusion 模型生成图像
相关链接

0. 前言

在本节中，我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程，实现从"纯噪声+文本"生成图像，而不仅是从纯噪声生成。

1. 基于扩散模型的文本生成图像

在扩散模型的 UNet 模型训练流程中，我们仅训练模型从含噪图像中预测噪声。为实现文生图功能，需使用以下架构，将文本作为额外输入注入 UNet 模型：

条件UNet

这样的 UNet 模型称为条件 UNet 模型，或者更精确地说，是文本条件 UNet 模型，因为该模型会根据输入文本来生成图像。为了训练此类模型，首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后，我们需要对 UNet 模型稍作修改，以适配嵌入文本形式的额外输入数据(除了图像之外)。接下来，首先介绍文本编码。

2. 将文本输入编码

Read more

OpenDroneMap (ODM) 无人机影像三维模型重建安装及使用快速上手

OpenDroneMap (ODM) 无人机影像三维模型重建安装及使用快速上手

1 文档概述本文档是指导用户从零开始，使用 OpenDroneMap 对无人机采集的影像数据进行处理，生成三维点云、数字表面模型（DSM）、正射影像图（Orthomosaic）等成果。本文档的预期读者为拥有无人机航拍影像（JPG/PNG格式）并希望进行三维建模的用户。 2.1 系统运行环境要求 - 操作系统：Windows 10/11, macOS, 或 Linux (推荐 Ubuntu)。 - CPU：多核心处理器（4核以上推荐，8核或更多更佳）（处理200张以上影像建议16GB+）。 - 内存 (RAM)：至少 16GB，处理大面积区域建议 32GB 或以上。 - 硬盘空间：预留充足的存储空间。原始影像、中间文件和最终成果会占用大量空间。建议准备影像大小的10-20倍

2026 AI元年：AI原生重构低代码，开发行业迎来范式革命

2026 AI元年：AI原生重构低代码，开发行业迎来范式革命

前言 2026 年，被全球科技产业正式定义为AI 规模化落地元年。从实验室走向生产线、从对话交互走向系统内核、从锦上添花的功能插件走向底层驱动引擎，AI 不再是概念炒作，而是重构软件研发、企业服务、数字化转型的核心生产力。低代码开发平台，作为过去十年企业数字化落地最轻量化、最普及的工具，在 2026 年迎来最彻底的一次变革：AI 全面注入低代码，从 “可视化拖拽” 迈向 “意图驱动生成”。长期以来，低代码行业始终面临两大争议：一是被技术开发者嘲讽 “只能做玩具系统，无法支撑企业级复杂场景”；二是被业务人员抱怨 “依旧需要懂技术、配规则、调逻辑，门槛依然很高”。而随着大模型技术成熟、国产模型规模化商用、AI 工程化能力落地，这一切正在被改写。 JNPF 作为企业级低代码平台的代表，在 2026 年全面完成 AI 原生架构升级，深度对接 Deepseek、通义千问、

AI工具前端提示词实战：从设计原则到工程化落地

快速体验在开始今天关于 AI工具前端提示词实战：从设计原则到工程化落地的探讨之前，我想先分享一个最近让我觉得很有意思的全栈技术挑战。我们常说 AI 是未来，但作为开发者，如何将大模型（LLM）真正落地为一个低延迟、可交互的实时系统，而不仅仅是调个 API？这里有一个非常硬核的动手实验：基于火山引擎豆包大模型，从零搭建一个实时语音通话应用。它不是简单的问答，而是需要你亲手打通 ASR（语音识别）→ LLM（大脑思考）→ TTS（语音合成）的完整 WebSocket 链路。对于想要掌握 AI 原生应用架构的同学来说，这是个绝佳的练手项目。从0到1构建生产级别应用，脱离Demo，点击打开从0打造个人豆包实时通话AI动手实验 AI工具前端提示词实战：从设计原则到工程化落地在开发AI工具前端时，提示词系统往往是决定用户体验的关键因素。经过多个项目的实战积累，我总结了开发者最常遇到的三大痛点： 1. 语义歧义：自然语言提示词在不同场景下可能产生多种解析结果，导致AI返回不可预期的内容 2. 上下文丢失：

Llama-3.2V-11B-cot部署教程：GPU显存占用优化技巧与batch size调优实测

Llama-3.2V-11B-cot部署教程：GPU显存占用优化技巧与batch size调优实测 1. 引言：为什么你的GPU总是不够用？如果你尝试过部署Llama-3.2V-11B-cot这个视觉推理模型，大概率会遇到一个让人头疼的问题：显存不够用。明明模型参数只有11B，为什么一运行就提示OOM（内存溢出）？为什么别人的服务器能流畅运行，你的却频频报错？这其实不是模型本身的问题，而是部署时没有做好显存优化。今天这篇文章，我就来手把手教你如何优化Llama-3.2V-11B-cot的GPU显存占用，并通过实测数据告诉你，不同的batch size设置会带来多大的性能差异。学习目标： * 理解Llama-3.2V-11B-cot的显存占用原理 * 掌握多种显存优化技巧 * 学会通过batch size调优平衡性能和显存 * 获得可立即使用的优化配置方案前置知识：只需要基本的Python和命令行操作经验，不需要深度学习专家级知识。我会用最直白的方式解释所有概念。 2. 理解Llama-3.2V-11B-cot的显存占用在开始优化之前，我们先要搞清楚