PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

PyTorch实战——基于文本引导的图像生成技术与Stable Diffusion实践

0. 前言

在本节中,我们将为扩散模型添加文本控制能力。学习如何通过文字描述来引导图像生成过程,实现从"纯噪声+文本"生成图像,而不仅是从纯噪声生成。

1. 基于扩散模型的文本生成图像

扩散模型的 UNet 模型训练流程中,我们仅训练模型从含噪图像中预测噪声。为实现文生图功能,需使用以下架构,将文本作为额外输入注入 UNet 模型:

条件UNet

这样的 UNet 模型称为条件 UNet 模型 ,或者更精确地说,是文本条件 UNet 模型,因为该模型会根据输入文本来生成图像。为了训练此类模型,首先我们需要将输入文本编码成一个可以输入 UNet 模型的嵌入向量。然后,我们需要对 UNet 模型稍作修改,以适配嵌入文本形式的额外输入数据(除了图像之外)。接下来,首先介绍文本编码。

2. 将文本输入编码

Read more

【2026必看 AI智能体】零基础Coze平台使用教程

【2026必看 AI智能体】零基础Coze平台使用教程

目录 一、Coze智能体实战初体验 1.1 写提示词 1.2 预览智能体 1.3 发布智能体 二、Coze入门 2.1 大语言模型LLM配置 生成多样性-temperature Top P 重复性语句惩罚 携带上下文轮数 最大回复长度 2.2 插件 什么是插件? 插件使用 三、智能体之知识(RAG-高考志愿填报) 3.1 智能体提示词 3.2 知识之文本 3.3 知识之表格 3.4 知识之图片 3.5 如何管理本地知识库 四、Coze记忆-对话体验 4.1

2026年最新AI大模型学习路线(超详细,小白/程序员必收藏)从入门到精通!

2026年最新AI大模型学习路线(超详细,小白/程序员必收藏)从入门到精通!

当下AI大模型在人工智能领域的热度持续攀升,已然成为技术圈的核心风口,不仅吸引了大量行业从业者深耕,更有无数编程小白、转行人士想要入门掘金。但很多人面对繁杂的技术资料无从下手,不知道该从哪里开始、按什么顺序学习,踩了不少弯路。 今天就给大家整理了一份2026年最新、最系统的AI大模型学习路线,从0基础入门到精通实战,配套全套学习资源,不管你是纯小白还是有一定基础的程序员,跟着学就能少走弯路、快速上手,建议收藏备用,避免后续找不到! 1、大模型学习路线 2、从0到进阶大模型学习视频教程 从入门到进阶这里都有,跟着老师学习事半功倍。 3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里) 4、 AI大模型最新行业报告 2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。 5、面试试题/经验 【大厂 AI 岗位面经分享(107 道)】 【AI

8大AI平台速度和token消耗测试,小米MiMo也加上!

8大AI平台速度和token消耗测试,小米MiMo也加上!

自己开发的工具要多用! 周一工作日的时候我们测试了6大Coding Plan的速度和能耗(tokens)! 当时主要包含了智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元等 6 个 Coding Plan 的平台。 今天周六,休息日,我再来测一次! 测试选手加上了最新发布的小米 MiMo2Pro,以及OpenRouter 中的 Opus 4.6! 也就是说凑够了 8 个平台。 另外这次测试会加两题,除了考智力之外,考考指令遵循能力,以及文学和自我发挥的能力。 废话不多说,直接开测。 1、极简回答 AI 有时候很喜欢废话,纯粹浪费时间,浪费 tokens,所以我觉得这个测试非常有必要。 第一个问题: 问题:早上好 系统提示词:关闭所有思考能力,用最简单的方式来回答! 大部分AI都是符合要求的,回答“

我用6个AI测了一圈,谁是国产Agent第一名,答案出奇地一致

我做了一个有点无聊但结果挺有意思的实验:用6个主流 AI,问同一个问题——“国产 AI Agent 谁最强,给我排个前三”。 结果出奇地整齐。 先问海外的 为了避免"自家夸自家"的嫌疑,先从理论上没有利益关系的海外模型问起。 ChatGPT 的答案是:百度、腾讯、阿里。 Gemini 给了略微不同的排法:百度、阿里、字节——但百度还是第一。 Gemini 在回答里用了"基建狂魔"来描述百度,说百度在芯片、云、模型、应用层都有自己的布局。这个词没什么水分,讲的是一件具体的事。 再问国内的 国内四家的结论更集中。 DeepSeek:百度、腾讯、阿里。 文心:百度、腾讯、阿里—