【保姆级教程】AI图生图+视频生成完整工作流（附提示词+参数表）

优质文章学习记录

08 Apr 2026 — 8 min read

【保姆级教程】AI图生图+视频生成完整工作流（附提示词+参数表）

一、前言

最近AI视频生成技术火得一塌糊涂，从Runway Gen-2到Stable Diffusion的AnimateDiff插件，静态图片“动起来”已经不再是难题。但很多初学者在实操时会遇到各种坑：视频闪烁、人物变形、运动不自然……

本文将以Stable Diffusion WebUI + AnimateDiff为主线，详细拆解从图生图（优化图片） 到图生视频的全流程操作，并附上可直接复制的提示词和参数表。无论你是刚入门的小白，还是想提升效率的老手，这篇教程都能帮你快速上手。

二、环境搭建与工具选择

2.1 硬件要求

显卡：NVIDIA显卡，显存建议8GB以上（6GB也可运行，但帧数需调低）
内存：16GB+
系统：Windows 10/11（Linux也可，本文以Windows为例）

2.2 软件工具

工具	说明	获取方式
Stable Diffusion WebUI	秋叶整合包或官方源码	B站秋叶教程或 GitHub
AnimateDiff 插件	视频生成核心插件	WebUI扩展中搜索“AnimateDiff”安装
ControlNet 插件	可选，用于控制画面一致性	WebUI扩展中搜索“ControlNet”安装
Python	3.10.x	整合包自带

2.3 模型准备

底模：推荐写实风格 majicMIX realistic 或二次元风格 Anything V5（可在Civitai下载）
运动模块：AnimateDiff官方提供的 mm_sd_v15.ckpt（插件会自动下载，或手动放入 models/AnimateDiff）

三、第一步：生成高质量基础图片（图生图）

视频的质量很大程度上取决于首帧图片的质量。如果直接用网上随便找的图，很可能因为风格不统一或细节缺失导致生成失败。因此，建议先用图生图（或文生图）生成一张满意的图片作为起点。

3.1 模型选择

写实人像：majicMIX realistic 或 ChilloutMix
二次元：Anything V5 或 Counterfeit
风景/建筑：Realistic Vision 或 DreamShaper

3.2 提示词编写

提示词分为正向和负向，建议将关键描述词放在前面，用 (keyword:权重) 加强。

正向提示词示例（古风美女）：

(masterpiece, best quality:1.2), 1girl, solo, chinese clothes, hanfu, looking at viewer, standing, garden, flowers, trees, soft lighting, detailed face, highly detailed skin, (wind blowing hair and clothes:1.1)

负向提示词（通用反咒）：

nsfw, bad hands, bad fingers, missing fingers, extra fingers, bad face, bad eyes, bad proportions, ugly, duplicate, morbid, mutilated, tranny, trans, deformed, blurry, low quality, worst quality, signature, watermark, username, artist name

3.3 参数设置参考

参数	推荐值	说明
采样器 (Sampler)	DPM++ 2M Karras	生成质量与速度均衡
步数 (Steps)	30	太少细节不足，太多变化不大
CFG Scale	7	提示词相关性，过高色彩过饱和
宽度/高度	512x768	竖构图更适合短视频，显存友好
种子 (Seed)	-1	随机生成，可固定种子复现效果

生成满意图片后，保存到本地（建议PNG格式，保留元数据）。

四、第二步：图生视频核心操作

4.1 AnimateDiff插件安装与配置

在WebUI中点击 “扩展” -> “可用” -> 搜索 AnimateDiff -> 安装。
重启WebUI后，在文生图/图生图界面下方会出现 AnimateDiff 折叠面板。
第一次使用时，需要下载运动模块。点击面板中的 “下载运动模块”，选择 mm_sd_v15.ckpt 下载。若下载慢，可手动下载后放入 models/AnimateDiff 文件夹。

4.2 运动参数详解

切换到 图生图 界面，加载刚才生成的图片，展开 AnimateDiff 面板，设置如下：

参数	推荐值	说明
启用	✅	必须勾选
运动模块	mm_sd_v15.ckpt	已下载的模块
帧数 (Number of frames)	16（测试）→ 32（成品）	帧数越多视频越长，显存占用越大
帧率 (FPS)	8	生成时的预览帧率，后期可用软件补帧
上下文批大小 (Context batch size)	16	同时处理的帧数，越大越稳定，但显存要求高
运动参数 (Motion parameters)	见下表	控制镜头运动

运动参数详解表：

参数	含义	推荐范围	示例
平移 X (Translation X)	水平移动	-2 ~ 2	`X:0` 不动，`X:1` 每秒右移1像素
平移 Y (Translation Y)	垂直移动	-2 ~ 2	`Y:0.5` 每秒上移0.5像素
旋转 (Rotation)	画面旋转	-0.5 ~ 0.5	通常设为0
缩放 (Scale)	镜头推拉	0.98 ~ 1.02	`Scale:1.01` 每秒放大1%，`Scale:0.99` 缩小

示例组合： 缓慢上移 + 轻微放大
Translation X: 0, Translation Y: 0.5, Rotation: 0, Scale: 1.005

注意： 运动幅度不宜过大，否则人物容易变形。新手建议先尝试单一方向微动。

4.3 生成视频与后处理

设置好参数后，点击 “生成”。生成完毕后，在输出图片区域会显示一个GIF预览。点击GIF右下角的文件夹图标，可以找到生成的MP4视频文件（位于 outputs/img2img-images/日期 下）。

如果需要高清视频，可以使用 Topaz Video AI 进行补帧（将8fps提升到24fps）和放大分辨率。

五、实战案例与提示词解析

案例1：写实人像（镜头缓慢上移）

基础图提示词：

正向：(photorealistic:1.3), (masterpiece:1.2), 1girl, detailed face, perfect eyes, soft skin, natural lighting, depth of field, looking at viewer, wearing sweater, indoors, cozy atmosphere 负向：nsfw, bad hands, bad anatomy, ugly, deformed, disfigured, poorly drawn face, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck, username, watermark, signature

运动参数：Translation Y: 0.5, Scale: 1.0

案例2：风景（镜头缓缓拉远）

基础图提示词：

正向：(masterpiece, best quality), landscape, mountains, river, waterfall, forest, autumn colors, sunny day, blue sky, clouds, highly detailed, cinematic lighting, 8k, photorealistic 负向：nsfw, low quality, worst quality, blurry, fog, text, signature, watermark, username, artist name, ugly, deformed, bad anatomy, bad proportions

运动参数：Translation Y: 0, Scale: 0.99（每秒缩小1%，镜头拉远）

六、常见问题与解决方案（避坑指南）

Q1：生成的视频闪烁严重

原因： 运动幅度过大，或上下文批大小太小。
解决： 降低平移/缩放值，增大上下文批大小至24；开启ControlNet Tile模型（预处理选择tile_resample）可以增强一致性。

Q2：人物五官扭曲/崩坏

原因： 基础图面部细节不足，或运动过程中面部出现错位。
解决：

在负向提示词中强化“bad face, distorted face”。
使用 ADetailer 插件（人脸修复）对每一帧进行后处理。
降低运动幅度，或使用逐帧生成模式（需更高级设置）。

Q3：视频长度太短

原因： 帧数设置太少。
解决： 增加帧数，但注意显存占用。16帧约1秒（8fps），32帧约2秒。可以生成多段后用剪辑软件拼接，或使用 EbSynth 等工具进行关键帧插值。

Q4：显存不足（CUDA out of memory）

原因： 帧数/上下文批大小过大，或分辨率太高。
解决： 降低分辨率（如384x512），减少帧数，减小上下文批大小，关闭其他占用显存的应用。

七、资源下载

为了方便大家直接上手，我将常用的模型配置文件、提示词模板、参数预设整理到了飞书文档中，需要的自取（链接永久有效）：

👉 AI图生图生视频完整资料库（含提示词）

文档内容包括：

实战提示词
常见参数设置对照表（Excel格式）
运动参数预设文件

文档部分内容展示

八、结语

AI视频生成技术日新月异，但万变不离其宗：高质量的基础图片 + 合理的运动参数 = 流畅的视频。希望这篇教程能帮助你打开AI视频/图片创作的大门。

如果觉得本文对你有帮助，欢迎点赞、收藏、评论，让更多需要的人看到。有问题可以在评论区留言，我会尽力解答。后续还会更新更多AIGC实战技巧，点个关注不迷路！

别再说“前端很简单”了：有时候，前端比后端更难

我有一支技术全面、经验丰富的小型团队，专注高效交付中等规模外包项目，有需要外包项目的可以联系我很多年里，前端一直被贴着一个很轻飘的标签： “容易。” “按钮、配色、排版。” “就做个 UI 而已。” 这套叙事不仅过时，而且说实话——挺伤人的。因为放在今天，前端开发的复杂度一点不输后端；甚至在不少场景里，前端更难。 “前端就是 HTML + CSS” 15 年前，这句话还能勉强成立。今天？差得有点离谱。现代前端每天在同时处理： * 状态管理 * 异步数据 * 实时更新 * 无障碍支持 * 性能优化 * 动画与交互 * 跨浏览器兼容 * 设备碎片化 * 设计系统落地 * 构建与工程化工具链 * AI 辅助的交互体验更关键的是：这一切都发生在用户眼皮底下。你错一点，用户立刻看见。前端早就不只是“做得好看”了。它是在搭建一套用户会触摸、会感受、

中文情感分析WebUI开发：交互式界面设计教程

中文情感分析WebUI开发：交互式界面设计教程 1. 引言 1.1 中文情感分析的应用价值在社交媒体、电商评论、客服对话等场景中，用户生成的中文文本蕴含着丰富的情绪信息。如何自动识别这些情绪倾向——是满意还是不满，是积极还是消极——已成为企业洞察用户反馈、优化产品服务的关键技术手段。中文情感分析作为自然语言处理（NLP）的重要分支，能够将非结构化文本转化为可量化的态度指标，广泛应用于舆情监控、品牌管理、智能客服等领域。然而，许多开发者面临模型部署复杂、依赖环境冲突、缺乏友好交互等问题，导致即使拥有高性能模型也难以快速落地应用。为此，构建一个轻量、稳定、易用的情感分析系统显得尤为必要。 1.2 项目定位与目标本文介绍基于 ModelScope 平台的 StructBERT 中文情感分类模型打造的完整 WebUI 解决方案。该项目不仅提供高精度的正面/负面情绪识别能力，还集成了 Flask 构建的 Web 服务

SLAM前端中的GPU加速——以vins-fusion-gpu和ORB_SLAM2_CUDA为例

1 GPU GPU并不是一个独立运行的计算平台，而需要与CPU协同工作，可以看成是CPU的协处理器，因此当我们在说GPU并行计算时，其实是指的基于CPU+GPU的异构计算架构。在异构计算架构中，GPU与CPU通过PCIe总线连接在一起来协同工作，CPU所在位置称为为主机端（host），而GPU所在位置称为设备端（device）。可以看到GPU包括更多的运算核心，其特别适合数据并行的计算密集型任务，如大型矩阵运算，而CPU的运算核心较少，但是其可以实现复杂的逻辑运算，因此其适合控制密集型任务。另外，CPU上的线程是重量级的，上下文切换开销大，但是GPU由于存在很多核心，其线程是轻量级的。因此，基于CPU+GPU的异构计算平台可以优势互补，CPU负责处理逻辑复杂的串行程序，而GPU重点处理数据密集型的并行计算程序，从而发挥最大功效。 CUDA是NVIDIA公司所开发的GPU编程模型，它提供了GPU编程的简易接口，基于CUDA编程可以构建基于GPU计算的应用程序，将cpu指令翻译成GPU指令。CUDA提供了对其它编程语言的支持，如C/C++，Python，Fortran等语

构建现代化电商前端的终极方案：WooNuxt完整指南

构建现代化电商前端的终极方案：WooNuxt完整指南【免费下载链接】woonuxtStatic e-commerce powered by WooCommerce & Nuxt 项目地址: https://gitcode.com/gh_mirrors/wo/woonuxt 在电商竞争日益激烈的今天，一个高性能、用户体验优秀的前端系统已成为制胜关键。WooNuxt作为专为WooCommerce设计的静态电商解决方案，正在重新定义电商前端的开发标准。核心价值：为什么选择WooNuxt？ WooNuxt将WordPress的WooCommerce后端与Nuxt 3的前端能力完美结合，为企业提供了前所未有的开发效率和用户体验。通过WPGraphQL实现数据高效传输，同时保持WordPress的易用性和Nuxt的现代化特性。技术架构深度解析前后端分离的现代化设计 WooNuxt采用完全分离的架构模式，后端基于成熟的WooCommerce系统，前端则利用Nuxt 3的服务器端渲染能力，确保页面加载速度和SEO表现达到最优水平。组件化开发体系项目内置了完整的电商

【保姆级教程】AI图生图+视频生成完整工作流（附提示词+参数表）

优质文章学习记录

【保姆级教程】AI图生图+视频生成完整工作流（附提示词+参数表）

目录

一、前言

二、环境搭建与工具选择

2.1 硬件要求

2.2 软件工具

2.3 模型准备

三、第一步：生成高质量基础图片（图生图）

3.1 模型选择

3.2 提示词编写

3.3 参数设置参考

四、第二步：图生视频核心操作

4.1 AnimateDiff插件安装与配置

4.2 运动参数详解

4.3 生成视频与后处理

五、实战案例与提示词解析

案例1：写实人像（镜头缓慢上移）

案例2：风景（镜头缓缓拉远）

六、常见问题与解决方案（避坑指南）

Q1：生成的视频闪烁严重

Q2：人物五官扭曲/崩坏

Q3：视频长度太短

Q4：显存不足（CUDA out of memory）

七、资源下载

文档部分内容展示

八、结语

Read more

别再说“前端很简单”了：有时候，前端比后端更难

中文情感分析WebUI开发：交互式界面设计教程

SLAM前端中的GPU加速——以vins-fusion-gpu和ORB_SLAM2_CUDA为例

构建现代化电商前端的终极方案：WooNuxt完整指南