AIGC首帧图尾帧图生成视频案例教程

优质文章学习记录

05 Apr 2026 — 7 min read

引言

小马先前有在《AIGC视频生成之Deepseek、百度妙笔组合实战小案例》这篇文章中简述了如何无中生有，凭空生成一段想要的视频。然而，在之前相关的教程中小马也有介绍过，此类文生视频的形式一般适合开放形的，用户自己没有什么具体的灵感，对视频成果没有什么特定期望要求的。

但是通常我们生成视频会带有明确的指向性和内容要求，比如用户本身就是一位名导，肯定有自己的影视效果要求；或者用户想根据剧本生成视频，那就内容指向比较明确了。这种情况该如何做呢？小马下面就开始细细道来，看完也许你就可以自导自演一部短剧了。

一、按照首帧图、尾帧图生成视频的步骤

话不多说，我们先来看一段AI成果视频。

AIGC江湖再见，十年出剑是非空（成品）

本段视频全部由AI生成。接下来简单说一下整体步骤。

1、准备场景背景图，人物图等，用AI工具合成想要的首帧图和尾帧图。

这里首帧图和尾帧图的意思就不解释了，可以大概理解为视频的开始第一帧画面和结束时的最后一帧画面。

2、将首帧图和尾帧图传入支持的AI视频生成工具或平台，然后描述视频提示词，这里的技巧之前也是由统一整理过，不熟悉的小伙伴也可以翻阅前面的文章。

3、点击等待生成即可。如果效果不满意，适当调整提示词，重复抽卡即可。

4、将成品传到“剪映”等视频处理工具进行配音特效等剪辑即可出片。

二、案例教程

参考上文中小马抛出的效果视频，可以看到小马想生成的是一部武侠视频，以三坊七巷为场景，人物为一位小女侠。

1、合成首帧图和尾帧图。

首先，我们找到场景图如下：

接着我们通过AI工具根据提示词生成一张自己满意的人物图。这里涉及文生图/图生图的技巧，不是本文的重点，小马就不赘述。有需要也可以和小马一起探讨。

于是我们最终要到的图片如下：

接下来，我们先来合成首帧图。

我们选择即梦平台来实验。可以看到小马第一次的提示词是翻车的。

于是调整一下，运气很好，这次得到想要的图片了。

小马选了第一张：

但是小马还是觉得不得劲，于是拿到百度的AI图片处理平台把灯笼给去掉了，得到图片如下。

好了，首帧图成功了，那么尾帧图怎么生呢？超级简单，直接拿人物图和首帧图来做参考。

很好，直接就抽到想要的图。（同理，我们同样也可以拿到百度再次对图片进行去水印高清化等任意图片处理之后再使用）

好了，尾帧图也准备完毕了。

2、首尾帧+提示词生成视频。

我们还是用即梦，将图片传入，并输入提示词。

事实上，提示词小马也是借助百度的AI生成的，参考如下。

最终小马选了这段提示词。

古街风云突变，狂风肆虐，牌坊之下，树枝狂舞，落叶漫天。远处马蹄声、呐喊声隐约可闻。身着粉色汉服、手持长剑的少女缓步至镜头前，神色警觉，剑已出鞘，寒光闪闪，似在宣告：敌袭当前，誓守此街！

点击生成即可。片刻之后我们得到一份没有配音的视频。

3、配音剪辑视频

我们将视频导入剪映软件进行进一步的配音，特效，背景音乐的剪辑，最终就可以达到小马上面呈现的效果。

这里涉及剪映剪辑软件的一些简单操作技能，不是本文重点不在此赘述，有兴趣的也可以和小马进一步交流。

4、两段视频尾首相连

细心的小伙伴可能会发现，成果视频中的最终画面似乎比首尾帧的画面图片的更延长。没错，因为首尾帧视频一个差不多5s左右，小马导演觉得太短了，于是后面又以尾帧图为首帧再次生成了一段约5s的视频（此次没有设置尾帧图），最后通过剪映剪辑成一起了。

也就是说视频中尾帧图再继续往前走的视频是第二段生成的视频，然而这次小马用的是百度妙笔的AI视频平台，如下。

效果：

江湖再见，十年出剑是非空（2阶段）

三、总结

其实也没啥好总结的，本次就是分享了一个简单的操作案例，抛砖引玉，大家可以自行深入研究，也希望对大家有所帮助。有需要交流的也可以随时找小马，感谢评阅，拜拜啦。

彩蛋时间~

分享整理的一些AI视频创作平台供大家取用，如果单日上限那就换着来，你懂的~~

别告诉其他人哦。


百度妙笔	通义万相
混元	sora
即梦	可灵
vidu	liblib

多源融合定位入门到精通：无人机GPS/北斗标定、抗干扰与精度提升全攻略

在工业无人机的所有性能指标中，定位精度是决定任务价值的核心。巡检需要精准悬停、测绘需要厘米级定位、返航需要米级落点、安防需要稳定跟踪。然而绝大多数团队都会遇到：定点飘、航线弯、信号弱、高楼丢星、磁场干扰、返航偏差大等问题。很多人将这些问题归咎于 GPS 模块质量差，实际上，80% 的定位问题来自安装不规范、环境干扰、未做融合标定、多传感器不同步、坐标系不统一。一、定位为什么会飘？底层原理科普无人机定位依靠卫星信号（GPS、北斗、GLONASS），但现实环境充满干扰因素：信号遮挡：高楼、树木、桥梁、山体遮挡卫星信号。多路径反射：信号经地面、墙面反射后产生虚假位置。电磁干扰：电机、电调、电源、数传产生磁场干扰。传感器不同步：GPS、IMU、罗盘时间戳不一致。未现场标定：出厂参数无法适应实际环境。

利用 Claw Cloud Run 免费应用部署前端网页

一、注册 1. 使用注册180天的github账户注册Claw Cloud账户，可获得每月5$的免费配额 2. 官网链接 - https://run.claw.cloud/ （ps：直接github账号登录应该就不用写了吧）二、创建应用开启外部访问 CPU选0.1即可，当然大点也没问题，就是费用多点点击Create App 打开App Launchpad 三、查看Nginx信息，挂载空间部署 1. 确认update重启挂载空间关闭控制台点击update 最下方选择local Storage挂载空间（默认的就填上面查到的，改配置文件的就填你选择的路径） cd进入目录下通过配置文件查看Nginx默认路径（当然你也可以自己改，到时候换个地方挂载就好）输入nginx -t查询Nginx配置文件信息点进刚刚创建的App，拖到最下面打开控制台（旁边的文件夹是要挂载之后才有的）四、上传文件点击控制台旁边的文件图标，将打包后的文件上传即可

基于Qwen3-VL-WEBUI的视觉语言模型实战｜快速部署与微调指南

基于Qwen3-VL-WEBUI的视觉语言模型实战｜快速部署与微调指南 1. 引言：为什么选择 Qwen3-VL-WEBUI？随着多模态大模型在图像理解、视频分析和跨模态推理等领域的广泛应用，高效、易用且可定制化的视觉语言模型（VLM）部署方案成为开发者和研究者的迫切需求。阿里云推出的 Qwen3-VL-WEBUI 镜像，正是为此而生。该镜像内置了目前 Qwen 系列中最强大的视觉-语言模型 —— Qwen3-VL-4B-Instruct，集成了先进的视觉编码能力、长上下文处理机制以及代理式交互功能，支持从边缘设备到云端服务器的灵活部署。本文将带你： - ✅ 快速部署 Qwen3-VL-WEBUI 镜像 - ✅ 掌握基于 ms-swift 框架的微调全流程 - ✅ 实现自定义数据集下的指令微调与推理服务发布 - ✅ 提供避坑指南与性能优化建议无论你是 AI 工程师、科研人员还是技术爱好者，都能通过本指南实现“开箱即用 + 深度定制”的双重目标。 2. 环境准备与镜像部署 2.1 部署 Qwen3-VL-WEBUI

Qwen3-VL-WEBUI视频理解能力实测：256K上下文部署实战

Qwen3-VL-WEBUI视频理解能力实测：256K上下文部署实战 1. 背景与技术定位随着多模态大模型在视觉-语言任务中的广泛应用，对长上下文、高精度视频理解和复杂空间推理的需求日益增长。阿里云推出的 Qwen3-VL 系列模型，作为 Qwen 多模态家族的最新一代产品，标志着从“看懂图像”向“理解动态世界”的关键跃迁。该系列基于开源项目 Qwen3-VL-WEBUI 提供了便捷的本地化部署方案，内置 Qwen3-VL-4B-Instruct 模型版本，支持单卡（如 RTX 4090D）即可运行，并原生支持高达 256K token 的上下文长度，可扩展至 1M，适用于长时间视频分析、文档结构解析和复杂代理任务执行。本篇文章将围绕 Qwen3-VL-WEBUI 的实际部署流程、256K 长上下文处理能力、视频理解表现及工程优化建议展开深度实测，帮助开发者快速掌握其核心能力与落地路径。 2. 核心功能与技术升级详解 2.1 视觉-语言能力全面增强 Qwen3-VL

目录

引言