【AI论文】OmniInsert:借助扩散变换器模型实现任意参考对象的无掩码视频插入

【AI论文】OmniInsert:借助扩散变换器模型实现任意参考对象的无掩码视频插入

摘要:近期基于扩散模型在视频插入领域取得的进展令人瞩目。然而,现有方法依赖复杂的控制信号,却难以保证主体一致性,限制了其实际应用。本文聚焦于无掩码视频插入任务,旨在解决三大关键挑战:数据稀缺、主体与场景平衡以及插入内容的和谐融合。为应对数据稀缺问题,我们提出了一种新型数据流水线InsertPipe,可自动构建多样化的跨配对数据集。基于该数据流水线,我们开发了OmniInsert——一种新颖的统一框架,支持从单一或多个主体参考中实现无掩码视频插入。具体而言,为保持主体与场景的平衡,我们引入了一种简单而有效的条件特定特征注入机制,以明确注入多源条件,并提出了一种新型渐进式训练策略,使模型能够平衡来自主体和源视频的特征注入。同时,我们设计了主体聚焦损失函数,以提升主体的细节表现。为进一步增强插入内容的和谐融合,我们提出了插入偏好优化方法,通过模拟人类偏好来优化模型,并在参考过程中引入上下文感知重表述模块,使主体无缝融入原始场景。为解决该领域缺乏基准测试的问题,我们推出了InsertBench——一个包含多样化场景和精心挑选主体的综合基准测试集。在InsertBench上的评估表明,OmniInsert的性能优于当前最先进的闭源商业解决方案。相关代码即将开源。Huggingface链接:Paper page,论文链接:2509.17627

研究背景和目的

研究背景

随着深度学习技术的飞速发展,视频生成和编辑领域取得了显著进展。

特别是基于扩散模型(Diffusion Models)的视频生成方法,因其能够生成高质量、连贯的视频内容而备受关注。然而,在视频插入(Video Insertion, VI)任务中,即将一个参考主体自然地插入到源视频中,现有方法仍面临诸多挑战。首先,数据稀缺性问题严重,缺乏成对的插入前后视频及相应的主体参考,限制了模型的训练效果。其次,主体与场景的平衡问题突出,如何在保持未编辑区域不变的同时确保插入主体的一致性,是当前方法亟待解决的问题。最后,插入和谐化不足,现有方法往往难以实现插入主体与原始场景的自然交互,导致生成结果显得不真实。

研究目的

本研究旨在解决视频插入任务中的上述挑战,提出一种无需掩码的视频插入方法(Mask-free Video Insertion, MVI),通过以下目标实现:

  1. 解决数据稀缺性:提出一种新的数据管道InsertPipe,自动构建多样化的跨配对数据,以缓解数据稀缺问题。
  2. 保持主体与场景的平衡:引入条件特定特征注入机制(Condition-Specific Feature Injection, CFI)和渐进式训练策略(Progressive Training, PT),以维护插入主体与未编辑区域的一致性。
  3. 提升插入和谐化:设计主体聚焦损失(Subject-Focused Loss, SL)和插入偏好优化方法(Insertive Preference Optimization, IPO),以及上下文感知重述模块(Context-Aware Rephraser, CAR),以增强插入结果的和谐性和真实性。
  4. 建立基准测试:引入一个全面的基准测试InsertBench,用于评估MVI任务的性能,推动该领域的研究进展。

研究方法

数据管道构建(InsertPipe)

为了解决数据稀缺问题,我们设计了InsertPipe数据管道,包含三条数据生成管线:

  1. RealCapture Pipe:利用现有真实世界视频,通过检测、跟踪和视频擦除工具构建成对视频。同时,利用视觉语言模型(VLM)和大型语言模型(LLM)生成详细的字幕和检测提示,确保数据的多样性和复杂性。
  2. SynthGen Pipe:利用LLM生成多样化的提示,结合图像生成、图像编辑、视频生成和主体移除技术,自动构建大规模跨配对数据集。通过图像生成、视频生成和主体移除技术,确保数据集的场景多样性和一致性。
  3. SimInteract Pipe:基于渲染引擎生成定制数据,模拟复杂场景下的主体交互,进一步提升数据的复杂性和多样性。

模型架构(OmniInsert)

我们提出了OmniInsert框架,一个无需掩码的视频插入统一框架,支持单主体和多主体参考。

该框架包含以下关键组件:

  1. 条件特定特征注入机制(CFI):在模型架构中明确区分视频条件和主体条件的注入方式,确保不同条件的高效融合。
  2. 渐进式训练策略(PT):采用四阶段训练策略,从仅主体插入到完整MVI任务的预训练,再到高保真度数据集上的模型优化,最后通过人类偏好模拟进行偏好优化。
  3. 主体聚焦损失(SL):设计特定损失函数,引导模型关注主体区域的细节表现,提升主体一致性。
  4. 插入偏好优化(IPO):利用少量人类标注的偏好数据,通过偏好优化方法,引导模型生成更符合人类偏好的插入结果。
  5. 上下文感知重述模块(CAR):在推理阶段引入VLM生成详细的上下文感知提示,引导模型实现更无缝和合理的插入。

研究结果

定量分析

在InsertBench基准测试上,OmniInsert相比现有最先进的商业解决方案(如Pika-Pro和Kling)表现出色。具体指标如下:

  1. 主体一致性:CLIP-I和DINO-I指标上,OmniInsert分别领先6.3%和9.6%。
  2. 文本视频对齐:ViCLIP-T指标上,OmniInsert领先3.4%。
  3. 视频质量:动态质量、图像质量、美学和一致性等指标上,OmniInsert均领先。

定性分析

通过视觉比较可以看出,OmniInsert在主体背景一致性、提示跟随和插入合理性方面均优于基线方法。具体表现为:

  1. 主体保真度:OmniInsert能更好地保持主体身份和背景不变性,而基线方法往往出现主体失真或插入不自然的问题。
  2. 提示跟随:OmniInsert能更准确地跟随文本提示,生成与提示更匹配的结果。
  3. 插入合理性:OmniInsert的插入结果在视觉上更合理,主体与场景的交互更自然。

用户研究

我们邀请了30名志愿者对40个测试样本进行评估,从主体一致性、文本对齐、插入理性和综合评价四个维度进行比较。

结果显示,OmniInsert在所有维度上均显著优于基线方法。

研究局限

尽管OmniInsert在视频插入任务中取得了显著进展,但仍存在以下局限:

  1. 颜色保真度和物理合理性:有时生成结果会出现轻微的颜色差异和物理上不合理的现象,如模型穿透等。尽管IPO阶段已显著减少这些问题,但完全解决仍具挑战性。
  2. 推理速度:标准视频扩散模型基线下,OmniInsert的推理时间约为90秒(480P分辨率,121帧视频)。虽然优于基线方法,但仍有提升空间。
  3. 数据多样性:尽管InsertPipe数据管道覆盖了广泛场景和主体类别,但在极端或高度专业化的场景中,模型的鲁棒性可能受限。

未来研究方向

针对上述局限,未来研究可以从以下方向展开:

  1. 改进颜色保真度和物理合理性:引入更先进的偏好优化技术和物理引擎,进一步提升生成结果的质量和合理性。
  2. 提升推理速度:应用通用的视频扩散模型加速技术,减少推理时间,提高实际应用中的效率。
  3. 增强数据多样性:探索更多样化的数据来源和合成方法,特别是极端或专业场景下的数据生成,以提升模型的泛化能力。
  4. 多模态数据利用:结合音频、文本等多模态信息,提供更丰富的上下文提示,引导模型生成更自然和合理的插入结果。
  5. 实时交互和动态调整:研究实时交互机制,允许用户在推理阶段动态调整提示,实现更个性化和可控的视频插入。

Read more

Telegram搜索机器人推荐——查找海量资源,提升信息检索效率

大家好,本文首发于 ZEEKLOG 博客,主要面向需要在 Telegram 中高效检索资源的同学。我结合自己的实测体验,总结了几款实用的搜索机器人与完整操作流程,帮助大家解决“怎么快速找到频道、群组、文件”的痛点。如果你也在为信息筛选耗时头疼,建议耐心读完并亲手试试,收获会很大。觉得有帮助别忘了给个点赞、收藏和关注支持一下 🙂 📚 本文目录 * 使用准备 * 什么是Telegram搜索机器人? * Telegram搜索机器人的核心功能 * 推荐的Telegram搜索机器人 * 如何使用Telegram搜索机器人? * Telegram搜索机器人的应用场景 * 总结 在信息爆炸的时代,如何高效获取自己想要的资源?Telegram搜索机器人为你带来全新解决方案,无需翻找频道、群组,只需输入关键词,即可一键查找海量内容。无论是影视剧、电子书、图片还是优质群组,Telegram搜索机器人都能帮你轻松找到。推荐搜索机器人:@soso、@smss、@jisou 使用准备 1. 能访问外网,不会魔法的同学请参考:这里 2. 安装 Telegram

微信机器人怎么弄的?微信群里怎么添加机器人,一篇讲清楚

很多人第一次在微信群里看到机器人,都会有类似的疑问: 这是微信自带的吗? 还是要下载什么软件? 普通人能不能自己弄一个? 拉进群之后,它为什么能自动说话? 实际上,微信机器人并不是一个“神秘功能”,而是一套已经相当成熟的使用方案。只不过,大多数教程要么写得太技术化,要么只讲结果不讲过程。 下面我们就按真实使用顺序,一步一步拆开来看。 一、先把概念说清楚:微信机器人到底是什么? 很多人理解中的“微信机器人”,是那种: 会自动回消息 能在群里发言 看起来像一个人 从使用者角度看,这个理解没错。 但从原理上来说,更准确的说法是: 微信机器人 = 一个被系统托管的微信账号 + 自动化 / AI 处理逻辑 它不是安装在你手机里的插件,也不是微信官方自带的功能,而是通过平台接入微信聊天体系的一种服务形态。 像现在比较常见的 知更 AI 微信机器人,本质上都是走这条路。 二、微信机器人怎么弄?先回答最关键的几个问题 1️⃣ 要不要下载软件? 这是被问得最多的问题。 答案是:大多数情况下不需要你单独下载客户端。

AI绘画电商产品提示词撰写指南

AI绘画电商产品提示词撰写指南

在电商领域,利用 AI 绘画生成产品图片正逐渐成为提升商品视觉吸引力、提高运营效率的重要手段。而撰写精准有效的提示词,是让 AI 理解并生成符合预期产品图片的关键。 一、明确产品关键信息 产品基础描述 产品类型与用途:清晰界定产品所属类别,无论是服装、电子产品、家居用品还是美妆产品等,这是 AI理解产品的基础。同时,简要说明产品的核心用途或目标受众,可分为3层结构(按优先级排序) * 基础层:明确产品核心属性(避免 AI 生成偏差),包括「产品类别 + 规格 + 材质 / 工艺」,例: “女士夏季短袖连衣裙(长度到膝盖),雪纺面料,蕾丝领口” * 场景层:搭建使用场景(增强代入感),包括「使用环境 + 搭配元素 + 人群画像」,例: “在海边沙滩场景,搭配草编帽和珍珠凉鞋,适合 25-35