MagicAnimate：基于单张图像的视频生成框架

MagicAnimate 是由新加坡国立大学 Show 实验室和字节联合提出的基于扩散框架的单图视频生成方法。该方法通过引入视频扩散模型编码时间信息，并结合新型外观编码器保留参考图像细节，有效解决了传统方法中帧间时间不一致导致的闪烁问题。实验表明，MagicAnimate 在 TikTok 和 TED-talks 数据集上的视频保真度均优于基线方法，特别是在 TikTok 跳舞数据集上保真度提升超过 38%。框架支持单人及多人动画，具备较强的跨身份泛化能力，并可通过视频融合技术优化长视频过渡平滑度。

清心发布于 2025/2/7更新于 2026/4/203 浏览

MagicAnimate：基于单张图像的视频生成框架

动画视频生成技术近期备受关注。新加坡国立大学 Show 实验室和字节联合提出的 MagicAnimate 框架，不仅效果自然流畅，还在视频保真度方面优于其他方法。相比之下，阿里研究团队此前构建的 Animate Anyone 虽然也能通过一张人物照片配合骨骼动画引导生成自然动画视频，但其源代码尚未发布。

MagicAnimate 效果展示

MagicAnimate 旨在增强时间一致性、忠实地保留参考图像并提升动画保真度。项目已开源，推理代码和 Gradio 在线 Demo 已发布。

为了实现上述目标，研究者首先开发了一个视频扩散模型来编码时间信息。接着为了保持跨帧的外观连贯性，他们引入了新颖的外观编码器来保留参考图像的复杂细节。利用这两个创新，研究者进一步使用简单的视频融合技术来保证长视频动画的平滑过渡。

实验结果表明，MagicAnimate 在两项基准测试上均优于基线方法。尤其在具有挑战性的 TikTok 跳舞数据集上，本文方法在视频保真度方面比最强基线方法高出 38% 以上。

MagicAnimate 效果展示