每日AIGC最新进展(94):MIT提出实时流式视频生成StreamDiffusionV2、LeCun&李飞飞&谢赛宁联合提出空间超感知Cambrian-S
Diffusion Models专栏文章汇总:入门与实战
目录
StreamDiffusionV2

现有视频扩散模型虽在离线生成中表现出色,但难以适应实时直播流媒体的严格要求。具体而言,有以下四大挑战:
- 一是无法满足实时SLO(如最小化首帧时间和每帧截止期限);
- 二是长时序生成中出现漂移,导致视觉一致性下降;
- 三是在高速动态场景下产生运动撕裂和模糊;
- 四是多GPU扩展性差,无法在异构环境中实现线性FPS提升。
这些问题源于现有系统对离线批处理优化的偏向,而忽略了在线流媒体的无限输入和低抖动需求。本工作通过系统级优化,填补了这一空白。
StreamDiffusionV2,这是一个无需训练的流式系统,它同时实现了实时的效率和长时序的视觉稳定性。从高层次来看,本工作的设计基于两个关键的优化层面:(1)实时调度与质量控制,它协同整合了服务等级目标(SLO)感知的批处理、自适应的sink与RoPE刷新、以及运动感知的噪声调度,以满足每帧的截止期限,同时维持长时序的时序连贯性和视觉保真度;(2)可扩