MIT 团队提出上下文归因方法 ContextCite
语言模型在生成回答时是如何使用提供的上下文信息的?我们能否推断出一个特定生成的陈述实际上是基于上下文,还是一个误解,或者完全是编造的?
为了帮助回答这些问题,麻省理工学院(MIT)团队提出了上下文归因问题:确定是上下文的哪些部分(如果有的话)导致模型生成了一个特定的陈述。然后,他们提出了一种简单且可扩展的上下文归因方法 ContextCite,它可以应用于任何现有的语言模型之上。
最后,他们通过三个应用展示了 ContextCite 的实用性:(1)帮助验证生成的陈述,(2)通过修剪上下文来提高回应的质量,(3)检测中毒攻击。
论文链接:https://arxiv.org/abs/2409.00729 GitHub 地址:https://github.com/MadryLab/context-cite
OD-VAE:用于改进潜在视频扩散模型的全维视频压缩器
变分自编码器(VAE)将视频压缩成潜在表示,是潜在视频扩散模型(LVDMs)的关键前置组件。在相同的重建质量下,VAE 对视频的压缩越充分,LVDMs 的效率就越高。然而,大多数 LVDMs 使用的是 2D 图像 VAE,其对视频的压缩仅限于空间维度,而在时间维度上往往被忽略。如何在 VAE 中执行视频的时间压缩以获得更简洁的潜在表示,同时保证准确的重建,这一问题很少被探索。
为了填补这一空白,来自北京大学和鹏城实验室的研究团队提出了一个全维度压缩 VAE,名为 OD-VAE,它可以在时间和空间上压缩视频。尽管 OD-VAE 更充分的压缩给视频重建带来了巨大的挑战,但通过他们的精心设计,它仍然可以实现高重建精度。为了在视频重建质量与压缩速度之间获得更好的权衡,他们介绍并分析了 OD-VAE 的四个变体。
此外,他们还设计了一种新颖的尾部初始化方法来更高效地训练 OD-VAE,并提出了一种新颖的推理策略,使 OD-VAE 能够处理任意长度的视频,同时只占用有限的 GPU 内存。在视频重建和基于 LVDM 的视频生成上的综合实验证明了他们提出方法的有效性和效率。
论文链接:https://arxiv.org/abs/2409.01199 GitHub 地址:https://github.com/PKU-YuanGroup/Open-Sora-Plan
Follow-Your-Canvas:基于扩散的更高分辨率的视频外绘
在这项工作中,来自腾讯和香港科技大学的研究团队及其合作者,探讨了利用广泛内容生成实现更高分辨率的视频外绘。他们指出现有方法在尝试大幅外绘视频时面临的常见问题:生成低质量内容以及 GPU 内存的限制。
为了解决这些挑战,他们提出了一个基于扩散的方法,称为'Follow-Your-Canvas'。该方法基于两个核心设计。首先,他们不是采用常见的'单次绘制'外绘方式,而是将任务分布在空间窗口上,并无缝地合并它们。这使他们能够外绘任意大小和分辨率的视频,而不受 GPU 内存的限制。其次,将源视频及其相对位置关系注入到每个窗口的生成过程中。这使得每个窗口内生成的空间布局与源视频协调一致。结合这两个设计,使他们能够在保持空间和时间一致性的同时,生成富含内容的高分辨率外绘视频。
Follow-Your-Canvas 在大规模视频外绘方面表现出色,例如从 512×512 到 1152×2048(9 倍),同时产生高质量且具有美感的成果。它在各种分辨率和规模设置中取得了最佳效果。
论文链接:https://arxiv.org/abs/2409.01055 GitHub 地址:https://github.com/mayuelala/FollowYourCanvas
Mini-Omni:首个用于实时语音交互的完全端到端开源模型
GPT-4o 实现了与人类的实时对话,展示了接近人类的自然流畅性。这种人机交互要求模型具有直接利用音频模态进行推理并以流式方式生成输出的能力。然而,这仍然超出了当前学术模型的能力范围,因为它们通常依赖于额外的 TTS 系统来进行语音合成,从而导致不理想的延迟。
在这项工作中,研究团队推出了一种基于音频的端到端对话模型 Mini-Omni,其能够进行实时语音交互。为了实现这一功能,他们提出了一种基于文本指令的语音生成方法,并在推理过程中采用 batch 并行策略,从而进一步提高性能。这一方法还有助于保留原始模型的语言能力,并将退化程度降到最低,从而使其他工作能够建立实时交互能力。他们称这种训练方法为'Any Model Can Talk'。


