1. 应用于量子计算的自动驾驶实验室智能体
全自动自动驾驶实验室有望通过减少重复劳动,实现高通量和大规模科学发现。然而,有效的自动化需要对实验室知识进行深度整合,而这些知识往往是非结构化的、多模态的,很难纳入当前的人工智能系统。
来自牛津大学和多伦多大学的研究团队及其合作者提出了 k-agents 框架,该框架旨在支持实验人员组织实验室知识并使用智能体实现实验自动化。他们的框架采用基于大语言模型的智能体来封装实验室知识,包括可用的实验室操作和实验结果分析方法。为了实现实验自动化,他们引入了执行智能体,将多步骤实验程序分解为状态机,与其他智能体交互执行每个步骤并分析实验结果。然后利用分析结果驱动状态转换,实现闭环反馈控制。
为了展示其能力,他们将智能体应用于校准和操作超导量子处理器,它们自主规划和执行了数小时的实验,成功地产生和描述了纠缠量子态,达到了人类科学家所能达到的水平。
论文链接: https://arxiv.org/abs/2412.07978
2. 腾讯团队推出 POINTS1.5:面向真实世界应用的视觉语言模型
视觉语言模型(VLM)在光学字符识别和复杂图表分析等一系列任务中表现出了卓越的性能。在这一趋势的基础上,腾讯团队推出了一种新的视觉语言模型 POINTS1.5,旨在使其在各种实际应用中表现出色。
POINTS1.5 是 POINTS1.0 的增强版,包含几项关键创新:i) 他们用支持原生动态高分辨率的 NaViT 式视觉编码器取代了图像分辨率固定的原始 CLIP 视觉编码器。这样,POINTS1.5 就能处理任何分辨率的图像,而无需将其分割成瓦片。ii) 他们为 POINTS1.5 添加了双语支持,大大增强了其在中文方面的能力。由于用于视觉语言模型的开源中文数据集稀缺,他们从互联网上收集了大量图像,并采用手动和自动相结合的方法对其进行标注。 iii) 他们为视觉指令微调数据集提出了一套严格的过滤方法。
他们全面评估了所有这些过滤方法,并选择了最有效的方法来获得最终的视觉指令微调集。得益于这些创新,POINTS1.5 的性能明显优于 POINTS1.0,并在一系列实际应用中表现出强劲的性能。值得注意的是,POINTS1.5-7B 是在不到 40 亿个 token 上训练出来的,在参数少于 100B 的模型中,POINTS1.5-7B 在 OpenCompass 排行榜上名列第一。
论文链接: https://arxiv.org/abs/2412.08443
3. Meta 团队提出 注意力学习流场 Leffa
可控人物图像生成的目的是根据参考图像生成人物图像,从而精确控制人物的外观或姿势。然而,先前的方法尽管能获得较高的整体图像质量,但往往会扭曲参考图像中的细粒度纹理细节。
来自 Meta AI 的研究团队及其合作者将这些扭曲归咎于对参考图像中相应区域的注意力不够。为了解决这个问题,他们提出了注意力学习流场(Leffa),它在训练过程中明确引导目标查询关注注意力层中正确的参考键。具体来说,它是通过在基于扩散的基线内的注意力图上的正则化损失来实现的。
他们的大量实验表明,Leffa 在控制外观(虚拟试戴)和姿态(姿态转移)方面实现了 SOTA,在保持高质量图像的同时显著减少了细粒度细节失真。此外,他们还证明了他们的损耗与模型无关,可用于提高其他扩散模型的性能。
论文链接: https://arxiv.org/abs/2412.08486
4. StyleMaster:通过艺术化生成和翻译为视频增添风格
风格控制在视频生成模型中一直很流行。现有方法生成的视频往往与给定风格相去甚远,造成内容泄露,而且很难将一个视频转换成所需的风格。来自香港科技大学和快手的研究团队的第一个发现是,风格提取阶段非常重要,而现有方法强调全局风格,却忽略了局部纹理。
为了在引入纹理特征的同时防止内容泄露,他们根据提示 - 补丁相似性过滤与内容相关的补丁,同时保留风格补丁;对于全局风格提取,他们通过模型错觉生成配对风格数据集,以促进对比学习,从而大大增强了绝对风格一致性。此外,为了填补从图像到视频的空白,他们在静态视频中训练了一个轻量级运动适配器,从而隐性地增强了风格化程度,并使他们的图像训练模型能够无缝地应用到视频中。
得益于这些努力,他们的方法 StyleMaster 不仅在风格相似度和时间连贯性方面取得了显著改善,而且还能通过灰色瓦片控制网轻松实现视频风格转移。大量实验和可视化结果表明,StyleMaster 的性能明显优于竞争对手,它能有效生成高质量的风格化视频,与文本内容保持一致,并与参考图像的风格非常相似。


