
以下是 13 篇近期重要的大模型论文摘要:
Meta:多'重复',更能提升 transformer 性能
Meta 团队用算法生成的数据集研究了 transformer 的性能与训练示例重复次数的函数关系。在最大公约数、模态乘法和矩阵特征值这三个数学问题上,他们证明了在训练步骤数量固定的情况下,用较小的重复示例集训练出来的模型优于用较大的单次使用示例集训练出来的模型。他们还证明了两组训练——重复使用一小部分随机示例子集,同时对训练集的其余部分进行正常采样——能带来更快的学习速度和更好的性能。这突出表明,重复的好处,可能超过数据多样性的好处。
论文链接:
https://arxiv.org/abs/2410.07041
渐进自回归视频扩散模型
当前的前沿视频扩散模型在生成高质量视频方面取得了显著的成果。然而,由于训练过程中计算量的限制,它们只能生成短视频片段,通常为 10 秒或 240 帧左右。在这项工作中,来自石溪大学和 Adobe Research 的研究团队展示了现有模型可以在不改变架构的情况下自然扩展为自回归视频扩散模型。
他们的主要想法是为潜帧分配逐渐增加的噪声水平,而不是单一的噪声水平,这样就能在潜帧之间实现细粒度条件,并在注意力窗口之间实现大面积重叠。这种渐进式视频去噪使他们的模型能够自回归地生成视频帧,而不会出现质量下降或场景突变。
论文链接:
https://arxiv.org/abs/2410.08151
项目地址:
https://desaixie.github.io/pa-vdm/
Agent S:像人一样使用计算机的开放智能体框架
Simular Research 团队提出了 Agent S,一个通过图形用户界面(GUI)实现与计算机自主交互的开放智能体框架,旨在通过自动化复杂的多步骤任务来改变人机交互。
Agent S 旨在解决计算机任务自动化中的三个关键挑战:获取特定领域的知识、规划较长的任务周期以及处理动态的非统一界面。为此,Agent S 引入了经验增强型分层规划,从多层次的外部知识搜索和内部经验检索中学习,促进高效的任务规划和子任务执行。此外,它还采用了一种智能体 - 计算机接口(ACI),以多模态大语言模型(MLLM)为基础,更好地激发图形用户界面智能体的推理和控制能力。
在 OSWorld 基准测试中进行的评估表明,Agent S 的成功率比基准高出 9.37%(相对提高 83.6%),达到了 SOTA。此外,Agent S 还在新发布的 WindowsAgentArena 基准测试中展示了对不同操作系统的广泛通用性。
论文链接:
https://arxiv.org/abs/2410.08164
GitHub 地址:
https://github.com/simular-ai/Agent-S
将 MLLM 作为检索器:用于具身智能体的交互式学习多模态检索
MLLM 智能体通过检索与任务相关的多模态轨迹数据,在复杂的具身任务中展现出了潜力。然而,目前的检索方法主要关注轨迹中文本或视觉线索的表面相似性,而忽略了它们对手头特定任务的有效性。
为了解决这个问题,北京大学团队及其合作者提出了一种新方法——MLLM as ReTriever(MART),通过利用交互数据来微调基于偏好学习的 MLLM Retriever,使 Retriever 充分考虑轨迹的有效性,并在未见任务中优先考虑它们,从而提高具身智能体的性能。他们还提出了'轨迹提取'(Trajectory Abstraction)机制,该机制利用 MLLM 的概括能力,在保留关键信息的同时用更少的 token 来表示轨迹,从而使智能体能够更好地理解轨迹。
各种环境下的实验结果表明,与基线方法相比,他们的方法显著提高了未见场景中任务的成功率。这项工作通过微调通用 MLLM 作为检索器来评估轨迹的有效性,提出了在具身智能体中进行多模态检索的新范例。
论文链接:
https://arxiv.org/abs/2410.03450
MathCoder2:使用数学代码持续预训练,提高数学推理能力
代码因其精确性和准确性已被证明能有效提高大语言模型的数学推理能力。以往涉及持续数学预训练的工作通常包括利用数学相关软件包的代码,这些软件包主要是为工程、机器学习、信号处理或模块测试等领域设计的,而不是直接专注于数学推理。
在这项工作中,香港中文大学团队提出了一种新颖的方法,用于生成数学代码以及相应的推理步骤,从而进行持续的预训练。他们的方法首先通过整合数学相关的网络数据、使用数学软件包的代码、数学教科书和合成数据来构建高质量的数学持续预训练数据集。接下来,他们从之前收集的数据集中提取 LaTeX 表达式、表达式所需的条件以及表达式的结果,从而构建推理步骤。根据这些提取的信息,他们生成相应的代码,以准确捕捉数学推理过程。将生成的代码附加到每个推理步骤后,就得到了由配对的自然语言推理步骤及其相应代码组成的数据。将这些数据与原始数据集结合后,就得到了一个有 19.2B 个代码的高性能数学预训练语料库——MathCode-Pile。用这个语料库训练几个流行的基础模型,大大提高了它们的数学能力,从而创建了 MathCoder2 系列模型。
论文链接:
https://arxiv.org/abs/2410.08196
GitHub 地址:
https://github.com/mathllm/MathCoder2
清华团队提出 Optima:优化基于 LLM 的多智能体系统的效能和效率
基于大语言模型(LLM)的多智能体系统(MAS)在协作解决问题方面展现出了巨大的潜力,但它们仍然面临着严峻的挑战:通信效率低、可扩展性差以及缺乏有效的参数更新优化方法。
来自清华大学和北京邮电大学的研究团队提出了 Optima,这是一个新颖的框架,它通过 LLM 训练显著提高了基于 LLM 的 MAS 的通信效率和任务效率,从而解决了这些问题。Optima 采用迭代生成、排序、选择和训练模式,其奖励函数兼顾了任务性能、token 效率和通信可读性。他们探索了各种强化学习(RL)算法,包括监督微调、直接偏好优化(DPO)及其混合方法,深入了解了这些算法在效果和效率之间的权衡。他们整合了蒙特卡洛树搜索启发的 DPO 数据生成技术,将对话回合视为树节点,以探索不同的交互路径。
Optima 在信息不对称的问题解答和复杂推理等常见的多智能体任务上进行了评估,与单智能体基线和基于 Llama 3 8B 的 vanilla MAS 相比,Optima 显示出了持续而显著的改进,在需要大量信息交换的任务上,Optima 以不到 10% 的 token 实现了高达 2.8 倍的性能提升。此外,Optima 的效率提升为更有效地利用推理计算开辟了新的可能性,从而改进了推理时 scaling laws。
论文链接:
https://arxiv.org/abs/2410.08115
项目地址:
https://chenweize1998.github.io/optima-project-page/
港科大团队提出'个性化视觉指令微调'
多模态大语言模型(MLLMs)最近取得了重大进展;然而,这些模型表现出明显的局限性,即'脸盲'(face blindness)。具体来说,它们可以进行一般对话,但无法针对特定个人进行个性化对话。这一缺陷阻碍了 MLLM 在个性化环境中的应用,例如移动设备上的定制视觉助手,或需要识别家庭成员的家用机器人。
在这项工作中,来自香港科技大学和伊利诺伊大学香槟分校的研究团队提出了个性化视觉指令微调(PVIT),这是一种新颖的数据整理和训练框架,旨在使 MLLMs 能够识别图像中的目标个体,并进行个性化和连贯的对话。他们的方法包括开发一个复杂的管道,它能自主生成包含个性化对话的训练数据。该管道充分利用了各种视觉专家、图像生成模型和(多模态)大语言模型的能力。
为了评估 MLLM 的个性化潜力,他们提出了一个名为 P-Bench 的基准,其中包含不同难度的各种问题类型。实验表明,在使用精心策划的数据集进行微调后,个性化性能得到了大幅提升。
论文链接:
https://arxiv.org/abs/2410.07113
上海 AI Lab 团队提出基于物理常识的视频生成基准
像 Sora 这样的文生视频(T2V)模型在复杂提示的可视化方面取得了长足进步,越来越多的人认为这是构建通用世界模拟器的一条大有可为的路径。认知心理学家认为,实现这一目标的基础是理解直观物理的能力。然而,这些模型准确表现直观物理的能力在很大程度上仍未得到探索。
为了弥合这一差距,来自上海交通大学、上海人工智能实验室、香港中文大学的研究团队及其合作者提出了 PhyGenBench,这是一个综合物理生成基准,旨在评估 T2V 生成的物理常识正确性。PhyGenBench 包括 160 个精心制作的提示,涉及 27 个不同的物理定律,横跨四个基本领域,可以全面评估模型对物理常识的理解。
除了 PhyGenBench,他们还提出了一个名为 PhyGenEval 的新型评估框架。该框架采用分层评估结构,利用适当的高级视觉语言模型(VLM)和大语言模型(LLM)来评估物理常识。通过 PhyGenBench 和 PhyGenEval,可以对 T2V 模型对物理常识的理解进行大规模的自动评估,这与人类的反馈密切相关。
评估结果和深入分析表明,目前的模型很难生成符合物理常识的视频。此外,仅仅扩大模型规模或采用提示工程技术还不足以完全应对 PhyGenBench 带来的挑战(如动态场景)。
论文链接:
https://arxiv.org/abs/2410.05363
项目地址:
https://phygenbench123.github.io/
北大、微软团队:利用合成偏好数据自提升大语言模型
大语言模型(LLM)通过与人类偏好相对齐,在生成诚实、无害和有益的回应方面取得了显著进步。然而,收集高质量的偏好数据是一个资源密集型和需要创造力的过程,尤其是对 LLM 的持续改进而言。
来自北京大学和微软的研究团队提出了 SynPO,这是一种利用合成偏好数据进行模型对齐的自我提升范例。SynPO 采用一种迭代机制,由自我提示生成器创建各种提示,由响应改进器逐步完善模型响应。这种方法可以训练 LLM 自主学习其自身输出的生成奖励,而无需对提示和人类偏好进行大规模标注。
经过四次 SynPO 迭代,Llama3-8B 和 Mistral-7B 在指令跟随能力方面有了显著提高,在 AlpacaEval 2.0 和 ArenaHard 上的胜率提高了 22.1%。与此同时,SynPO 还提高了 LLM 在各种任务中的总体性能,在公认的开放式 LLM 排行榜上,平均得分提高了 3.2 到 5.0 分,证明了这一点。
论文链接:
https://arxiv.org/abs/2410.06961
苹果推出多模态大语言模型 MM-Ego
本研究旨在全面探索建立以自我为中心的视频理解的多模态基础模型。为实现这一目标,来自苹果、香港科技大学和加州大学洛杉矶分校的研究团队从三个方面开展工作。
首先,由于缺乏用于自我中心视频理解的问答(QA)数据,他们开发了一个数据引擎,它能根据人类标注的数据,高效地生成 7M 个高质量的自我中心视频 QA 样本,样本长度从 30 秒到 1 小时不等。这是目前最大的以自我为中心的 QA 数据集。
其次,他们提供了一个具有挑战性的以自我为中心的 QA 基准,其中包含 629 个视频和 7026 个问题,用于评估模型在不同长度视频中识别和记忆视觉细节的能力。他们提出了一种新的去偏差评估方法,以帮助减轻被评估模型中不可避免的语言偏差。
第三,他们提出了一种专门的多模态架构,具有新颖的'内存指针提示'机制。这一设计包括一个全局一瞥步骤,以获得对整个视频的总体理解并识别关键视觉信息,然后是一个后退步骤,利用关键视觉信息生成响应。这使模型能够更有效地理解扩展视频内容。
有了这些数据、基准和模型,他们成功地建立了以自我为中心的多模态大语言模型 MM-Ego,它在以自我为中心的视频理解方面表现出了强大的性能。
论文链接:
https://arxiv.org/abs/2410.07177
Mistral AI 发布 Pixtral-12B 技术报告
Mistral AI 推出了 Pixtral-12B,这是一个 120 亿参数的多模态语言模型。经过训练,Pixtral-12B 既能理解自然图像,也能理解文档,在各种多模态基准测试中取得了领先的性能,超越了许多大模型。
与许多开源模型不同的是,Pixtral 也是同类产品中的先进文本模型,并且不会因为在多模态任务中表现出色而降低自然语言性能。Pixtral 使用从零开始训练的全新视觉编码器,可按自然分辨率和长宽比摄取图像。这样,用户就能灵活处理图像中使用的 token 数量。Pixtral 还能在 128K token 的长上下文窗口中处理任意数量的图像。
Pixtral 12B 的性能大大优于其他类似大小的开放模型(Llama-3.2 11B 和 Qwen-2-VL 7B)。它还优于 Llama-3.2 90B 等更大的开放模型,但体积却小了 7 倍。他们还贡献了一个开源基准——MM-MT-Bench,用于评估实际场景中的视觉语言模型,并为多模态 LLM 的标准化评估协议提供了详细的分析和代码。
论文链接:
https://arxiv.org/abs/2410.07073
加州大学团队提出'多模态情境安全'挑战
多模态大语言模型(MLLM)发展迅速,作为与人类及其环境互动的多模态助手,其能力令人印象深刻。然而,这种复杂性的提高带来了重大的安全问题。
在这项工作中,加州大学团队首次评估和分析了一个被称为'多模态情境安全'(Multimodal Situational Safety)的新型安全挑战,探讨了安全考虑因素如何根据用户或智能体所处的特定情境而变化。他们认为,无论是通过语言还是行动,MLLM 要想做出安全响应,通常需要在相应的视觉环境中评估语言查询的安全影响。
为了评估这种能力,他们开发了多模态情景安全基准(MSSBench)来评估当前 MLLM 的情景安全性能。该数据集包括 1820 个语言查询 - 图像对,其中一半的图像上下文是安全的,另一半是不安全的。他们还开发了一个评估框架,用于分析关键的安全方面,包括明确的安全推理、视觉理解,以及至关重要的情景安全推理。
研究结果表明,目前的 MLLM 在指令跟随设置中很难解决这种细微的安全问题,也很难同时应对这些情景安全挑战,这凸显了未来研究的一个关键领域。此外,他们还开发了多智能体管道来协调解决安全挑战,与最初的 MLLM 应对方法相比,其安全性得到了持续改善。
论文链接:
https://arxiv.org/abs/2410.06172
项目地址:
https://mssbench.github.io/
Llamole:首个可交错生成文本和图形的 MLLM
虽然大语言模型(LLM)已经集成了图像,但将其适用于图形仍然具有挑战性,这限制了它们在材料和药物设计中的应用。这一困难源于需要在文本和图形之间进行连贯的自回归生成。
为了解决这个问题,来自圣母大学、麻省理工学院的研究团队及其合作者推出了 Llamole,它是首个能够交错生成文本和图形的多模态 LLM,实现了具有逆合成规划的分子逆向设计。Llamole 将基础 LLM 与图形扩散 Transformer 和图形神经网络集成在一起,用于文本中的多条件分子生成和反应推断,而 LLM 则通过增强分子理解能力,灵活控制不同图形模块之间的激活。此外,Llamole 还将 A* 搜索与基于 LLM 的成本函数相结合,实现了高效的逆合成规划。
他们创建了基准数据集,并进行了广泛的实验,以评估 Llamole 与上下文学习和监督微调之间的差异。在可控分子设计和逆向合成规划的 12 项指标上,Llamole 明显优于 14 种微调后的 LLM。
论文链接:
https://arxiv.org/abs/2410.04223