1. 文继荣团队:通过主动检索进行渐进式多模态推理
多步骤多模态推理任务给多模态大语言模型(MLLM)带来了巨大的挑战,而如何找到有效的方法来提高这些模型在此类场景中的性能仍然是一个难题。
在这项工作中,文继荣教授团队提出了一个通用框架 AR-MCTS,旨在通过主动检索(AR)和蒙特卡洛树搜索(MCTS)逐步提高 MLLM 的推理能力。该方法首先是开发一个统一的检索模块,从混合模式检索语料库中检索解决复杂推理问题的关键支持性见解。为了缩小自动多模态推理验证方面的差距,他们采用了 MCTS 算法与主动检索机制相结合的方法,从而能够自动生成分步注释。该策略可动态检索每个推理步骤的关键见解,超越了传统的波束搜索采样,提高了推理空间的多样性和可靠性。
此外,他们还提出了一个过程奖励模型,通过逐步对齐来支持多模态推理任务的自动验证。三个复杂多模态推理基准的实验结果证实了 AR-MCTS 框架在提高各种多模态模型性能方面的有效性。进一步的分析表明,AR-MCTS 可以优化采样多样性和准确性,从而产生可靠的多模态推理。
论文链接: https://arxiv.org/abs/2412.14835
2. 清华、智谱团队提出 LongBench v2:LLM 的长文本理解和推理评估
在这项工作中,来自清华大学和智谱的研究团队提出了 LongBench v2,这是一项旨在评估大语言模型(LLM)处理长上下文问题能力的基准测试,这些问题需要在现实世界的多重任务中进行深入理解和推理。
LongBench v2 由 503 道具有挑战性的选择题组成,上下文字数从 8k 到 2M 不等,涉及六大任务类别:单文档问答、多文档问答、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解。为了确保数据的广泛性和实用性,他们从近 100 名具有不同专业背景的高学历人员那里收集数据。为了保证数据的高质量和高难度,他们同时采用了自动和人工审核流程,在 15 分钟的时间限制内,人类专家的准确率仅为 53.7%。
评估显示,即使是表现最好的模型,在直接回答问题时的准确率也仅为 50.1%。相比之下,包含长推理的 o1-preview 模型达到了 57.7%,比人类基线高出 4%。这些结果凸显了增强推理能力和扩大推理时计算的重要性,以应对 LongBench v2 中的长上下文挑战。
论文链接: https://arxiv.org/abs/2412.15204 项目地址: https://longbench2.github.io/
3. 哈佛团队提出掩码感知双扩散模型 MADD
作为一种常见的图像编辑操作,图像合成涉及将前景物体整合到背景场景中。
在这项工作中,来自哈佛大学的研究团队及其合作者将'Affordance'概念的应用从以人为本的图像合成任务扩展到更广泛的对象 - 场景合成框架,以解决前景对象与背景场景之间复杂的相互作用。根据 Affordance 原则,他们定义了 affordance-aware object insertion 任务,旨在通过各种位置提示将任何对象无缝插入任何场景中。为了解决数据有限的问题并将这项任务纳入其中,他们构建了 SAM-FB 数据集,其中包含 3000 多个对象类别的 300 多万个示例。此外,他们还提出了掩码感知双扩散(MADD)模型,该模型利用双流架构同时对 RGB 图像和插入掩码进行去噪。通过在扩散过程中对插入掩码进行明确建模,MADD 有效地促进了 Affordance 概念的实现。
广泛的实验结果表明,这一方法优于其他 SOTA 方法,并且在真实世界图像上表现出很强的泛化性能。
论文链接: https://arxiv.org/abs/2412.14462 GitHub 地址: https://github.com/KaKituken/affordance-aware-any
4. 英伟达团队推出 AceMath:通过后训练和奖励建模提升数学推理
在这项工作中,英伟达团队推出了 AceMath,这是一套能够出色解决复杂数学问题的前沿数学模型,以及能够评估生成的解决方案并可靠地识别正确解决方案的高效奖励模型。
为了开发经过指令微调的数学模型,他们提出了一个有监督微调(SFT)过程,首先在一般领域实现有竞争力的性能,然后使用精心策划的提示集和合成生成的响应,对数学领域进行有针对性的微调。由此产生的 AceMath-72B-Instruct 模型优于 Qwen2.5-Math-72B-Instruct、GPT-4o 和 Claude-3.5 Sonnet。为了开发数学专用奖励模型,他们首先构建了一个全面切鲁棒的基准 AceMath-RewardBench,用于评估不同问题和难度级别的数学奖励模型。他们还提出了一种建立数学奖励模型的系统方法。由此产生的模型 AceMath-72B-RM 优于 SOTA 奖励模型。


