今日必读：8 篇大模型前沿论文解读

本文汇总了 8 篇大模型领域最新研究论文。包括 Google DeepMind 提出的结合 Transformer 与神经算法推理器的 TransNAR 架构；清华团队针对扩散 Transformer 提出的 DiTFastAttn 压缩方法；斯坦福开源的视觉 - 语言 - 动作模型 OpenVLA；港大与 TikTok 推出的 Depth Anything V2 深度预测模型；英伟达发布的 HelpSteer2 奖励模型数据集；谷歌的时间推理评估数据集；微软的混合状态空间模型 Samba；以及南洋理工和腾讯的多模态图像生成模型 EMMA。内容涵盖推理优化、模型压缩、机器人控制、多模态生成及评估基准等方向。

禅心发布于 2025/2/7更新于 2026/4/180 浏览

1. Google DeepMind 新研究：当 Transformer 遇见神经算法推理器

Transformer 以其简单而有效的架构彻底改变了机器学习。在互联网的海量文本数据集上预先训练 Transformer，为自然语言理解（NLU）任务带来了强大的泛化能力。然而，在执行算法形式的推理任务时，这种语言模型仍然很脆弱，计算必须精确而鲁棒。

为了解决这一局限性，来自 Google DeepMind 的研究团队提出了一种新方法，将 Transformer 的语言理解能力与基于图神经网络（GNN）的神经算法推理器（NARs）的鲁棒性结合起来。事实证明，当以图谱的形式指定时，这种 NARs 可以有效地作为算法任务的通用求解器。为了让 Transformer 可以访问它们的嵌入，他们提出了一种具有两阶段训练程序的混合架构，允许语言模型中的 token 与 NAR 中的节点嵌入交叉关注。他们在 CLRS-Text 模型（CLRS-30 基准的文本版本）上评估了产生的 TransNAR 模型，结果表明，在算法推理方面，无论是在发布中还是发布外，这一模型都比纯 Transformer 模型有显著提高。

论文链接：https://arxiv.org/abs/2406.09308

2. 清华团队推出 DiTFastAttn：解决 DiT 推理三大关键冗余

扩散 Transformer（DiT）在图像和视频生成方面表现出色，但由于自注意力的二次方复杂性而面临计算挑战。

为此，来自清华大学、Infinigence AI、卡内基梅隆大学、上海交通大学的研究团队提出了一种新型后训练压缩方法——DiTFastAttn。他们确定了 DiT 推理过程中注意力计算的三个关键冗余：1）空间冗余，即许多注意力集中在局部信息上；2）时间冗余，即相邻步骤的注意力输出之间具有高度相似性；3）条件冗余，即有条件推论和无条件推论表现出明显的相似性。为了解决这些冗余问题，他们提出了三种技术：1）利用残余缓存的窗口关注来减少空间冗余；2）利用步骤间的相似性实现时间相似性还原；3. 条件冗余消除，在条件生成过程中跳过冗余计算。

为了证明 DiTFastAttn 的有效性，他们将其应用于 DiT、PixArt-Sigma（图像生成任务）和 OpenSora（视频生成任务）。评估结果表明，对于图像生成，这一方法最多可减少 88% 的 FLOPs，并在高分辨率生成时实现高达 1.6 倍的速度提升。

论文链接：https://arxiv.org/abs/2406.08552

3. 斯坦福团队推出开源视觉 - 语言 - 动作模型 OpenVLA

结合互联网规模的视觉语言数据和各种机器人演示进行预训练的大型策略，有可能改变我们教授机器人新技能的方式：我们可以微调这种视觉 - 语言 - 动作（VLA）模型，从而获得鲁棒、通用的视觉运动控制策略，而不是从头开始训练新的行为。然而，将视觉 - 语言 - 动作模型广泛应用于机器人技术一直是个挑战，因为：1）现有的视觉 - 语言 - 动作模型大多是封闭的，公众无法访问；2）先前的工作未能探索针对新任务有效微调视觉 - 语言 - 动作模型的方法，而微调是采用视觉 - 语言 - 动作模型的关键要素。

为了应对这些挑战，来自斯坦福的研究团队及其合作者推出了一个具有 7B 参数的开源 VLA——OpenVLA，其在 97 万真实世界机器人演示的不同集合上进行了训练。OpenVLA 基于 Llama 2 语言模型和视觉编码器，后者融合了 DINOv2 和 SigLIP 的预训练特征。作为新增数据多样性和新模型组件的产物，OpenVLA 在通用操作方面取得了优异成绩，在 29 个任务和多个机器人示例中，OpenVLA 的绝对任务成功率比 RT-2-X（55B）等封闭模型高出 16.5%，而参数却减少到 1/7。

他们还进一步证明，可以针对新的环境对 OpenVLA 进行有效的微调，在涉及多个对象和强大语言基础能力的多任务环境中，OpenVLA 的泛化效果很好，比 Diffusion Policy 等从头开始模仿学习方法高出 20.4%。

他们还探索了计算效率；他们展示了 OpenVLA 可以通过低阶适应方法在消费级 GPU 上进行微调，并通过量化高效地提供服务，而不会影响下游成功率。最后，他们发布了模型检查点、微调笔记本，以及 PyTorch 代码库，该代码库内置支持在 Open X-Embodiment 数据集上大规模训练 VLA。

论文链接：https://arxiv.org/abs/2406.09246 项目地址：https://openvla.github.io/

4. 港大、TikTok 推出 Depth Anything V2

在这项工作中，来自香港大学和 TikTok 的研究团队提出了 Depth Anything V2。与 V1 相比，V2 通过三个关键实践，产生了更精细、更鲁棒的深度预测：1）用合成图像替换所有标注的真实图像；2）扩大教师模型的容量；3）通过大规模伪标注真实图像的桥梁教授学生模型。与建立在 Stable Diffusion 基础上的模型相比，Depth Anything V2 明显更高效（快 10 倍以上）、更准确。

今日必读：8 篇大模型前沿论文解读

1. Google DeepMind 新研究：当 Transformer 遇见神经算法推理器

2. 清华团队推出 DiTFastAttn：解决 DiT 推理三大关键冗余

3. 斯坦福团队推出开源视觉 - 语言 - 动作模型 OpenVLA

4. 港大、TikTok 推出 Depth Anything V2

更多推荐文章

相关免费在线工具

5. 英伟达推出 HelpSteer2：用于训练更好奖励模型的开源数据集

6. 谷歌推出 LLM 时间推理能力评估数据集

7. 微软新研究：用于高效无限上下文语言建模的简单混合状态空间模型

8. EMMA：让图像生成模型接受多模态提示

今日必读：8 篇大模型前沿论文解读

1. Google DeepMind 新研究：当 Transformer 遇见神经算法推理器

2. 清华团队推出 DiTFastAttn：解决 DiT 推理三大关键冗余

3. 斯坦福团队推出开源视觉 - 语言 - 动作模型 OpenVLA

4. 港大、TikTok 推出 Depth Anything V2

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. 英伟达推出 HelpSteer2：用于训练更好奖励模型的开源数据集

6. 谷歌推出 LLM 时间推理能力评估数据集

7. 微软新研究：用于高效无限上下文语言建模的简单混合状态空间模型

8. EMMA：让图像生成模型接受多模态提示