1. Google DeepMind 新研究:当 Transformer 遇见神经算法推理器
Transformer 以其简单而有效的架构彻底改变了机器学习。在互联网的海量文本数据集上预先训练 Transformer,为自然语言理解(NLU)任务带来了强大的泛化能力。然而,在执行算法形式的推理任务时,这种语言模型仍然很脆弱,计算必须精确而鲁棒。
为了解决这一局限性,来自 Google DeepMind 的研究团队提出了一种新方法,将 Transformer 的语言理解能力与基于图神经网络(GNN)的神经算法推理器(NARs)的鲁棒性结合起来。事实证明,当以图谱的形式指定时,这种 NARs 可以有效地作为算法任务的通用求解器。为了让 Transformer 可以访问它们的嵌入,他们提出了一种具有两阶段训练程序的混合架构,允许语言模型中的 token 与 NAR 中的节点嵌入交叉关注。他们在 CLRS-Text 模型(CLRS-30 基准的文本版本)上评估了产生的 TransNAR 模型,结果表明,在算法推理方面,无论是在发布中还是发布外,这一模型都比纯 Transformer 模型有显著提高。
论文链接:https://arxiv.org/abs/2406.09308
2. 清华团队推出 DiTFastAttn:解决 DiT 推理三大关键冗余
扩散 Transformer(DiT)在图像和视频生成方面表现出色,但由于自注意力的二次方复杂性而面临计算挑战。
为此,来自清华大学、Infinigence AI、卡内基梅隆大学、上海交通大学的研究团队提出了一种新型后训练压缩方法——DiTFastAttn。他们确定了 DiT 推理过程中注意力计算的三个关键冗余:1)空间冗余,即许多注意力集中在局部信息上;2)时间冗余,即相邻步骤的注意力输出之间具有高度相似性;3)条件冗余,即有条件推论和无条件推论表现出明显的相似性。为了解决这些冗余问题,他们提出了三种技术:1)利用残余缓存的窗口关注来减少空间冗余;2)利用步骤间的相似性实现时间相似性还原;3. 条件冗余消除,在条件生成过程中跳过冗余计算。
为了证明 DiTFastAttn 的有效性,他们将其应用于 DiT、PixArt-Sigma(图像生成任务)和 OpenSora(视频生成任务)。评估结果表明,对于图像生成,这一方法最多可减少 88% 的 FLOPs,并在高分辨率生成时实现高达 1.6 倍的速度提升。
论文链接:https://arxiv.org/abs/2406.08552
3. 斯坦福团队推出开源视觉 - 语言 - 动作模型 OpenVLA
结合互联网规模的视觉语言数据和各种机器人演示进行预训练的大型策略,有可能改变我们教授机器人新技能的方式:我们可以微调这种视觉 - 语言 - 动作(VLA)模型,从而获得鲁棒、通用的视觉运动控制策略,而不是从头开始训练新的行为。然而,将视觉 - 语言 - 动作模型广泛应用于机器人技术一直是个挑战,因为:1)现有的视觉 - 语言 - 动作模型大多是封闭的,公众无法访问;2)先前的工作未能探索针对新任务有效微调视觉 - 语言 - 动作模型的方法,而微调是采用视觉 - 语言 - 动作模型的关键要素。
为了应对这些挑战,来自斯坦福的研究团队及其合作者推出了一个具有 7B 参数的开源 VLA——OpenVLA,其在 97 万真实世界机器人演示的不同集合上进行了训练。OpenVLA 基于 Llama 2 语言模型和视觉编码器,后者融合了 DINOv2 和 SigLIP 的预训练特征。作为新增数据多样性和新模型组件的产物,OpenVLA 在通用操作方面取得了优异成绩,在 29 个任务和多个机器人示例中,OpenVLA 的绝对任务成功率比 RT-2-X(55B)等封闭模型高出 16.5%,而参数却减少到 1/7。
他们还进一步证明,可以针对新的环境对 OpenVLA 进行有效的微调,在涉及多个对象和强大语言基础能力的多任务环境中,OpenVLA 的泛化效果很好,比 Diffusion Policy 等从头开始模仿学习方法高出 20.4%。
他们还探索了计算效率;他们展示了 OpenVLA 可以通过低阶适应方法在消费级 GPU 上进行微调,并通过量化高效地提供服务,而不会影响下游成功率。最后,他们发布了模型检查点、微调笔记本,以及 PyTorch 代码库,该代码库内置支持在 Open X-Embodiment 数据集上大规模训练 VLA。
论文链接:https://arxiv.org/abs/2406.09246 项目地址:https://openvla.github.io/
4. 港大、TikTok 推出 Depth Anything V2
在这项工作中,来自香港大学和 TikTok 的研究团队提出了 Depth Anything V2。与 V1 相比,V2 通过三个关键实践,产生了更精细、更鲁棒的深度预测:1)用合成图像替换所有标注的真实图像;2)扩大教师模型的容量;3)通过大规模伪标注真实图像的桥梁教授学生模型。与建立在 Stable Diffusion 基础上的模型相比,Depth Anything V2 明显更高效(快 10 倍以上)、更准确。


