7 篇值得关注的大模型领域最新论文

本文汇总了七篇大模型领域的最新研究论文。包括加州大学推出的罕见病诊断模型 Zebra-Llama，智谱与清华团队开发的 GUI 自主智能体 AutoGLM，百图生科与清华关于蛋白质语言模型训练优化的研究，智谱与北大团队提出的文生 3D 模型 DreamPolish，腾讯开源的 389B 参数 Hunyuan-Large 混合专家模型，华盛顿大学提出的约束扩散隐含模型 CDIM，以及伊利诺伊大学香槟分校发布的物理逼真视频编辑框架 AutoVFX。这些成果涵盖了医疗、自动化控制、生物计算、3D 生成、大模型架构及视觉特效等多个方向，展示了当前人工智能技术在垂直领域应用与基础模型能力上的进展。

追风少年发布于 2025/2/7更新于 2026/4/180 浏览

1. 加州大学团队推出'罕见病'大模型 Zebra-Llama

罕见病为医疗保健带来了独特的挑战，通常会出现诊断延迟和信息分散的情况。这些疾病的可靠知识稀缺，给大语言模型（LLM）在支持临床管理和提供精确的患者信息方面带来了独特的挑战，强调了对这些'zebra'病例进行重点训练的必要性。

来自加州大学旧金山分校的研究团队及其合作者推出了 Zebra-Llama，这是一种具有高精度检索增强生成（RAG）能力的专有上下文感知语言模型，以 Ehlers-Danlos 综合症（EDS）为研究案例。每 5000 人中就有 1 人患有 EDS，该病症状多样，有多种亚型，诊断标准不断变化，是罕见病复杂性的典型代表。Zebra-Llama 采用了一种新颖的上下文感知微调方法，根据从医学文献、患者经验和临床资源中获得的问题以及专家精心策划的回答进行训练，在处理 EDS 相关查询方面展现了优异的能力。

在一组从 EDS 患者和临床医生处收集的实际问题测试中，医学专家对两种模型生成的回复进行了评估，结果显示 Zebra-Llama 在全面性（77.5% 对 70.1%）、准确性（83.0% 对 78.8%）、清晰性（74.7% 对 72.0%）和引用可靠性（70.6% 对 52.3%）方面都比基础模型（Llama 3.1-8B-Instruct）有大幅提高。Zebra-Llama 作为开源资源发布，不仅提供了更易于获取和更可靠的 EDS 信息，还为开发其他罕见病症的专门人工智能解决方案建立了框架。这项工作是实现罕见病管理专家级知识普及的关键一步，有可能改变医疗服务提供者和患者应对复杂罕见病的方式。

论文链接： https://arxiv.org/abs/2411.02657

2. 智谱、清华团队推出 AutoGLM：用于 GUI 的自主基础智能体

虽然基础模型在获取人类知识方面表现出色，但它们在动态现实环境中的决策制定方面却往往举步维艰，从而限制了它们在通用人工智能方面的发展。这种局限性凸显了通过强化现有模型来开发能够通过自主环境交互进行学习的基础智能体的重要性。

来自智谱和清华大学的研究团队推出了 ChatGLM 模型系列中的一个新系列 AutoGLM，该系列旨在作为基础智能体，通过图形用户界面 (GUI) 实现对数字设备的自主控制。

他们基于以 Web 浏览器和手机为代表的图形用户界面场景开发了 AutoGLM，作为现实世界图形用户界面交互的实用基础智能体系统。他们的方法集成了一整套技术和基础设施，以创建适合用户交付的可部署智能体系统。通过这次开发，他们获得了两个重要启示：首先，为图形用户界面控制设计一个适当的'中间界面'至关重要，它可以将规划和接地行为分离开来，而规划和接地行为分别需要对灵活性和准确性进行不同的优化。其次，他们开发了一个新颖的渐进式训练框架，使 AutoGLM 能够进行自进化式在线课程强化学习。

他们的评估证明了 AutoGLM 在多个领域的有效性。在网页浏览方面，AutoGLM 在 VAB-WebArena-Lite 上取得了 55.2% 的成功率（第二次尝试后成功率提高到 59.1%），在 OpenTable 评估任务中取得了 96.2% 的成功率。在 Android 设备控制方面，AutoGLM 在 AndroidLab（VAB-Mobile）上的成功率为 36.2%，在流行 APP 的常见任务上的成功率为 89.7%。

论文链接： https://arxiv.org/abs/2411.00820

3. 百图生科、清华团队：蛋白质语言模型的计算优化训练

来自百图生科和清华大学的研究团队探讨了如何优化蛋白质语言模型的训练，这是生物研究中的一个重要领域，但最佳实践的指导却很有限。大多数模型都是在使用大量计算资源的情况下进行训练的，直到性能收益趋于稳定为止，主要集中在增加模型大小，而不是优化平衡性能和计算预算的高效计算前沿。

他们的研究基于一个由 9.39 亿个蛋白质序列组成的海量数据集。他们训练了 300 多个模型，这些模型的参数从 350 万到 107 亿个不等，包含 50 亿到 2000 亿个独特的 token，以研究模型大小、训练 token 数量和目标之间的关系。

首先，在重复使用常用的 Uniref 数据库时，他们观察到因果语言模型（CLM）的收益递减效应和掩码语言模型（MLM）的过度拟合效应。为此，他们在训练集中加入了元基因组蛋白质序列，以增加多样性，避免过拟合效应。其次，他们根据蛋白质序列数据的具体特点，在 Transformer 上获得了 CLM 和 MLM 的缩放规律。第三，他们观察到了从 CLM 到 MLM 的转移缩放现象，通过基于估算的有效转移 token 的缩放行为进一步证明了转移的有效性。最后，为了验证他们的缩放规律，他们比较了大规模版本的 ESM-2 和 PROGEN2 在下游任务上的表现，包括对蛋白质生成以及结构和功能相关任务的评估，所有这些任务的训练前计算预算都较少或相当。

论文链接： https://arxiv.org/abs/2411.02142 GitHub 地址： https://github.com/cxysteven/ScalingProteinLM

7 篇值得关注的大模型领域最新论文

1. 加州大学团队推出'罕见病'大模型 Zebra-Llama

2. 智谱、清华团队推出 AutoGLM：用于 GUI 的自主基础智能体

3. 百图生科、清华团队：蛋白质语言模型的计算优化训练

更多推荐文章

相关免费在线工具

4. 智谱、北大团队推出文生 3D 模型 DreamPolish

5. 腾讯开源 389B MoE 模型 Hunyuan-Large

6. 华盛顿大学团队推出约束扩散隐含模型

7. AutoVFX：根据自然语言指令进行物理逼真的视频编辑

7 篇值得关注的大模型领域最新论文

1. 加州大学团队推出'罕见病'大模型 Zebra-Llama

2. 智谱、清华团队推出 AutoGLM：用于 GUI 的自主基础智能体

3. 百图生科、清华团队：蛋白质语言模型的计算优化训练

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

4. 智谱、北大团队推出文生 3D 模型 DreamPolish

5. 腾讯开源 389B MoE 模型 Hunyuan-Large

6. 华盛顿大学团队推出约束扩散隐含模型

7. AutoVFX：根据自然语言指令进行物理逼真的视频编辑