9 篇大模型前沿论文精选：OpenELM、FlashSpeech 与 SnapKV 等

汇总 9 篇大模型领域最新研究论文。涵盖苹果 OpenELM 分层缩放策略、Google DeepMind 说服型 AI 危害减轻、港科大 FlashSpeech 高效语音合成、Twelve Labs Pegasus-v1 多模态视频理解、SnapKV KV 缓存优化、清华化学知识提示工程、微软 MH-MoE 专家混合架构、英伟达扩散模型采样优化 Align Your Steps 以及中科大 ID-Animator 零样本视频生成。涉及模型效率、多模态交互、安全对齐及特定领域应用，为技术选型与科研方向提供参考。

橘子海发布于 2025/2/7更新于 2026/4/180 浏览

1. 苹果推出开放语言模型 OpenELM

大型语言模型（LLMs）的可重复性和透明度，对于推进开放研究、确保结果的可信性，以及对数据和模型偏差以及潜在风险进行调查，至关重要。

苹果研究团队推出了一种先进的开放语言模型 OpenELM。OpenELM 使用分层缩放策略，在 transformer 模型的每一层中有效地分配参数，从而提高了准确性。例如，在参数预算约为 10 亿的情况下，OpenELM 的准确率比 OLMo 提高了 2.36%，而所需的预训练 token 却减少了 2 倍。

与之前只提供模型权重、推理代码以及在私有数据集上进行预训练的做法不同，OpenELM 包含了在公共可用数据集上对语言模型进行训练和评估的完整框架，包括训练日志、多个检查点和预训练配置。

此外，他们还发布了将模型转换为 MLX 库的代码，从而在苹果设备上进行推理和微调。

论文链接： https://arxiv.org/abs/2404.14619 GitHub 地址： https://github.com/apple/corenet

2. Google DeepMind 新研究：减轻说服型生成式 AI 的危害

最近，生成式人工智能（AI）系统已经显示出更先进的说服能力，并逐渐渗透到可以影响决策的生活领域。

然而，由于互惠交换和长时间互动的机会，生成式 AI 呈现了一种新的说服风险。这导致人们越来越关注说服型生成式 AI 的危害，以及如何减轻这些危害，从而突出了对说服型生成式 AI 进行系统研究的必要性。目前说服型生成式 AI 的定义不明确，相关的危害也没有得到充分的研究。现有的减轻危害的方法优先考虑说服结果带来的危害，而不是说服过程带来的危害。

在这项研究中，Google DeepMind 团队及其合作者提出了说服型生成式 AI 的定义，并区分了理性说服型生成式 AI 和操纵型生成式 AI（manipulative generative AI），前者依赖于提供相关事实、合理推理或其他形式的可信证据，后者则依赖于利用认知偏差和启发式方法或歪曲信息。

他们还提出了说服型生成式 AI 的危害，包括经济、物理、环境、心理、社会文化、政治、隐私的定义和例子。然后，他们提出了一幅导致说服危害的机制图，概述了可用于减轻说服过程危害的方法，包括操纵分类的提示工程和红队。他们未来的工作将使这些缓解措施具有可操作性，并研究不同类型说服机制之间的相互作用。

论文链接： https://arxiv.org/abs/2404.15058

3. 港科大提出 FlashSpeech：高效零样本语音合成

目前，语言模型和扩散模型在大规模零样本语音合成方面取得了显著进展。

然而，这两种方法的生成过程都很慢且计算量很大。使用较低的计算预算进行高效语音合成，达到与之前工作相当的质量，仍然是一个重大挑战。

来自香港科技大学的研究团队及其合作者，提出了一个大规模的零样本语音合成系统——FlashSpeech，与以前的工作相比，它的推理时间大约减少了 5%。FlashSpeech 建立在潜在一致性模型的基础上，并应用了一种新的对抗一致性训练方法，无需预先训练的扩散模型作为'教师'，即可从头开始训练。此外，新的韵律生成器模块增强了韵律的多样性，使语音的节奏听起来更加自然。

FlashSpeech 的生成过程可以通过一个或两个采样步骤高效地完成，同时保持高音频质量和与零样本语音生成音频提示的高相似性。实验结果证明 FlashSpeech 达到了 SOTA。值得注意的是，FlashSpeech 可以比其他零样本语音合成系统快 20 倍，同时在语音质量和相似性方面保持相当的性能。此外，FlashSpeech 通过有效地执行语音转换、语音编辑和多样化的语音采样等任务展示了其通用性。

论文链接： https://arxiv.org/abs/2404.14700 GitHub 地址： https://flashspeech.github.io/

4. 多模态语言模型 Pegasus-v1 技术报告

Twelve Labs 团队推出了一种多模态语言模型 Pegasus-1，专门用于通过自然语言理解视频内容和进行交互。

Pegasus-1 的设计目的是应对视频数据带来的独特挑战，如解读时空信息，从而提供不同长度的细微视频内容理解。该技术报告概述了 Pegasus-1 的架构、训练策略及其在视频对话、零样本视频问题解答和视频摘要等基准测试中的表现。他们还探讨了 Pegasus-1 的定性特征，展示了它的能力和局限性。

论文链接：

9 篇大模型前沿论文精选：OpenELM、FlashSpeech 与 SnapKV 等

1. 苹果推出开放语言模型 OpenELM

2. Google DeepMind 新研究：减轻说服型生成式 AI 的危害

3. 港科大提出 FlashSpeech：高效零样本语音合成

4. 多模态语言模型 Pegasus-v1 技术报告

更多推荐文章

相关免费在线工具

5. SnapKV：免微调，将 KV 缓存的大小降到最低

6. 清华团队新研究：通过提示工程在 LLM 中整合化学知识

7. 微软、清华团队提出多头混合专家 MH-MoE

8. 英伟达提出扩散模型采样新方法 Align Your Steps

9. ID-Animator：零样本身份保持人类视频生成器

9 篇大模型前沿论文精选：OpenELM、FlashSpeech 与 SnapKV 等

1. 苹果推出开放语言模型 OpenELM

2. Google DeepMind 新研究：减轻说服型生成式 AI 的危害

3. 港科大提出 FlashSpeech：高效零样本语音合成

4. 多模态语言模型 Pegasus-v1 技术报告

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5. SnapKV：免微调，将 KV 缓存的大小降到最低

6. 清华团队新研究：通过提示工程在 LLM 中整合化学知识

7. 微软、清华团队提出多头混合专家 MH-MoE

8. 英伟达提出扩散模型采样新方法 Align Your Steps

9. ID-Animator：零样本身份保持人类视频生成器