1. 苹果推出开放语言模型 OpenELM
大型语言模型(LLMs)的可重复性和透明度,对于推进开放研究、确保结果的可信性,以及对数据和模型偏差以及潜在风险进行调查,至关重要。
苹果研究团队推出了一种先进的开放语言模型 OpenELM。OpenELM 使用分层缩放策略,在 transformer 模型的每一层中有效地分配参数,从而提高了准确性。例如,在参数预算约为 10 亿的情况下,OpenELM 的准确率比 OLMo 提高了 2.36%,而所需的预训练 token 却减少了 2 倍。
与之前只提供模型权重、推理代码以及在私有数据集上进行预训练的做法不同,OpenELM 包含了在公共可用数据集上对语言模型进行训练和评估的完整框架,包括训练日志、多个检查点和预训练配置。
此外,他们还发布了将模型转换为 MLX 库的代码,从而在苹果设备上进行推理和微调。
论文链接: https://arxiv.org/abs/2404.14619 GitHub 地址: https://github.com/apple/corenet
2. Google DeepMind 新研究:减轻说服型生成式 AI 的危害
最近,生成式人工智能(AI)系统已经显示出更先进的说服能力,并逐渐渗透到可以影响决策的生活领域。
然而,由于互惠交换和长时间互动的机会,生成式 AI 呈现了一种新的说服风险。这导致人们越来越关注说服型生成式 AI 的危害,以及如何减轻这些危害,从而突出了对说服型生成式 AI 进行系统研究的必要性。目前说服型生成式 AI 的定义不明确,相关的危害也没有得到充分的研究。现有的减轻危害的方法优先考虑说服结果带来的危害,而不是说服过程带来的危害。
在这项研究中,Google DeepMind 团队及其合作者提出了说服型生成式 AI 的定义,并区分了理性说服型生成式 AI 和操纵型生成式 AI(manipulative generative AI),前者依赖于提供相关事实、合理推理或其他形式的可信证据,后者则依赖于利用认知偏差和启发式方法或歪曲信息。
他们还提出了说服型生成式 AI 的危害,包括经济、物理、环境、心理、社会文化、政治、隐私的定义和例子。然后,他们提出了一幅导致说服危害的机制图,概述了可用于减轻说服过程危害的方法,包括操纵分类的提示工程和红队。他们未来的工作将使这些缓解措施具有可操作性,并研究不同类型说服机制之间的相互作用。
论文链接: https://arxiv.org/abs/2404.15058
3. 港科大提出 FlashSpeech:高效零样本语音合成
目前,语言模型和扩散模型在大规模零样本语音合成方面取得了显著进展。
然而,这两种方法的生成过程都很慢且计算量很大。使用较低的计算预算进行高效语音合成,达到与之前工作相当的质量,仍然是一个重大挑战。
来自香港科技大学的研究团队及其合作者,提出了一个大规模的零样本语音合成系统——FlashSpeech,与以前的工作相比,它的推理时间大约减少了 5%。FlashSpeech 建立在潜在一致性模型的基础上,并应用了一种新的对抗一致性训练方法,无需预先训练的扩散模型作为'教师',即可从头开始训练。此外,新的韵律生成器模块增强了韵律的多样性,使语音的节奏听起来更加自然。
FlashSpeech 的生成过程可以通过一个或两个采样步骤高效地完成,同时保持高音频质量和与零样本语音生成音频提示的高相似性。实验结果证明 FlashSpeech 达到了 SOTA。值得注意的是,FlashSpeech 可以比其他零样本语音合成系统快 20 倍,同时在语音质量和相似性方面保持相当的性能。此外,FlashSpeech 通过有效地执行语音转换、语音编辑和多样化的语音采样等任务展示了其通用性。
论文链接: https://arxiv.org/abs/2404.14700 GitHub 地址: https://flashspeech.github.io/
4. 多模态语言模型 Pegasus-v1 技术报告
Twelve Labs 团队推出了一种多模态语言模型 Pegasus-1,专门用于通过自然语言理解视频内容和进行交互。
Pegasus-1 的设计目的是应对视频数据带来的独特挑战,如解读时空信息,从而提供不同长度的细微视频内容理解。该技术报告概述了 Pegasus-1 的架构、训练策略及其在视频对话、零样本视频问题解答和视频摘要等基准测试中的表现。他们还探讨了 Pegasus-1 的定性特征,展示了它的能力和局限性。
论文链接:


