10 篇大模型前沿研究论文精选

10 篇大模型研究论文涵盖多 token 预测、图像生成一致性、推理优化、对齐方法、具身智能体及对抗提示等领域。内容涉及 Meta、SK Telecom、字节跳动、清华等团队成果，包括 InstantFamily 零样本多身份生成、StoryDiffusion 视频一致性提升、SPPO 自我博弈对齐、LEGENT 开放平台及 AdvPrompter 对抗提示生成技术。部分研究展示了在 HumanEval、GSM8K 等基准上的性能提升，以及训练效率优化和评测新方法。

晚风叙旧发布于 2025/2/7更新于 2026/4/180 浏览

1.同时预测多个 token：更好更快的大型语言模型

目前，GPT 和 Llama 等大型语言模型（LLMs）都是通过下一个 token 预测损失来训练的。

在这项工作中，来自 Meta FAIR 的研究团队认为，训练语言模型同时预测多个 token，可以提高采样效率。更具体地说，在训练语料库的每个位置，他们要求在共享模型主干的基础上，使用 n 个独立的输出头预测后面的 n 个 token。将多 token 预测视为一项辅助训练任务，他们测量了代码模型和自然语言模型在无训练时间开销的情况下改进的下游能力。

这种方法对更大的模型规模更加有效，而且在进行多 epochs 训练时仍能保持这种效率。该模型在编码等生成基准方面的优势尤为明显，始终比强基准高出几个百分点。与同类的 next-token 模型相比，他们的 13B 参数模型在 HumanEval 上多解决了 12% 的问题，在 MBPP 上多解决了 17% 的问题。

小型算法任务的实验表明，多 token 预测有利于归纳头和算法推理能力的发展。另外一个好处是，使用 4-token 预测训练的模型即使在大 batch 尺寸情况下，推理速度也能提高 3 倍。

论文链接： https://arxiv.org/abs/2404.19737

2.InstantFamily：零样本多身份图像生成

目前，在个性化图像生成领域，创建保存概念的图像的能力已大大提高。要创建一幅能将多个概念自然地融合在一起、具有视觉吸引力的图像，依然具有挑战性。

SK Telecom 提出了 InstantFamily —— 采用一种新颖的掩码交叉注意力机制和多模态嵌入堆栈来实现零样本多 ID 图像生成。他们的方法利用预先训练的人脸识别模型中的全局和局部特征与文本条件相结合，从而有效地保留了 ID。

此外，他们的掩码交叉注意力机制能够精确控制生成图像中的多 ID 和组成。实验表明它在生成多 ID 图像方面具有优势，同时解决了多 ID 生成问题。此外，该模型在单 ID 和多 ID 保存方面都达到了 SOTA，该模型在保存 ID 的数量比最初训练时更多的情况下，也表现出了显著的可扩展性。

论文链接： https://arxiv.org/abs/2404.19427

3.Meta 提出'迭代推理偏好优化'

最近的研究表明，迭代偏好优化方法在一般指令微调任务中表现出色，但在推理任务中通常改善甚微。

Meta 和纽约大学的研究团队开发了一种迭代方法，通过优化导致正确答案的获胜与失败推理步骤，来优化竞争生成的思维链（CoT）候选者之间的偏好。他们使用修改后的 DPO 损失进行训练，并增加了一个负对数似然项。

结果表明，推理能力在该方案的反复迭代中得到了提高。尽管只依赖训练集中的示例，但该方法使 Llama-2-70B-Chat 在 GSM8K 上的准确率从 55.6% 提高到 81.6%（在 32 个样本中使用多数投票的准确率为 88.7%），在 MATH 上的准确率从 12.5% 提高到 20.8%，在 ARC-Challenge 上的准确率从 77.8% 提高到 86.7%，超过了其他不依赖额外数据集的基于 Llama-2 的模型。

论文链接： https://arxiv.org/abs/2404.19733

4.SPPO：基于自我博弈的大模型对齐方法

传统的人类反馈强化学习（RLHF）方法依赖于 Bradley-Terry 模型等参数模型，无法很好地捕捉人类偏好的不稳定性和不理性。最新进展表明，直接使用偏好概率可以更准确地反映人类偏好，从而实现更灵活、更准确的语言模型对齐。

来自加州大学洛杉矶分校和卡内基梅隆大学的研究团队，提出了一种基于自我博弈的语言模型对齐方法 SPPO，该方法将问题视为一个恒和双人博弈，旨在确定纳什均衡策略。它通过迭代策略更新逼近纳什均衡，并具有理论上的收敛保证。该方法能有效提高被选对策的对数似然，降低被拒对策的对数似然，这一点是直接偏好优化（DPO）和身份偏好优化（IPO）等对称成对损失方法无法实现的。

实验表明，SPPO 仅使用了来自 UltraFeedback 数据集的 60k 个提示（不含回复），并且没有进行任何提示增强，通过利用仅有 0.4B 个参数的预训练偏好模型 PairRM，可以从微调 Mistral-7B-Instruct-v0.2 中获得一个模型，该模型在 AlpacaEval 2.0 上与 GPT-4-Turbo 相比达到了长度控制胜率 SOTA（28.53%）。它在 MT-Bench 和 Open LLM Leaderboard 上的表现也优于（迭代）DPO 和 IPO。值得注意的是，SPPO 的强大性能是在没有 GPT-4 或其他更强大的语言模型的额外外部监督（如偏好等）的情况下实现的。

论文链接： https://arxiv.org/abs/2405.00675

5.字节、南开团队 StoryDiffusion：提高图像、视频生成的一致性

10 篇大模型前沿研究论文精选

更多推荐文章

相关免费在线工具

10 篇大模型前沿研究论文精选

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具