大模型日报：今日必读的 9 篇前沿论文

大模型领域今日精选 9 篇前沿论文，涵盖认知架构、Agent 智能体、安全红队测试、手部图像生成、眼科医疗助手、个性化饮食推荐、区域视觉理解、高保真视频生成及长视频理解框架。涉及微软、蚂蚁集团、阿里巴巴、腾讯等多机构研究，重点探讨 LLM 在复杂推理、具身智能、安全性及多模态任务中的最新进展与应用潜力。

氛围发布于 2025/2/7更新于 2026/4/180 浏览

1. Cognition is All You Need

最近对由大型语言模型（LLMs）驱动的聊天机器人等对话式人工智能（AI）工具在复杂的现实世界知识工作中的应用研究，表明这些工具在推理和多步骤问题解决方面存在局限性。虽然现有的聊天机器人可以模拟浅层推理和理解，但随着问题复杂性的增加，它们很容易出错。

这些系统之所以无法处理复杂的知识工作，是因为它们没有进行任何实际认知。Mindcorp 公司研究团队提出了一个在 LLMs 之上和之外实现编程定义的神经符号认知的更高层次框架——Cognitive AI。具体来说，研究团队提出了 Cognitive AI 的双层功能架构，作为 AI 系统的路线图，可以执行复杂的多步骤知识工作。他们提出，Cognitive AI 是更高形式的 AI（如 AGI）进化的必要先导，并特别声称 AGI 无法通过概率方法单独实现。

最后，研究团队讨论了对 LLMs、AI 采用周期和 Cognitive AI 商业开发的影响。

论文链接：https://arxiv.org/abs/2403.02164

2. 迈向整体智能的 Agent AI

大型基础模型的最新进展极大地增强了我们对开放世界环境中感官信息的理解。在利用基础模型的力量时，人工智能（AI）研究必须从过度的还原论转向强调系统的整体功能。

来自微软的研究团队及其合作者强调开发 AI 智能体（Agent AI）——一种将大型基础模型整合到智能体行动中的具身系统。AI 智能体这一新兴领域横跨现有的各种体现式和基于智能体的多模态交互，包括机器人、游戏和医疗保健系统等。研究团队提出了一种新颖的大型行动模型——Agent Foundation Model 来实现具身智能行为。

在这一想法的基础上，研究团队讨论了 AI 智能体如何在各种领域和任务中展现出非凡的能力，挑战我们对学习和认知的理解。此外，他们还从跨学科的角度讨论了 AI 智能体的潜力，强调了科学话语中的 AI 认知和意识。这些讨论将成为未来研究方向的基础，并鼓励更广泛的社会参与。

论文链接：https://arxiv.org/abs/2403.00833

3. TroubleLLM：向红队专家看齐

大型语言模型（LLMs）已成为各种自然语言任务的最先进解决方案，并被整合到现实世界的应用中。然而，LLMs 可能会表现出不良的安全问题，如社会偏见和有毒内容，因而具有潜在的危害性。因此，在部署之前必须对其安全问题进行评估。然而，现有方法生成的测试提示的质量和多样性还远远不能令人满意。这些方法不仅耗费大量人力和预算成本，而且在 LLM 应用的特定测试领域中，测试提示的生成缺乏可控性。

本着将 LLM 用于 LLM 测试的理念，来自蚂蚁集团和香港中文大学的研究团队提出了第一个用于生成有关 LLM 安全问题的可控测试提示的 LLM——TroubleLLM。实验和人工评估证明了 TroubleLLM 在生成质量和生成可控性方面的优越性。

论文链接：https://arxiv.org/abs/2403.00829

4. HanDiffuser：从文本到图像生成逼真的手部外观

文生图模型可以生成高质量的人类形象，但在生成手部的过程中会失去真实感。常见的问题包括不规则的手部姿势、形状、不正确的手指数量以及物理上难以置信的手指方向。为了生成具有逼真手部的图像，来自石溪大学和 Adobe Research 的研究团队提出了一种名为 HanDiffuser 的基于扩散的新型架构，通过在生成过程中注入手部嵌入实现逼真效果。

HanDiffuser 由两部分组成：一个是 Text-to-Hand-Params 扩散模型，用于根据输入文本提示生成 SSMPL-Body 和 MANO-Hand 参数；另一个是文本引导的 Hand-Params-to-Image 扩散模型，用于根据前一部分生成的提示和手部参数合成图像。研究团队结合了手部表征的多个方面，包括三维形状和关节级手指位置、方向和衔接，以便在推理过程中实现鲁棒的学习和可靠的性能。实验和用户研究证明 HanDiffuser 在生成高质量手部图像方面的有效性。

论文链接：https://arxiv.org/abs/2403.01693

5. EyeGPT：大模型驱动的眼科助手

人工智能（AI）具有改善临床工作流程和加强医疗沟通的潜力，因此在医疗咨询领域备受关注。然而，由于医疗信息的复杂性，用普通世界知识训练的大型语言模型（LLM）可能无法在专家级水平上处理与医疗相关的任务。

来自香港理工大学、Centre for Eye and Vision Research (CEVR)、中山大学、上海交通大学和眼科临床医学中心的研究团队提出了专为眼科设计的专业 LLM——EyeGPT，它采用了角色扮演、微调和检索增强生成三种优化策略。特别是，研究团队提出了一个全面的评估框架，包含一个涵盖眼科的各个亚专科、不同的用户和不同的查询意图的多样化数据集。

大模型日报：今日必读的 9 篇前沿论文

1. Cognition is All You Need

2. 迈向整体智能的 Agent AI

3. TroubleLLM：向红队专家看齐

4. HanDiffuser：从文本到图像生成逼真的手部外观

5. EyeGPT：大模型驱动的眼科助手

更多推荐文章

相关免费在线工具

6. ChatDiet：个性化食品推荐 AI 聊天机器人

7. RegionGPT：实现区域理解视觉语言模型

8. AtomoVideo：高保真图像视频生成器

9. MovieLLM：利用人工智能生成的电影增强对长视频的理解

大模型日报：今日必读的 9 篇前沿论文

1. Cognition is All You Need

2. 迈向整体智能的 Agent AI

3. TroubleLLM：向红队专家看齐

4. HanDiffuser：从文本到图像生成逼真的手部外观

5. EyeGPT：大模型驱动的眼科助手

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

6. ChatDiet：个性化食品推荐 AI 聊天机器人

7. RegionGPT：实现区域理解视觉语言模型

8. AtomoVideo：高保真图像视频生成器

9. MovieLLM：利用人工智能生成的电影增强对长视频的理解