清华大学与智谱 AI 推出 AgentTuning 方案，增强开源大模型 Agent 能力

清华大学与智谱 AI 提出 AgentTuning 方案以解决开源大语言模型在 AI Agent 任务中表现不佳的问题。该方案通过构建包含 1866 条高质量交互轨迹的 AgentInstruct 数据集，并结合通用指令语料进行混合监督微调。实验表明，微调后的 AgentLM 模型在复杂代理任务中的泛化能力和稳定性显著提升，有效减少了格式错误和拒绝回答等常见问题，为开源模型提供了接近商业模型的代理能力替代方案。

涅槃凤凰发布于 2025/2/7更新于 2026/4/190 浏览

尽管开源的大语言模型发展非常迅速，但是，在以大语言模型作为核心的新一代 AI Agent 解决方案上，开源大语言模型比商业模型表现要明显地差。为了提高大语言模型作为 AI Agent 的表现和能力，清华大学和智谱 AI 推出了一种新的方案，AgentTuning，可以有效增强开源大语言模型作为 AI Agent 的能力。

AI Agent 概念示意图

AI Agent 简介

AI Agent 使用一种可以感知周围环境并作出决策的智能系统。这种概念其实很早就提出，但是随着 ChatGPT 的推出，大家发现大语言模型在意图理解方面已经超越了之前的算法。因此，以大语言模型作为核心控制器来建立一个 AI Agent 变成一种十分具有前景的方案。

AI Agent 架构示意图

OpenAI 的 Safety 团队的负责人 Lilian Weng 在 2023 年 6 月份发布的一篇博客中就介绍了 AI Agent，并认为这将使 LLM 转为通用问题解决方案的途径之一（参考：OpenAI Safety Team Blog）。尽管如此，当前开源的大语言模型在这方面表现并不好。

当前开源大语言模型在 AI Agent 领域表现很差

开源大语言模型发展十分迅速。尽管在 2022 年 11 月底发布的 ChatGPT 引起全球的关注，商业大模型如 Google Bard、Claude AI 等发展十分迅速，但是开源领域的大模型的进步也十分迅速。下图是 DataLearner 大模型评估排行的一个截图：

开源大模型评估排行

可以看到，在 MMLU 的理解能力上，开源大模型的得分非常高。但是，即便开源大语言模型发展速度很快，在 AI Agent 领域依然无法与闭源大模型比较。例如，MetaGPT、AutoGPT 等都是默认使用 GPT-4 作为控制中心。

这个原因主要是，AI Agent 代理任务要求 LLMs 扮演中心控制器的角色，负责计划、记忆和工具使用，这既需要细粒度的提示方法，又需要强大的 LLMs 来获得满意的性能。开源大型语言模型在作为 AI 代理处理复杂任务时面临的主要挑战是它们需要在细粒度的提示和强大的模型之间达到平衡，同时还要保持其广泛的应用能力。这是非常困难的。

现有针对 LLM 代理能力的研究主要关注设计提示或构建框架来完成某一特定代理任务，而没有从根本上提升 LLM 自身的通用代理能力。许多相关工作专注于提升 LLM 在特定方面的能力，这通常以牺牲其通用能力为代价，也降低了其泛化能力。针对上述问题，清华大学与智谱 AI 提出了 AgentTuning 方法。

AgentTuning 方案详解

如前所述，研究人员认为当前 LLM 作为 AI Agent 控制器的解决方案几乎都是从 prompt 工程操作。而实际上采用指令调优的方式更加合适。

AgentTuning 方案主要包含以下两个部分:

1、AgentInstruct 数据集构建

从 6 种不同的代理任务中收集高质量的交互轨迹，包含完整的指令、环境反馈、模型思考和行动等信息。
对 GPT-4 生成的轨迹进行过滤，只保留完全正确的轨迹。
最终获得了 1866 条交互轨迹。

Agent Instruct 数据集的具体内容如下：

AgentInstruct 数据集结构

清华大学与智谱 AI 推出 AgentTuning 方案，增强开源大模型 Agent 能力

AI Agent 简介

当前开源大语言模型在 AI Agent 领域表现很差

AgentTuning 方案详解

更多推荐文章

相关免费在线工具

AgentTuning 效果评估

AgentTuning 总结

AgentTuning 开源资源

清华大学与智谱 AI 推出 AgentTuning 方案，增强开源大模型 Agent 能力

AI Agent 简介

当前开源大语言模型在 AI Agent 领域表现很差

AgentTuning 方案详解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

AgentTuning 效果评估

AgentTuning 总结

AgentTuning 开源资源