尽管开源的大语言模型发展非常迅速,但是,在以大语言模型作为核心的新一代 AI Agent 解决方案上,开源大语言模型比商业模型表现要明显地差。为了提高大语言模型作为 AI Agent 的表现和能力,清华大学和智谱 AI 推出了一种新的方案,AgentTuning,可以有效增强开源大语言模型作为 AI Agent 的能力。

AI Agent 简介
AI Agent 使用一种可以感知周围环境并作出决策的智能系统。这种概念其实很早就提出,但是随着 ChatGPT 的推出,大家发现大语言模型在意图理解方面已经超越了之前的算法。因此,以大语言模型作为核心控制器来建立一个 AI Agent 变成一种十分具有前景的方案。

OpenAI 的 Safety 团队的负责人 Lilian Weng 在 2023 年 6 月份发布的一篇博客中就介绍了 AI Agent,并认为这将使 LLM 转为通用问题解决方案的途径之一(参考:OpenAI Safety Team Blog)。 尽管如此,当前开源的大语言模型在这方面表现并不好。
当前开源大语言模型在 AI Agent 领域表现很差
开源大语言模型发展十分迅速。尽管在 2022 年 11 月底发布的 ChatGPT 引起全球的关注,商业大模型如 Google Bard、Claude AI 等发展十分迅速,但是开源领域的大模型的进步也十分迅速。下图是 DataLearner 大模型评估排行的一个截图:

可以看到,在 MMLU 的理解能力上,开源大模型的得分非常高。但是,即便开源大语言模型发展速度很快,在 AI Agent 领域依然无法与闭源大模型比较。例如,MetaGPT、AutoGPT 等都是默认使用 GPT-4 作为控制中心。
这个原因主要是,AI Agent 代理任务要求 LLMs 扮演中心控制器的角色,负责计划、记忆和工具使用,这既需要细粒度的提示方法,又需要强大的 LLMs 来获得满意的性能。开源大型语言模型在作为 AI 代理处理复杂任务时面临的主要挑战是它们需要在细粒度的提示和强大的模型之间达到平衡,同时还要保持其广泛的应用能力。这是非常困难的。
现有针对 LLM 代理能力的研究主要关注设计提示或构建框架来完成某一特定代理任务,而没有从根本上提升 LLM 自身的通用代理能力。许多相关工作专注于提升 LLM 在特定方面的能力,这通常以牺牲其通用能力为代价,也降低了其泛化能力。针对上述问题,清华大学与智谱 AI 提出了 AgentTuning 方法。
AgentTuning 方案详解
如前所述,研究人员认为当前 LLM 作为 AI Agent 控制器的解决方案几乎都是从 prompt 工程操作。而实际上采用指令调优的方式更加合适。
AgentTuning 方案主要包含以下两个部分:
1、AgentInstruct 数据集构建
- 从 6 种不同的代理任务中收集高质量的交互轨迹,包含完整的指令、环境反馈、模型思考和行动等信息。
- 对 GPT-4 生成的轨迹进行过滤,只保留完全正确的轨迹。
- 最终获得了 1866 条交互轨迹。
Agent Instruct 数据集的具体内容如下:




