1. 人机协同三种模式
生成式 AI 的智能演化至今,人机协同呈现了三种模式:
嵌入(Embedding)模式。用户通过与 AI 进行语言交流,使用提示词来设定目标,然后 AI 协助用户完成这些目标,比如普通用户向生成式 AI 输入提示词创作小说、音乐作品、3D 内容等。在这种模式下,AI 的作用相当于执行命令的工具,而人类担任决策者和指挥者的角色。
副驾驶(Copilot)模式。2021 年微软在 GitHub 首次引入了 Copilot(副驾驶)的概念。GitHub Copilot 是一个辅助开发人员编写代码的 AI 服务。2023 年 5 月,微软在大模型的加持下,Copilot 迎来全面升级,推出 Dynamics 365 Copilot、Microsoft 365 Copilot 和 Power Platform Copilot 等,并提出'Copilot 是一种全新的工作方式'的理念。在这种模式下,人类和 AI 更像是合作伙伴,共同参与到工作流程中,各自发挥作用。AI 介入到工作流程中,从提供建议到协助完成流程的各个阶段。例如,在软件开发中,AI 可以为程序员编写代码、检测错误或优化性能提供帮助。人类和 AI 在这个过程中共同工作,互补彼此的能力。AI 更像是一个知识丰富的合作伙伴,而非单纯的工具。
智能体(Agent)模式。人类设定目标和提供必要的资源(例如计算能力),AI 独立地承担大部分工作,最后人类监督进程以及评估最终结果。这种模式下,AI 充分体现了智能体的互动性、自主性和适应性特征,接近于独立的行动者,而人类则更多地扮演监督者和评估者的角色。
[图示:人机协同三种模式示意图]
2. AI Agent 基本框架
OpenAI 内部工程师 Weng Lilian 在《LLM Powered Autonomous Agents》文章中将 AI Agent 定义为,以大语言模型为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。
基于 LLM 驱动的 Agent 基本框架:
[图示:基于 LLM 驱动的 Agent 基本框架]
它具有记忆、规划、行动和使用工具四个主要模块:
记忆(Memory)。记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。有效的记忆机制能够保障智能体在面对新的或复杂的情况时,调用以往的经验和知识。例如,记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容,提供更个性化和连贯的交流体验。它分为短期记忆和长期记忆:a.短期记忆,用于上下文学习;b.长期记忆,提供长时间保留和回忆信息的能力,通常通过外部向量数据库和快速检索实现。长期记忆积累了大量行业领域的数据和知识,使智能体更强大、更具行业深度、个性化和专业化能力。
规划(Planning)。规划模块包括事前规划和事后反思两个阶段。在事前规划阶段,智能体通过预测和决策制定来规划未来行动。例如,在执行复杂任务时,智能体将大目标分解为可管理的子目标,以高效地规划一系列步骤或行动,以达到预期结果。在事后反思阶段,智能体能够检查和改进制定计划中存在的不足之处。它会反思错误和不足,并吸取经验教训进行改进。这些经验将被纳入长期记忆中,帮助智能体避免错误,并更新其对世界的认知。
工具使用(Tool use)。工具使用模块指的是智能体能够利用外部资源或工具来执行任务。如学习调用外部 API 来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等,以此来补足 LLM 自身不足。例如 LLM 的训练数据不是实时更新的,这时可以使用工具访问互联网来获取最新信息。智能体使用工具比人类更为高效,通过调用不同的 API 或工具,完成复杂任务和输出高质量结果,这种使用工具的方式也代表了智能体的一个重要特点和优势。
行动(Action)。行动模块是智能体实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如记忆检索、推理、学习、编程等。
这四个模块相互配合使智能体能够在更广泛的情境中采取行动和作出决策,以更智能、更高效的方式执行复杂任务。
基于大模型的 Agent 不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,带来更为广泛的人机融合。
2.1 垂直领域 AI Agent 实现路径
实现 AI Agent 关键点在于,LLM 模型需要具备思维链(Chain of Thought, CoT)与工具调用(Function Call)的能力,需要一个应用框架与环境、数据进行交互。
垂直领域 AI Agent 整体架构示意图:
[图示:垂直领域 AI Agent 整体架构示意图]
用户输入的文档或问题,首先经过文本分割模块,将长句子分割为文本块,输入到 Embedding 模型,实现向量化进行文本相似性计算,最后将相似的 k 个文本与问题,输入到 LLM 模型中,LLM 模型通过理解感知、规划、记忆和使用工具完成对问题的回答。
AI Agent 整体流程示意图:
[图示:AI Agent 整体流程示意图]
2.2 LangChain 概述
LangChain 是一个用于开发由语言模型驱动的应用程序的框架。主要作用为允许与 LLM 模型进行交互,使用 LLM 模型与外部数据源进行连接。


