Agent AI 多模态交互前沿领域探索（二）

3. Agent AI 范式

本节探讨用于训练 Agent AI 的全新范式与框架，旨在实现以下核心目标：

充分利用现有预训练模型和策略，为智能体提供坚实基础，使其有效理解文本、视觉等关键模态信息；
支持强大的长期任务规划能力；
构建记忆框架，使习得的知识能够被编码存储并在后续按需检索；
利用环境反馈有效训练智能体，使其学会选择合适的动作。

系统包含五大核心模块：环境与感知模块、智能体学习模块、记忆模块、智能体动作模块、认知模块。

3.1 大型语言模型（LLMs）与视觉语言模型（VLMs）

利用大型语言模型（LLM）或视觉语言模型（VLM）构建智能体的核心组件。大型语言模型在任务规划方面表现出色，蕴含丰富的世界知识，并具备逻辑推理能力。视觉语言模型（如 CLIP）提供了与语言对齐的通用视觉编码器，同时具备零样本视觉识别能力。目前最先进的开源多模态模型均依赖冻结的 CLIP 模型作为视觉编码器。

3.2 智能体 Transformer 定义

不同于将冻结的大型语言模型和视觉语言模型用于构建人工智能智能体，也可以采用单一的智能体 Transformer 模型，该模型接收视觉令牌和语言令牌作为输入。除视觉和语言外，新增了第三种通用输入类型，称为智能体令牌，专门用于处理智能体化行为。在机器人技术或游戏领域，智能体令牌可表示控制器的输入动作空间；在训练智能体使用特定工具时也可使用。

与使用大型专有大型语言模型相比，使用智能体 Transformer 具有以下优势：

模型可轻松定制，以适应难以用自然语言描述的特定智能体化任务；
通过获取智能体令牌的概率分布，更容易理解模型为何采取或不采取特定动作；
在医疗和法律等特定领域，存在严格的数据隐私要求，智能体 Transformer 更易满足此类需求；
相对小型的智能体 Transformer 在成本上可能远低于大型专有语言模型。

3.3 智能体 Transformer 的构建

采用基于大型语言模型和视觉语言模型构建的智能体新范式，同时利用大型基础模型生成的数据训练智能体 Transformer 模型，使其能够学会执行特定目标。在此过程中，智能体模型会被训练为针对特定任务和领域的专用模型。以下是该过程的简化概述，主要分为两个步骤：

3.3.1 定义领域内目标

为了训练智能体 Transformer，需要明确智能体在每个特定环境背景下的目标和动作空间。这包括确定智能体需要执行的具体任务或动作，并为每个任务或动作分配唯一的智能体令牌。此外，任何可用于识别任务成功完成的自动规则或流程，都能显著增加可用于训练的数据量。

3.3.2 持续改进

持续监测模型性能并收集反馈是该过程的关键步骤。反馈应用于模型的进一步微调与更新。同时，必须确保模型不会延续偏见或产生不道德的输出结果。一旦模型达到令人满意的性能，即可部署用于预期应用场景。但持续监测仍然至关重要，以确保模型始终按预期运行。

4 Agent AI 的学习

4.1 策略与机制

跨领域交互式人工智能的核心策略，是在调用大型基础模型的范式基础上进行延伸 —— 通过训练一个主动收集用户反馈、动作信息及生成与交互所需实用知识的智能体来实现。在某些场景下，无需对大型语言模型或视觉语言模型进行重新训练，而是通过在测试阶段为智能体提供优化后的上下文提示来提升其性能。

4.1.1 强化学习（RL）

利用强化学习训练具备智能行为的交互式智能体有着深厚的研究历史。强化学习是一种基于动作产生的奖励来学习状态与动作间最优关系的方法论。作为一种高度可扩展的框架，强化学习已被应用于包括机器人技术在内的众多领域，但它通常面临若干挑战，而大型语言模型和视觉语言模型已展现出缓解或克服其中部分困难的潜力：

奖励函数设计：策略学习的效率在很大程度上取决于奖励函数的设计。设计奖励函数不仅需要掌握强化学习算法知识，还需对任务本质有深刻理解。
数据收集与效率：由于强化学习具有探索性质，基于强化学习的策略学习需要大量数据。近期研究中，已有相关工作致力于增强数据生成以支持策略学习。
长序列步骤：随着动作序列长度的增加，强化学习的难度会显著上升。针对长而复杂的任务，一种典型方法是将其分解为一系列子目标，并应用预训练策略解决每个子目标。

大型语言模型非常适合任务与运动规划，近期研究常采用的方案是：利用大型语言模型执行高层任务规划，同时通过基于强化学习的策略处理底层控制。

4.1.2 模仿学习（IL）

强化学习的目标是基于探索行为和与环境交互最大化奖励来训练策略，而模仿学习则旨在利用专家数据来模仿经验丰富的智能体或人类专家的动作。例如，在机器人技术领域，基于模仿学习的主要框架之一是行为克隆。近期基于行为克隆的方法通常整合了大型语言模型/视觉语言模型技术，从而实现更先进的端到端模型。

4.1.3 传统 RGB 图像输入

多年来，利用图像输入学习智能体行为一直是研究热点。使用 RGB 输入的固有挑战是维度灾难。为解决这一问题，研究人员要么使用更多数据，要么在模型设计中引入归纳偏置以提高样本效率。

4.1.4 上下文学习

随着 GPT-3 等大型语言模型的出现，上下文学习已被证明是解决自然语言处理任务的有效方法。通过在大型语言模型提示中提供任务示例，少样本提示成为在多种自然语言处理任务中实现模型输出上下文关联的有效方式。在多模态基础模型的背景下，Flamingo 和 BLIP-2 等模型已被证明，仅需少量示例就能在多种视觉理解任务中表现出色。

4.1.5 智能体系统的优化

智能体系统的优化可分为空间维度和时间维度两个方面：

空间优化：关注智能体如何在物理空间内执行任务，包括机器人间协作、资源分配以及空间有序化。
时间优化：聚焦于智能体如何随时间执行任务，包括任务调度、排序和时间线效率。

4.2 智能体系统（零样本和少样本级别）

我们对智能体范式的探索，涉及利用大型语言模型或视觉语言模型开发交互式多模态智能体的'模块'。我们最初的智能体模块支持训练或上下文学习，并采用极简设计，以展示智能体的有效调度和协作能力。

4.3 智能体化基础模型（预训练和微调级别）

预训练基础模型的优势在于其可广泛应用于多种用例。整合这些模型能够为各类应用开发定制化解决方案，无需为每个特定任务准备大量标注数据集。

导航领域的一个典型示例是 LM-Nav 系统，该系统创新性地整合了 GPT-3 和 CLIP。它有效利用语言模型生成的文本地标，并将其与机器人获取的图像关联以实现导航。

5 Agent AI 的分类

5.1 通用智能体领域

基于计算机的动作智能体和通用智能体可应用于多种任务。随着大型基础模型和交互式人工智能领域的最新进展，通用智能体已具备新的功能。然而，一个真正对用户有价值的通用智能体，必须具备自然的交互能力，并能在广泛的场景和模态中实现泛化。

5.2 具象化智能体

人类的生物思维存在于身体之中，而身体在不断变化的世界中活动。具象化人工智能的目标是创建能够创造性地解决需要与环境交互的挑战性任务的智能体。

5.2.1 动作智能体

动作智能体指需要在模拟物理环境或现实世界中执行物理动作的智能体，尤其需要主动与环境进行交互。根据应用领域，我们将动作智能体大致分为两类：游戏人工智能和机器人技术。

5.2.2 交互式智能体

交互式智能体泛指能够与世界进行交互的智能体，是比动作智能体更广泛的类别。它们的交互形式不一定需要物理动作，可能包括向用户传递信息或修改环境。

5.3 模拟与环境智能体

人工智能智能体学习在环境中行动的一种有效方法，是通过与环境交互进行试错体验。尽管存在使用物理智能体进行训练的方法，但物理智能体训练耗时且成本高昂。此外，在实际环境中训练往往存在安全风险，因此使用模拟器学习策略是一种常见的方法。

5.4 生成式智能体

大型生成式人工智能模型领域的最新进展，有望大幅降低交互式内容的当前高成本和耗时。这类智能体的目标不仅是为场景添加交互式 3D 内容，还包括为物体添加任意行为和交互规则，允许用户通过最少的提示创建自己的虚拟现实规则。

5.4.1 增强现实 / 虚拟现实 / 混合现实智能体

增强现实 / 虚拟现实 / 混合现实场景目前需要专业艺术家和动画师创建用于模拟虚拟世界交互的角色、环境和物体。XR 智能体可以通过促进创作者之间的交互，并构建工具帮助构建最终的虚拟环境，为这一过程提供支持。

5.5 知识与逻辑推理智能体

推理和应用知识的能力是人类认知的一个显著特征，在逻辑推理、心理理论理解等复杂任务中尤为明显。基于知识进行推理，可确保人工智能的响应和动作与已知事实和逻辑原则保持一致。

5.5.1 知识智能体

知识智能体从两个方向对已获取的知识系统进行推理：隐性知识和显性知识。隐性知识通常是大规模语言模型在海量文本数据训练后所蕴含的知识。相比之下，显性知识具有结构化特征，可直接查询。

5.5.2 逻辑智能体

通常而言，逻辑智能体是系统的一个组件，旨在应用逻辑推理处理数据或解决特定的逻辑推理任务。广义上，GPT-4 等基础模型通过海量文本数据训练，能够执行包括逻辑推理在内的多种任务。

5.5.3 情感推理智能体

情感理解和共情能力是许多人机交互场景中智能体的重要技能。开发具有共情感知能力的智能体是交互式智能体的一个有前景的发展方向。

5.5.4 神经符号智能体

神经符号智能体基于神经元和符号的混合系统运作。解决以自然语言表述的问题是一项具有挑战性的任务，因为它需要显式捕捉输入中隐含的离散符号结构信息。

5.6 大型语言模型与视觉语言模型智能体

多项研究利用大型语言模型作为智能体执行任务规划，并借助大型语言模型的万维网级领域知识和零样本规划能力，执行规划、推理等智能体化任务。

7 跨模态、跨领域与跨现实的 Agent AI

7.1 跨模态理解智能体

构建通用人工智能智能体的一大核心挑战在于，缺乏同时包含视觉、语言和智能体行为的大规模数据集。更普遍的情况是，智能体的训练数据往往是模态专属的。

7.2 跨领域理解智能体

构建通用智能体的关键挑战之一，在于不同领域间存在显著的视觉特征差异和完全不同的动作空间。

7.3 跨模态与跨现实的交互式智能体

开发能够在不同现实场景中成功理解任务并执行任务的人工智能智能体，是一项持续面临的挑战。

7.4 模拟到现实迁移

模拟到现实迁移技术，指的是使在模拟环境中训练的模型能够部署到现实世界中运行的技术。具象化智能体通常在模拟环境中进行训练，但这些模拟环境无法完全复现现实世界的特征。

为解决这一问题，可采用以下几种方法：

领域随机化：这是一种在训练模型时，随机改变模拟环境参数的技术。
领域适配：通过大量模拟图像和少量现实世界图像训练模型，以弥合模拟领域与现实世界领域之间差距的技术。
模拟环境优化：高保真模拟是模拟到现实迁移的关键。

参考文献：https://arxiv.org/abs/2401.03568

Agent AI 多模态交互前沿领域探索（二）

3. Agent AI 范式

3.1 大型语言模型（LLMs）与视觉语言模型（VLMs）

3.2 智能体 Transformer 定义

3.3 智能体 Transformer 的构建

3.3.1 定义领域内目标

3.3.2 持续改进

4 Agent AI 的学习

4.1 策略与机制

4.1.1 强化学习（RL）

4.1.2 模仿学习（IL）

4.1.3 传统 RGB 图像输入

4.1.4 上下文学习

4.1.5 智能体系统的优化

4.2 智能体系统（零样本和少样本级别）

4.3 智能体化基础模型（预训练和微调级别）

5 Agent AI 的分类

5.1 通用智能体领域

5.2 具象化智能体

5.2.1 动作智能体

5.2.2 交互式智能体

5.3 模拟与环境智能体

5.4 生成式智能体

5.4.1 增强现实 / 虚拟现实 / 混合现实智能体

5.5 知识与逻辑推理智能体

5.5.1 知识智能体

5.5.2 逻辑智能体

5.5.3 情感推理智能体

5.5.4 神经符号智能体

5.6 大型语言模型与视觉语言模型智能体

7 跨模态、跨领域与跨现实的 Agent AI

7.1 跨模态理解智能体

7.2 跨领域理解智能体

7.3 跨模态与跨现实的交互式智能体

7.4 模拟到现实迁移

更多推荐文章

相关免费在线工具

Agent AI 多模态交互前沿领域探索（二）

3. Agent AI 范式

3.1 大型语言模型（LLMs）与视觉语言模型（VLMs）

3.2 智能体 Transformer 定义

3.3 智能体 Transformer 的构建

3.3.1 定义领域内目标

3.3.2 持续改进

4 Agent AI 的学习

4.1 策略与机制

4.1.1 强化学习（RL）

4.1.2 模仿学习（IL）

4.1.3 传统 RGB 图像输入

4.1.4 上下文学习

4.1.5 智能体系统的优化

4.2 智能体系统（零样本和少样本级别）

4.3 智能体化基础模型（预训练和微调级别）

5 Agent AI 的分类

5.1 通用智能体领域

5.2 具象化智能体

5.2.1 动作智能体

5.2.2 交互式智能体

5.3 模拟与环境智能体

5.4 生成式智能体

5.4.1 增强现实 / 虚拟现实 / 混合现实智能体

5.5 知识与逻辑推理智能体

5.5.1 知识智能体

5.5.2 逻辑智能体

5.5.3 情感推理智能体

5.5.4 神经符号智能体

5.6 大型语言模型与视觉语言模型智能体

7 跨模态、跨领域与跨现实的 Agent AI

7.1 跨模态理解智能体

7.2 跨领域理解智能体

7.3 跨模态与跨现实的交互式智能体

7.4 模拟到现实迁移

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具