AI Agent 记忆系统技术综述：核心挑战与主流方案

AI Agent 记忆系统技术综述：核心挑战与主流方案 | 极客日志

近年来，大语言模型（LLM）驱动的 AI Agent 正在从单次对话工具向长期协作搭档进化。然而，一个根本性的短板始终制约着这一进化——记忆。每次对话结束，Agent 就像一个失忆症患者，忘记了所有交流过的内容。128K 的上下文窗口再大，重开对话就是陌生人。

本文旨在对 AI Agent 记忆系统进行系统性的技术综述，内容涵盖记忆的分类体系、核心技术路线、代表性系统详解、横向对比以及未来发展趋势。作为技术系列开篇，本文将为后续深入分析 OpenClaw 和 ASMR（Supermemory）两套记忆系统奠定基础。

一、引言：为什么 Agent 需要记忆？

1.1 从工具到搭档的跨越

当前的 LLM 本质上是无状态的函数：给定输入，返回输出，对话结束即遗忘一切。这在单次问答场景下没有问题，但当我们期望 AI 成为长期搭档时，问题就暴露了：

个性化缺失：无法记住用户偏好、工作习惯和历史决策
上下文断裂：每次对话都要重新解释背景
无法学习：同样的错误反复犯，无法从经验中成长
信任难建立：每次见面都是陌生人，何谈信任？

1.2 记忆是 Agent 的最后一块拼图

在 Agent 架构中，感知（Perception）、推理（Reasoning）、行动（Action）三大能力已经通过 LLM + Tool Use 基本实现。但记忆（Memory）——让 Agent 跨越时间边界保持连续性的能力——仍是一个待攻克的难题。

正如 Supermemory 团队所说：在未来几年，数十亿个 Agent 将会高度个性化，针对每位用户量身定制——持续学习、不断进化。这正是我们深入研究 AI 记忆的原因。

2025 年底，学术界发表的综述论文《Memory in the Age of AI Agents》系统性地梳理了这一领域的研究图景，标志着 Agent 记忆从附加功能正式升级为核心基础设施。

二、记忆系统的核心挑战：远比存下来复杂

构建一个合格的 Agent 记忆系统，需要解决以下核心难题：

2.1 信息矛盾与时序推理

用户上个月说我住在北京，这个月说我刚搬到上海。系统必须识别出后者覆盖了前者，只返回上海——而不是把两条信息一股脑丢给 LLM 让它猜。

2.2 噪声过滤与精准检索

11.5 万 token 的对话历史中，可能只有 3 句话跟当前问题相关。检索噪声过高，LLM 同样无法有效利用信息。

2.3 自动遗忘

我明天有考试——这条信息在明天过后就应该自动失效，不应变成永久噪声。自动遗忘机制是记忆系统区别于传统数据库的关键特性。

2.4 多源信息融合

Agent 的记忆不仅来自对话，还可能来自邮件、文档、代码仓库、日历等多种来源。如何统一管理和检索这些异构信息？

2.5 隐私与安全

记忆中包含大量个人敏感信息。本地部署 vs 云端托管、数据加密、访问控制、GDPR/EU AI Act 合规——这些都是必须考虑的工程问题。

三、Agent 记忆的分类体系：从人类认知到机器实现

借鉴认知科学中的人类记忆分类，Agent 记忆可以从多个维度进行划分。

3.1 按时间跨度分类

类型	描述	人类类比	Agent 实现
工作记忆	当前对话上下文	短期记忆 / 工作台	LLM 上下文窗口
短期记忆	近期几轮对话	几小时～几天的回忆	会话历史缓存
长期记忆	跨越天、周、月的信息	长期记忆	持久化存储（DB/文件）
情景记忆	特定事件的时间、地点、细节	上周三的会议	时间线重建

3.2 按功能角色分类

类型	描述	示例
语义记忆	关于用户的事实性知识	用户是资深工程师，用 Vim
情景记忆	具体事件及其上下文	上周三讨论了认证模块迁移
程序记忆	如何执行某个任务	部署时需要先跑测试
元记忆	关于记忆本身的知识	这条信息是上周更新的

3.3 按存储形式分类

形式	代表系统	优势	劣势
向量数据库	Mem0, Zep	语义检索强	时序推理弱
知识图谱	Cognee, Mem0 Graph	关系推理强	构建成本高
文件系统	OpenClaw, Letta FS	透明可编辑	检索精度受限
关系数据库	Zep (Postgres)	结构化查询	语义理解弱
纯内存	ASMR	速度快，可嵌入	持久化待解决

四、主流技术路线：五大范式

4.1 基于上下文窗口的记忆（Context Window）

核心思想：最朴素的方案——把所有历史信息塞进 LLM 的上下文窗口。

[System Prompt] + [历史对话] + [当前问题] → LLM →回答

优势：

实现最简单，无需额外组件
LLM 可以直接看到所有历史

劣势：

上下文窗口有上限（即使 128K 也不够长期使用）
Token 成本随历史长度线性增长
无法跨会话保持记忆

代表：ChatGPT 早期版本、大部分简单 Chatbot

4.2 基于 RAG 的记忆（Retrieval-Augmented Generation）

核心思想：将历史信息切分为 chunks，通过 embedding 向量化后存入向量数据库。查询时，先检索最相关的 chunks，再注入 LLM 上下文。

用户问题 → Embedding → 向量检索 → Top-K chunks → 注入上下文 → LLM →回答

优势：

突破上下文窗口限制
语义相似度匹配，非精确关键词
成本可控（只注入相关片段）

劣势：

语义相似 ≠ 语义正确（我住在北京 vs 我搬到上海语义相似但含义相反）
时序推理能力弱（无法区分新旧信息）
Embedding 模型的质量直接影响检索效果
分块策略（chunk size / overlap）需要精心调参

代表：Mem0、Zep、OpenClaw 的核心检索层

4.3 基于文件系统的记忆（Filesystem-Based）

核心思想：直接用 Markdown 文件存储记忆，Agent 像人一样读写文件。

MEMORY.md（长期记忆） memory/2026-03-23.md（每日笔记） USER.md（用户画像）

优势：

完全透明，人类可读可编辑
无需额外基础设施（不需要向量数据库）
Agent 和人类可以协同维护
Letta 基准测试显示，纯文件系统方案在 LoCoMo 上达到 74.0%，击败了多个专业记忆系统！

劣势：

文件量大时检索效率下降
缺乏语义理解（精确关键词匹配为主）
依赖 Agent 自身的记忆管理能力（写什么、删什么）

代表：OpenClaw（文件 + 向量混合）、Letta Filesystem

4.4 基于知识图谱的记忆（Graph Memory）

核心思想：将记忆建模为实体 - 关系图谱，捕获事实之间的结构化关系。

[用户：张三] --居住在--> [城市：上海] [用户：张三] --使用工具--> [编辑器：Vim] [事件：认证迁移] --时间--> [2026-03-15] [事件：认证迁移] --参与者--> [用户：张三]

优势：

关系推理能力强（张三的同事中谁用过 Vim？）
自然处理实体更新（修改节点属性即可）
支持多跳推理

劣势：

图谱构建成本高（需要实体识别和关系抽取）
难以表达非结构化的模糊信息
规模增长后查询性能下降

代表：Cognee、Mem0 Graph Memory、Microsoft GraphRAG

4.5 基于多 Agent 推理的记忆（Agentic Memory）

核心思想：完全抛弃向量数据库和 Embedding，用多个专业化 Agent 并行阅读和推理已存储的信息，以认知理解替代数学相似度。

用户问题 → 编排器 → [搜索 Agent1: 直接事实] + [搜索 Agent2: 上下文线索] + [搜索 Agent3: 时间线重建] → 汇总验证 → [8-12 个专家 Agent 并行回答] → 投票/裁判 → 最终答案

优势：

在 LongMemEval 上达到 ~99% 准确率，远超所有传统方案
天然处理信息矛盾和时序变化
不需要 Embedding，可完全内存运行

劣势：

API 调用成本极高（每次查询需要 6+ 个 Agent 并行工作）
延迟较高（多 Agent 串并行）
目前仍为实验性方案

代表：ASMR（Supermemory）

五、代表性系统详解

5.1 Mem0：托管式语义记忆平台

开发者：Mem0.ai

架构：

双层存储：向量数据库（语义检索）+ 知识图谱（关系推理）
自动从对话中提取事实并存储
支持记忆冲突检测和自动更新
提供 SaaS 托管和开源自部署两种模式

核心特性：

Graph Memory（2026 年 1 月推出）：在传统向量检索基础上增加实体关系图谱，可追踪张三 → 居住在 → 上海这类结构化关系
用户画像自动生成：从对话中自动提取用户偏好、习惯等
多 LLM 支持：支持 OpenAI、Anthropic 等主流提供商

适用场景：需要快速集成记忆能力的 SaaS 产品、客服 Agent、个性化推荐系统

5.2 Zep：长期记忆即服务

开发者：Zep AI

架构：

基于 PostgreSQL 的持久化存储
事实三元组提取 + 向量语义检索
内置时间衰减和事实冲突解决
商业云服务 + 开源社区版

核心特性：

对话历史自动摘要：自动对长对话进行压缩摘要
事实提取与实体解析：从对话中自动提取结构化事实
企业级合规：支持 SOC2、GDPR 等合规要求

适用场景：企业级 Agent 应用、需要合规保障的场景

5.3 Letta（原 MemGPT）：虚拟上下文管理

开发者：UC Berkeley 研究团队 → Letta 公司

架构：

灵感来源于操作系统的虚拟内存概念
Agent 自主管理一个层级化的记忆结构：
- 核心记忆（Core Memory）：始终在上下文中的关键信息
- 归档记忆（Archival Memory）：持久化存储，按需检索
- 回忆记忆（Recall Memory）：对话历史搜索
Agent 通过 memory_insert、memory_search 等工具函数自主操作记忆

核心特性：

自主记忆管理：Agent 自己决定什么时候存、搜、删——像人类管理自己的笔记
Filesystem 基准惊人：Letta 发现纯文件系统方案在 LoCoMo 上达到 74.0%，超过了当时多个专业记忆系统

适用场景：需要 Agent 高度自主的场景、研究探索

5.4 Cognee：知识图谱驱动的结构化记忆

开发者：Cognee AI

架构：

以知识图谱为核心，使用 LLM 从文本中抽取实体和关系
支持多种图数据库后端（Neo4j、FalkorDB 等）
将非结构化文本转化为结构化的可查询图谱

核心特性：

图模式推理：支持多跳关系查询
模块化管道：提取、去重、链接、推理各步骤可自由组合
开源优先

适用场景：知识密集型 Agent、需要复杂关系推理的场景

5.5 MemOS：记忆操作系统

开发者：学术研究团队（2025 年论文，被引 40 次）

架构：

将记忆抽象为操作系统概念，提供统一的记忆管理接口
分层记忆架构：感知记忆、工作记忆、长期记忆
记忆生命周期管理：创建、更新、合并、遗忘

核心特性：

MemOS-0630 在所有记忆基准中排名第一，超越 Mem0、LangMem、Zep 和 OpenAI Memory
统一的记忆操作 API

适用场景：学术研究、需要精细记忆管理的复杂 Agent 系统

5.6 OpenClaw：文件 + 向量混合检索记忆

开发者：OpenClaw 开源社区

架构：

以 Markdown 文件为记忆载体（MEMORY.md、daily notes）
使用 SQLite + sqlite-vec 向量扩展 构建本地向量索引
Hybrid Search：向量语义检索（70% 权重）+ FTS5 全文检索（30% 权重）
支持多种 Embedding 提供商（OpenAI、Gemini、Voyage、Mistral、Ollama、本地模型）

核心技术栈：

Markdown 文件 ↓ 文件监听 (watch) 分块 (400 tokens, 重叠 80) ↓ Embedding (text-embedding-3-small 等) ↓ SQLite 存储 (chunks 表 + FTS5 虚拟表) ↓ Hybrid Search (向量 + 全文混合) ↓ 后处理 MMR 去重 + 时序衰减 + 引用溯源 ↓ 注入 LLM 上下文

核心特性：

完全本地化：SQLite 存储，数据不出本机，隐私友好
人机协同：Markdown 文件人类可读可编辑，Agent 也可以自动写入
多语言 FTS：查询扩展支持中、英、日、韩、阿、葡、西、韩 8 种语言的停用词处理
MMR 去重：避免返回高度相似的重复片段
时序衰减：可配置半衰期（默认 30 天），让近期记忆优先
引用溯源：返回结果附带 Source: path#L12-L20，可追溯来源
多模态记忆：支持图片 Embedding（需 Gemini embedding-2-preview）
会话记忆（实验性）：自动从历史对话中提取记忆

劣势：

无法处理信息矛盾（两条冲突信息都会返回）
被动检索（用户问了才搜，不会主动提取结构化知识）
无自动遗忘机制

适用场景：个人 AI 助手、隐私敏感场景、开发者工作流

系列预告：后续将发布 OpenClaw 记忆系统源码深度解析 专题博客，从 memory-search.ts 到 hybrid.ts，逐模块拆解其实现。

5.7 ASMR（Supermemory）：多 Agent 主动推理记忆

开发者：Supermemory 团队（@DhravyaShah）

全称：Agentic Search and Memory Retrieval（智能体搜索与记忆检索）

发布时间：2026 年 3 月 22 日，X 平台曝光量 199.6 万次

架构：

原始对话 ↓ 3 个观察者 Agent 并行读取 (Gemini 2.0 Flash) ↓ 提取六维结构化知识 [个人信息 | 偏好 | 事件 | 时序数据 | 信息更新 | 助手信息] ↓ 存储 + 源映射 用户问题到来 ↓ 3 个搜索 Agent 并行推理 [Agent1: 直接事实] [Agent2: 上下文线索] [Agent3: 时间线重建] ↓ 汇总 + 逐字验证 8-12 个专家 Agent 并行回答 ↓ 多数投票 / 聚合裁判 最终答案

核心技术突破：

完全抛弃向量数据库和 Embedding
纯内存运行，可嵌入机器人等硬件
六维知识提取：不是简单的分块存储，而是围绕个人信息、偏好、事件、时序、更新、助手信息六个维度进行结构化提取
主动推理检索：3 个搜索 Agent 各有侧重（事实 / 线索 / 时间线），基于认知理解而非数学相似度
多变体集成回答：
- 8 变体集群：8 个专业化 prompt 变体并行（精准计数器、时间专家等），任一答对即计正确 → 98.60%
- 12 变体决策森林：12 个 Agent（GPT-4o-mini）独立回答 → 聚合大模型多数投票裁决 → 97.20%

三大工程洞察：

Agent 主动检索 > 向量搜索：语义相似度无法区分旧信息和新修正，Agent 推理可以
并行处理是效率核心：3 读取 + 3 搜索，速度和颗粒度大幅提升
专业化胜过泛化：精准计数器等专用 Agent 远强于单一全能 prompt

劣势：

API 调用成本极高（6+ Agent 并行）
尚未用于核心生产环境
持久化方案未明确

后续计划：

2026 年 4 月初全部代码开源
GitHub: github.com/supermemoryai/supermemory

适用场景：对记忆精度要求极苛刻的复杂长期 Agent、研究探索

系列预告：后续将发布 ASMR 多 Agent 记忆架构深度解析 专题博客，详细拆解其 3+3 Agent 流水线和投票裁判机制。

六、系统横向对比

6.1 架构对比

维度	Mem0	Zep	Letta	Cognee	MemOS	OpenClaw	ASMR
存储后端	向量 DB+ 图谱	PostgreSQL	分层内存	图数据库	分层架构	SQLite	纯内存
需要 Embedding	✅	✅	✅	✅	✅	✅	❌
检索方式	向量 + 图谱	向量 + 事实	Agent 自主	图查询	统一 API	混合检索	Agent 推理
信息矛盾处理	✅ 自动更新	✅ 冲突解决	部分	✅ 图更新	✅	❌	✅ Agent 推理
自动遗忘	✅	✅	❌	❌	✅	❌	✅
部署模式	云 + 自部署	云 + 自部署	自部署	自部署	自部署	本地	未明确
开源	✅	部分	✅	✅	✅	✅	4 月开源
多语言支持	依赖 Embedding	依赖 Embedding	依赖 LLM	依赖 LLM	依赖 Embedding	✅ 8 种语言 FTS	依赖 LLM
隐私友好	⚠️ 云端	⚠️ 云端	✅ 本地	✅ 本地	✅ 本地	✅✅ 全本地	未明确

6.2 基准测试对比（LongMemEval / LoCoMo）

系统	LongMemEval-s	LoCoMo	备注
ASMR 8 变体	~98.6%	-	实验性，非生产
ASMR 12 变体	~97.2%	-	单一共识答案
MemOS-0630	-	排名第一	超越所有对手
Supermemory v1	~85%	-	2025 年首版
Letta Filesystem	-	74.0%	纯文件系统！
OpenClaw	未公开	未公开	生产系统
Mem0	未公开	未公开	商业系统
Zep	未公开	未公开	商业系统

⚠️ 注意：各系统在基准测试上的评估标准和条件可能不完全一致，横向比较需谨慎。部分商业系统各自声称优于竞争对手，但目前尚无独立的、全面的第三方对比评测。

七、关键设计决策分析

7.1 向量检索 vs Agent 推理检索

这是当前记忆系统最核心的路线分歧。

向量检索派（OpenClaw、Mem0、Zep）认为：

语义相似度检索在大多数场景下足够好
成本低、延迟低、工程成熟
与 Embedding 生态（OpenAI、Gemini）深度整合

Agent 推理派（ASMR）认为：

语义相似度有本质缺陷：无法区分旧信息和新修正
需要用主动推理替代被动检索
付出更高的成本换取接近完美的准确率

分析认为：两种路线并非完全对立，未来可能走向混合架构——向量检索做初筛（快速缩小范围），Agent 推理做精排（处理矛盾和时序推理），这样可以兼顾效率和准确率。

7.2 集中式 vs 分布式记忆

集中式（Mem0、Zep）：所有 Agent 共享一个记忆后端，适合团队协作场景
分布式（OpenClaw）：每个 Agent 有自己的独立记忆，隐私性更强

7.3 被动存储 vs 主动提取

被动存储（OpenClaw）：Agent 或用户手动写入记忆文件，系统只负责索引和检索
主动提取（ASMR、Mem0）：系统自动从对话中提取结构化知识，无需人工干预

主动提取更智能，但也更容易引入错误（错误提取、过度提取）。被动存储更可控，但依赖 Agent 的自律性。

7.4 精确召回 vs 语义模糊匹配

精确召回（FTS 全文检索）：适合查找特定术语、名称、代码片段
语义模糊匹配（向量检索）：适合我之前说过的那个方案这类模糊查询

OpenClaw 的 Hybrid Search（70% 向量 + 30% FTS）正是试图在两者之间取得平衡。

7.5 隐私与部署模式

模式	代表	隐私性	便利性
全本地	OpenClaw	⭐⭐⭐⭐⭐	⭐⭐⭐
自部署云	Letta, Cognee	⭐⭐⭐⭐	⭐⭐⭐⭐
托管 SaaS	Mem0 Cloud, Zep Cloud	⭐⭐	⭐⭐⭐⭐⭐

八、评估基准与指标

8.1 LongMemEval

由 Supermemory 团队重点使用的基准测试，专注于长期记忆能力评估：

超过 11.5 万 token 的对话历史
包含互相矛盾的信息
跨越多个会话的零散事件
需要进行时间推理的复杂问题

8.2 LoCoMo（Long Conversational Memory）

另一个广泛使用的记忆基准：

评估跨长对话的记忆保持能力
Letta Filesystem 在此基准上达到 74.0%

8.3 关键评估维度

维度	描述
准确率	检索到的信息是否正确
召回率	是否找到了所有相关信息
时效性	是否返回了最新版本的信息
抗矛盾	面对矛盾信息是否能给出正确答案
延迟	检索到回答的端到端延迟
成本	每次查询的 API / 计算成本

九、未来展望

9.1 混合架构将成为主流

向量检索做粗筛 + Agent 推理做精排 + 知识图谱做关系推理，三者融合的混合架构可能是最终答案。

9.2 记忆将从附加功能变成基础设施层

正如 Supermemory 团队所预见的：过去几年，大模型的竞争集中在参数规模、推理速度、上下文窗口长度。但记忆才是让 AI 从工具变成搭档的最后一块拼图。

9.3 标准化与互操作

目前各记忆系统各自为政，缺乏统一的接口标准。MemOS 提出的记忆操作系统概念，以及行业对统一评估基准的需求，都在推动标准化进程。

9.4 多模态记忆

当前大多数记忆系统只处理文本。随着多模态 Agent 的普及（语音、图像、视频），记忆系统也需要支持多模态信息的存储和检索。OpenClaw 已经开始支持图片 Embedding，但仍处于早期阶段。

9.5 隐私计算与联邦记忆

在企业场景下，多个 Agent 可能需要共享部分记忆但保护敏感信息。联邦学习 + 差分隐私的技术路线可能被引入记忆系统。

十、系列预告

本文作为 Agent Memory 技术系列开篇综述，后续将推出两篇深度解析：

《OpenClaw 记忆系统源码深度解析》
- 从 memory-search.ts 到 hybrid.ts 逐模块拆解
- SQLite + sqlite-vec 的向量存储实现
- Hybrid Search 的权重调参实践
- 多语言 FTS 查询扩展机制
- 文件监听与增量同步策略
- 适配 Gemini 的多模态记忆
《ASMR 多 Agent 记忆架构深度解析》
- 3+3 Agent 流水线的编排逻辑
- 六维知识提取的 Prompt 设计
- 8/12 变体集成回答的投票机制
- 从 ~85% 到 ~99% 的优化路径
- 与 Supermemory 生产引擎的关系

敬请期待。

参考文献

Du, Y., et al. Memory in the Age of AI Agents. arXiv preprint, December 2025. GitHub
Shah, D. We broke the frontier in agent memory: Introducing ~99% SOTA memory system. X (Twitter), March 22, 2026. Link
Supermemory. ASMR: Agentic Search and Memory Retrieval. Supermemory Blog, 2026. GitHub
OpenClaw. OpenClaw: Open-source AI Agent framework. GitHub
Packer, C., et al. MemGPT: Towards LLMs as Operating Systems. arXiv preprint arXiv:2310.08560, 2023. → 后更名为 Letta
Mem0. Graph Memory for AI Agents. Mem0 Blog, January 2026. Link
Li, Z., et al. MemOS: A Memory OS for AI System. arXiv preprint, 2025. 被引 40 次
Letta. Benchmarking AI Agent Memory: Is a Filesystem All You Need? Letta Blog, August 2025. Link
Zep AI. Zep: Long-term memory for AI Agents. Link
Cognee. Cognee: Knowledge graph memory for AI. GitHub

AI Agent 记忆系统技术综述：核心挑战与主流方案

一、引言：为什么 Agent 需要记忆？

1.1 从工具到搭档的跨越

1.2 记忆是 Agent 的最后一块拼图

二、记忆系统的核心挑战：远比存下来复杂

2.1 信息矛盾与时序推理

2.2 噪声过滤与精准检索

2.3 自动遗忘

2.4 多源信息融合

2.5 隐私与安全

三、Agent 记忆的分类体系：从人类认知到机器实现

3.1 按时间跨度分类

3.2 按功能角色分类

3.3 按存储形式分类

四、主流技术路线：五大范式

4.1 基于上下文窗口的记忆（Context Window）

4.2 基于 RAG 的记忆（Retrieval-Augmented Generation）

4.3 基于文件系统的记忆（Filesystem-Based）

4.4 基于知识图谱的记忆（Graph Memory）

4.5 基于多 Agent 推理的记忆（Agentic Memory）

五、代表性系统详解

5.1 Mem0：托管式语义记忆平台

5.2 Zep：长期记忆即服务

5.3 Letta（原 MemGPT）：虚拟上下文管理

5.4 Cognee：知识图谱驱动的结构化记忆

5.5 MemOS：记忆操作系统

5.6 OpenClaw：文件 + 向量混合检索记忆

5.7 ASMR（Supermemory）：多 Agent 主动推理记忆

六、系统横向对比

6.1 架构对比

6.2 基准测试对比（LongMemEval / LoCoMo）

七、关键设计决策分析

7.1 向量检索 vs Agent 推理检索

7.2 集中式 vs 分布式记忆

7.3 被动存储 vs 主动提取

7.4 精确召回 vs 语义模糊匹配

7.5 隐私与部署模式

八、评估基准与指标

8.1 LongMemEval

8.2 LoCoMo（Long Conversational Memory）

8.3 关键评估维度

九、未来展望

9.1 混合架构将成为主流

9.2 记忆将从附加功能变成基础设施层

9.3 标准化与互操作

9.4 多模态记忆

9.5 隐私计算与联邦记忆

十、系列预告

参考文献

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具