【AI】open claw框架说明

优质文章学习记录

10 Apr 2026 — 6 min read

“Open Claw框架”（业内常指代 AI Agent Execution Framework / Coding Agent架构）是连接大模型与实际系统操作的执行层框架。它不是单一产品，而是一类让AI从"对话"进化到"动手执行"的技术架构统称（涵盖OpenAI Codex CLI、Claude Code、Kimi Agent SDK等）。

以下是该框架的完整技术剖析：

一、框架定位：从LLM到Action的桥梁

传统LLM调用： Open Claw框架： 用户提问 → 模型回答 用户目标 → 理解 → 规划 → 执行 → 验证 → 迭代 ↑________↓ ↑________________________↓ 纯文本交互 物理世界/代码/系统操作

核心使命：将模型的认知能力转化为系统级操作能力（文件读写、代码编译、命令执行、API调用）。

二、五层架构详解

第1层：输入层（Interface Layer）

职责：多模态意图捕获

终端界面：REPL交互（Claude Code/Codex CLI）
IDE插件：VSCode/JetBrains扩展（Kimi Code）
API接口：程序化调用（Agent SDK）

# 示例：自然语言输入捕获 user_input ="帮我重构这个Python项目，添加类型注解并运行测试" context ={"cwd":"/workspace/project","files": get_file_tree(),"history": load_conversation_memory()}

第2层：理解层（Comprehension Layer）

职责：意图解析与任务分解

意图识别：区分"问答"vs"执行"
实体提取：识别文件路径、代码片段、工具名称
任务图生成：将目标拆解为可执行步骤（Todo List）

关键技术：

Function Calling：模型输出结构化工具调用指令
Chain-of-Thought：显式推理过程（“我需要先…然后…”）

第3层：规划层（Planning Layer）

职责：动态策略制定

依赖分析：识别任务间的先后关系
工具选择：从MCP工具箱中选择合适的工具
回滚策略：失败时的备选方案

# 生成的执行计划示例plan:-step:1action:"read_file"target:"main.py"purpose:"分析现有代码结构"-step:2action:"code_edit"target:"main.py"operation:"add_type_hints"-step:3action:"execute"command:"mypy ."validate:"exit_code == 0"

第4层：执行层（Execution Layer）

职责：安全沙盒内的操作执行

组件	功能	技术实现
Sandbox Manager	隔离环境生命周期管理	Firecracker microVM / Docker / E2B
Tool Executor	具体工具调用执行	MCP Client / 内置函数
Permission Gate	敏感操作审批	策略引擎（允许/拒绝/询问）
Stream Handler	实时输出捕获	STDOUT/STDERR重定向

执行类型：

文件操作：读/写/删/移动（带版本控制）
命令执行：Bash/PowerShell（沙盒内）
代码解释：Python/Node.js即时执行
API调用：HTTP请求、数据库查询

第5层：反馈层（Feedback Layer）

职责：结果验证与状态更新

输出解析：从原始输出提取关键信息
错误诊断：分析失败原因（语法错误？权限不足？）
记忆持久化：将新信息写入长期记忆
人机确认：不确定时请求用户介入

三、四大核心技术支柱

1. MCP（Model Context Protocol）

开放工具集成标准（Anthropic提出，现已成为事实标准）

┌─────────────┐ MCP协议 ┌─────────────┐ │ Agent │ ←────────────────→ │ Tool Server │ │ (Client) │ stdio / SSE │ (GitHub/DB等)│ └─────────────┘ └─────────────┘

能力：

工具发现（动态获取可用工具列表）
双向通信（工具可请求用户确认）
跨平台（任何语言实现的工具都可接入）

2. Sandbox（沙盒隔离）

安全执行的关键

隔离级别	技术	适用场景
进程级	seccomp + cgroup	快速命令执行
容器级	Docker + gVisor	代码编译运行
VM级	Firecracker microVM	不可信代码执行
远端级	E2B Cloud Sandbox	企业级安全要求

安全策略：

文件系统：只读挂载工作目录，/tmp可写
网络：默认阻断，白名单制开放
资源：CPU/内存/时间配额限制
审计：完整操作日志记录

3. Memory Architecture（记忆架构）

持久化上下文管理

工作记忆（Working Memory） ↓ 筛选重要信息 短期记忆（Short-term） ↓ 持久化存储 长期记忆（Long-term） ├─ 情节记忆：对话历史、项目里程碑 ├─ 语义记忆：用户偏好、编码风格 └─ 程序记忆：常用工作流、Skills

实现技术：

向量数据库：语义检索（Chroma/Milvus）
知识图谱：关系推理（Zep/Mem0）
传统数据库：精确事实（SQLite/PostgreSQL）

4. ACP/Agent Protocol（智能体协议）

标准化Agent行为（如Kimi提出的Agent Communication Protocol）

状态机定义：Agent的生命周期（Idle/Planning/Executing/Waiting）
消息格式：标准化Observation/Action格式
安全边界：定义哪些操作必须人工确认

四、安全与权限模型

三层防御体系

层级	机制	示例
预防层	静态分析	命令注入检测、敏感文件访问拦截
执行层	沙盒隔离	Docker容器、网络隔离、资源限制
审计层	操作日志	完整命令历史、文件变更记录

权限审批策略

# 权限决策逻辑defcheck_permission(operation, target):if operation in whitelist["auto_approve"]:return"EXECUTE"elif operation in blacklist["deny"]:return"REJECT"elif risk_score(operation, target)> threshold:return"ASK_USER"# 弹出确认对话框else:return"EXECUTE"

YOLO模式（高级用户）：

通过配置文件关闭确认（--dangerously-skip-permissions）
适用于自动化流水线，但风险自负

五、主流实现对比

框架	开发商	架构特点	适用场景
Codex CLI	OpenAI	Skills系统、沙盒执行、云端模型	快速原型、脚本任务
Claude Code	Anthropic	MCP原生支持、本地优先、渐进式执行	大型代码库重构
Kimi Code	Moonshot	ACP协议、开源SDK、多模态输入	企业集成、自定义Agent
AutoGLM	Zhipu	端侧执行、手机GUI操作	移动端自动化
OpenClaw	开源社区	消息平台集成、插件化	社交机器人

六、开发范式与最佳实践

1. 渐进式执行（Claude Code模式）

每一步执行前展示计划（Todo List）
用户可随时干预（Ctrl+C暂停、修改指令）
失败时自动重试或降级

2. 工具即代码（Skills）

将常用工作流封装为可复用Skills：

# deploy_skill.yamlname:"deploy_to_vercel"description:"构建并部署到Vercel"steps:-run:"npm run build"-run:"vercel --prod"-confirm:"部署完成，是否打开预览？"

3. 人机协作回路（Human-in-the-loop）

关键决策点：删除文件、网络请求、敏感数据操作必须确认
异常处理：执行失败时提供选项（重试/跳过/修改计划）

七、总结：Open Claw的本质

Open Claw = LLM（大脑）+ MCP（工具手）+ Sandbox（安全笼）+ Memory（经验库）

它不是简单的"命令行包装器"，而是一个认知-执行闭环系统：

理解：将模糊的人类意图转化为结构化计划
执行：在受控环境中安全地操作物理世界（代码/文件/系统）
记忆：从交互中学习，形成个性化能力
进化：通过Skills和MCP不断扩展能力边界

这类框架代表了AI从Advice-Giving（给建议）到Action-Taking（去执行）的范式转移，是未来AI Agent操作系统的核心架构。

前端SSG：静态站点生成的艺术

前端SSG：静态站点生成的艺术毒舌时刻前端SSG？这不是给博客用的吗？ "我的应用需要动态内容，SSG不适合"——结果首屏加载慢，SEO差， "SSG就是静态HTML，太简单了"——结果构建时间长，数据更新困难， "我用SSR就够了"——结果服务器压力大，响应慢。醒醒吧，SSG不是简单的静态HTML，而是一种现代化的前端架构！为什么你需要这个？ * 性能优异：静态文件加载快，无需服务器渲染 * SEO友好：所有内容都是静态的，搜索引擎容易收录 * 部署简单：可以部署到任何静态文件服务器 * 安全性高：没有服务器端代码，减少攻击面反面教材 // 反面教材：纯静态HTML <!DOCTYPE html> <html> <head>

一天一个开源项目（第24篇）：OpenClawInstaller - 一键部署私人 AI 助手 OpenClaw

引言 “把 Claude/GPT 装进 Telegram、Discord、飞书——一条命令完成环境检测、安装、配置与启动。” 这是"一天一个开源项目"系列的第24篇文章。今天带你了解的项目是 OpenClawInstaller（GitHub），由 miaoxworld 维护。 OpenClaw（官网 clawd.bot）是一个可自托管的 AI 助手网关：接入 Claude、GPT、Gemini、Ollama 等模型，通过 Telegram、Discord、WhatsApp、飞书、Slack、微信等渠道与你对话，并具备持久记忆、主动推送、技能系统与可选的远程控制能力。但若从零安装 OpenClaw、配置 Node 环境、

AI的提示词专栏：写作助手 Prompt，从提纲到完整文章

AI的提示词专栏：写作助手 Prompt，从提纲到完整文章本文围绕写作助手 Prompt 展开，阐述其核心价值在于降低写作门槛、提升效率与保证内容质量，介绍其 “指令目标、背景信息、输出约束、示例引导” 的基础结构。文章详细拆解从提纲生成到全文创作再到优化的三步流程，每步均提供含指令目标、背景信息、输出约束的 Prompt 示例，搭配预期输出与技巧分析，同时针对短篇文案、学术文章等不同场景给出 Prompt 调整策略，还解答了模型生成提纲偏离主题、内容缺乏论据、风格不统一等常见问题，最后总结核心要点并提出多轮迭代优化、结合工具使用等扩展建议，为高效生成符合需求的内容提供全面指导。人工智能专栏介绍人工智能学习合集专栏是 AI 学习者的实用工具。它像一个全面的 AI 知识库，把提示词设计、AI 创作、智能绘图等多个细分领域的知识整合起来。无论你是刚接触 AI 的新手，还是有一定基础想提升的人，都能在这里找到合适的内容。从最基础的工具操作方法，到背后深层的技术原理，

ChatGPT长对话卡顿问题分析与优化实践：从新手到进阶

ChatGPT长对话卡顿问题分析与优化实践：从新手到进阶你是否遇到过这样的场景：和ChatGPT进行了一段长时间的深度对话，从技术讨论聊到项目规划，结果AI的回复速度越来越慢，甚至出现明显的卡顿和等待？这并非你的错觉，而是许多开发者和用户在长对话交互中普遍遇到的“性能瓶颈”。今天，我们就来深入剖析这个问题的根源，并分享一套从新手也能上手的实战优化方案。 1. 背景与痛点：为什么对话越长，AI越“迟钝”？要理解卡顿，首先要明白ChatGPT这类大语言模型（LLM）的工作原理。它并非拥有“记忆”，而是依靠我们提供的“上下文”（Context）来生成回复。每一次对话，我们都需要将之前所有的对话历史（即上下文）连同新的问题一起，发送给模型。这就引出了长对话卡顿的核心痛点： * 上下文膨胀：假设你和AI聊了20轮，每轮平均100字。那么在第21轮提问时，你需要将前面2000字的对话历史全部作为输入。模型处理的文本长度（Token数）急剧增加，直接导致计算量呈非线性增长，响应延迟（Latency）显著上升。 * 内存压力：更长的上下文意味着模型需要在注意力机制中为更多的Tok