提示词、Agent、MCP、Skill 到底是什么?一文搞懂 AI 圈最火的四个概念

提示词、Agent、MCP、Skill 到底是什么?一文搞懂 AI 圈最火的四个概念
最近 AI 圈有几个词被反复提起:提示词、Agent、MCP、Skill。很多人听了半天还是一头雾水——它们到底是什么?有什么区别?什么时候用哪个?这篇文章用一个贯穿始终的比喻,把这四个概念讲清楚。
插图1 - 四个概念登场

先建立一个统一的比喻

想象你开了一家外卖店,雇了一个聪明的员工来处理订单。

  • 提示词 = 你给员工的工作指令
  • Skill = 员工手边的操作手册
  • MCP = 员工能用的各种工具和设备(电话、收银机、外卖平台)
  • Agent = 员工本人——能自主思考、决策、行动的那个人

这四个东西不是竞争关系,而是同一个系统里的不同层次


一、提示词(Prompt):你说的每一句话

是什么

提示词就是你输入给 AI 的文字。最简单的形式:

帮我写一封请假邮件 

复杂一点的,叫系统提示词(System Prompt),在对话开始前就告诉 AI 它的角色和规则:

你是一个专业的客服助手,只回答关于我们产品的问题, 语气要友好,回答要简洁,不超过 100 字。 

类比

提示词就是你对员工说的话。"今天重点处理退款投诉"、"回复客户要有礼貌"——这些都是提示词。

局限性

提示词有个根本问题:每次对话都要重新说

你今天告诉员工"要有礼貌",明天他忘了,你还得再说一遍。而且提示词越长,AI 的注意力越分散,效果越差。

这就是为什么需要 Skill。

插图2 - 员工接收指令

二、Skill:员工手边的操作手册

是什么

Skill 是一个 Markdown 文件(SKILL.md),开头用 YAML 格式标注名称和描述,正文写操作指南:

--- name: refund-handler # 技能名称 description: 处理退款申请 # 简短描述 --- 

# 退款处理流程

当用户申请退款时:
1. 核实订单号和购买时间
2. 如果在 7 天内,直接批准
3. 如果超过 7 天,转人工审核
4. 回复用户预计到账时间

类比

Skill 是员工桌上的操作手册。不用每次都口头交代,员工遇到退款问题,自己翻手册就知道怎么做。

和提示词的区别

提示词Skill
作用范围当次对话按需加载,可复用
适合写什么临时指令、角色设定特定任务的操作流程
管理方式每次手动输入文件形式,统一管理
典型场景"帮我改一下这段话""遇到退款请求,这样处理"

一句话:提示词是你说的话,Skill 是写下来的规范。


三、MCP:员工能用的工具和设备

是什么

MCP(Model Context Protocol,模型上下文协议)是 Anthropic 在 2024 年 11 月发布的开放标准。2025 年 12 月,MCP 已捐赠给 Linux 基金会下的 Agentic AI Foundation,由 Anthropic、Block、OpenAI 共同创立,AWS、Google、Microsoft 等为白金支持方,成为行业事实标准。

它解决的问题是:AI 怎么连接外部世界?

在 MCP 出现之前,每个 AI 应用想接入一个外部工具(数据库、GitHub、飞书……),都要单独写一套对接代码。10 个工具,10 套代码,维护噩梦。

MCP 的做法是:定义一套统一的通信协议。工具方按这个协议暴露能力,AI 按这个协议调用工具。一次对接,到处可用。

🔌 MCP 之于 AI,就像 USB-C 之于电子设备——不管是手机、平板还是笔记本,一个接口全搞定。

类比

MCP 是员工能用的工具和设备:电话(打给供应商)、收银机(处理支付)、外卖平台后台(查看订单)。

这些工具不是员工自带的,是店里配备的。员工(AI)通过标准接口使用它们,不需要关心每个设备内部怎么工作。

工作原理

MCP 采用客户端-服务器架构:

  • MCP 服务器:包装外部工具(数据库、API、文件系统等),暴露标准接口
  • MCP 客户端:AI 应用通过客户端连接服务器,调用工具能力
  • 通信协议:双方通过 JSON-RPC 2.0 协议通信

一次配置,到处可用——这就是 MCP 的核心价值。

MCP 能做什么

MCP 服务器可以向 AI 暴露三类能力:

能力类型说明举例
Resources(资源)让 AI 读取数据读取数据库记录、文件内容
Tools(工具)让 AI 执行操作发送消息、创建工单、查询 API
Prompts(模板)预置工作流模板代码审查模板、报告生成模板

目前有哪些 MCP 服务器

截至 2026 年初,GitHub 上已有超过 13,000 个 MCP 服务器(数据来源:tolearn.blog),覆盖:

  • 数据库:PostgreSQL、MySQL、MongoDB、Redis
  • 协作工具:飞书/Lark、Slack、Notion、GitHub
  • 云服务:AWS、阿里云、腾讯云
  • 本地文件系统、浏览器控制等
插图3 - 工具箱

Skill 和 MCP 的区别

这是最容易混淆的地方。

TL;DR:MCP 连接工具,Skill 告诉 AI 怎么用工具。
SkillMCP
本质Markdown 文件,给 AI 看的说明通信协议,连接 AI 和外部系统
解决什么问题AI 不知道怎么做某件事AI 无法访问外部数据和工具
类比操作手册工具和设备本身
举例"遇到退款请求,按这个流程处理"连接到订单系统,能查询和修改订单

两者经常配合使用:MCP 提供能力,Skill 告诉 AI 如何运用这个能力


四、Agent:能自主干活的员工

是什么

Agent(智能体)是能自主观察、思考、决策、行动的 AI 助手。

普通 AI 对话是这样的:

你说一句 → AI 回一句 → 结束 

Agent 是这样的:

你说一句 → AI 思考 → AI 行动 → AI 观察结果 → AI 再思考 → AI 再行动 → ... → 完成任务 

Agent 可以:
- 调用工具(通过 MCP)
- 执行代码
- 浏览网页
- 存储记忆
- 把任务拆分给其他 Agent

类比

Agent 就是员工本人。他不只是被动执行指令,而是能主动思考:

"客户说退款没到账,我先查一下订单状态(调用 MCP 工具),发现是银行处理延迟,然后给客户发一条解释消息(再次调用工具),最后在系统里记录这个问题(又一次调用工具)。"

整个过程,你只说了一句"处理一下这个退款投诉",Agent 自己完成了后续所有步骤。

Agent 和其他概念的关系

你的指令(提示词) ↓ Agent(员工) ├── 加载 Skill(查操作手册) └── 调用 MCP(使用工具) ├── 查询数据库 ├── 发送飞书消息 └── 操作 GitHub 

Agent 是执行主体,其他三个都是它的"装备"。

插图4 - Agent全副武装

五、四个概念的完整对比

提示词SkillMCPAgent
是什么给 AI 的文字指令任务操作手册连接外部工具的协议自主行动的 AI 实例
解决什么告诉 AI 做什么规范 AI 怎么做让 AI 能访问外部世界让 AI 自主完成复杂任务
类比你说的话操作手册工具和设备员工本人
谁在用它用户AgentAgent
能独立存在吗
典型形式文字SKILL.md 文件MCP 服务器运行中的 AI 进程

六、什么时候用哪个?

场景一:临时问一个问题

"帮我把这段英文翻译成中文"

只需要提示词,不需要其他任何东西。

场景二:重复性的标准化任务

每次有用户投诉,都按同一套流程处理

写一个 Skill,把流程固化下来,AI 每次遇到投诉自动加载。

场景三:AI 需要访问你的系统

"帮我查一下今天的销售数据"、"在飞书上发一条通知"

需要 MCP,把你的数据库、飞书等系统通过 MCP 协议暴露给 AI。

场景四:复杂的多步骤任务

"分析本周的用户反馈,整理出 Top 10 问题,生成报告,发给产品团队"

需要 Agent,它会自主拆解任务、调用工具、完成整个流程,你只需要说一句话。

和场景三的区别:场景三是"你告诉 AI 每一步做什么",场景四是"你只说目标,AI 自己规划步骤"。

插图5 - 四种使用场景

七、一个真实的例子串起来

假设你要搭建一个智能客服系统

  1. 提示词:设定 AI 的角色——"你是XX公司的客服助手,语气友好,只回答产品相关问题"
  2. Skill:写几个操作手册——退款处理流程、投诉升级流程、常见问题解答
  3. MCP:接入公司系统——订单数据库(查询订单)、飞书(通知人工客服)、工单系统(创建工单)
  4. Agent:把以上三者组合起来,让 AI 自主处理用户咨询,遇到复杂问题自动升级,全程不需要人工干预

这四个东西,缺一不可。


总结

概念一句话
提示词你对 AI 说的话
SkillAI 的操作手册,告诉它怎么做某件事
MCPAI 连接外部世界的标准接口,像 USB-C
Agent能自主思考和行动的 AI,是执行主体

它们不是竞争关系,而是同一个 AI 系统的不同层次

你用提示词告诉 Agent 做什么,Agent 查阅 Skill 知道怎么做,通过 MCP 调用工具完成任务。

AI 的能力边界,正在从"回答问题"扩展到"完成任务"。提示词、Skill、MCP、Agent——这四样东西,就是这场扩展的基础设施。下次再看到这些词,你应该不会一头雾水了。

Read more

TWIST2——全身VR遥操控制:采集人形全身数据后,可训练视觉base的自主策略(基于视觉观测预测全身关节位置)

TWIST2——全身VR遥操控制:采集人形全身数据后,可训练视觉base的自主策略(基于视觉观测预测全身关节位置)

前言 我司内部在让机器人做一些行走-操作任务时,不可避免的需要全身遥操机器人采集一些任务数据,而对于全身摇操控制,目前看起来效果比较好的,并不多 * 之前有个CLONE(之前本博客内也解读过),但他们尚未完全开源 * 于此,便关注到了本文要解读的TWIST2,其核心创新是:无动捕下的全身控制 PS,如果你也在做loco-mani相关的工作,欢迎私我你的一两句简介,邀你加入『七月:人形loco-mani(行走-操作)』交流群 第一部分 TWIST2:可扩展、可移植且全面的人形数据采集系统 1.1 引言与相关工作 1.1.1 引言 如TWIST2原论文所说,现有的人形机器人远程操作系统主要分为三大类: 全身控制,直接跟踪人体姿态,包括手臂、躯干和腿部在内的所有关节以统一方式进行控制(如 HumanPlus [12],TWIST [1] ———— TWIST的介绍详见此文《TWIST——基于动捕的全身遥操模仿学习:教师策略RL训练,学生策略结合RL和BC联合优化(可训练搬箱子)》 部分全身控制,

Ubuntu搭建PX4无人机仿真环境(5) —— 仿真环境搭建(以Ubuntu 22.04,ROS2 Humble,Micro XRCE-DDS Agent为例)

Ubuntu搭建PX4无人机仿真环境(5) —— 仿真环境搭建(以Ubuntu 22.04,ROS2 Humble,Micro XRCE-DDS Agent为例)

目录 * 前言 * 1. 准备 * 1.1 下载 PX4 源码 * 方式一: * 方式二: * 1.2 安装仿真依赖 * 1.3 安装 Gazebo * 2. 安装 Micro XRCE-DDS Agent * 3. 编译 PX4 * 4. 通信测试 * 5. 官方 offboard 程序 * 6. offboard 测试 * 参考 前言 本教程基于 ROS2 ,在搭建之前,需要把 ROS2、QGC 等基础环境安装配置完成。但是这块的资料相比较于 ROS1 下的少很多,不利于快速上手和后期开发,小白慎选! 小白必看:

基于Matlab/Simulink平台的FPGA开发

基于Matlab/Simulink平台的FPGA开发

基于 Matlab/Simulink 平台进行 FPGA 开发是一种高效的 "算法驱动" 设计方法,尤其适合从算法原型到硬件实现的快速迭代,广泛应用于电力电子、通信、控制、图像处理等领域。其核心优势在于通过可视化建模和自动代码生成,减少手动编写 HDL(硬件描述语言)的工作量,同时保证算法与硬件实现的一致性。 一、FPGA建模与仿真 基于Simulink建模:使用Simulink搭建算法模型(如信号处理、控制系统等),通过仿真验证功能正确性。 定点化处理:通过Fixed-Point Designer工具将浮点算法转换为定点模型,优化硬件资源占用。 仿真验证:通过 Simulink 仿真验证模型功能正确性,重点测试边界条件和异常场景,确保算法逻辑无误。 二、FPGA代码生成 HDL Coder 是 MathWorks 公司推出的一款核心工具,主要用于将 MATLAB 算法和 Simulink 模型自动转换为可综合的硬件描述语言(