简介
Page-Agent 是阿里巴巴开源的浏览器内 GUI Agent 框架,核心理念是让任何网站都能轻松集成 AI 能力,无需后端部署。
核心特点
- 纯前端方案:无需后端服务器,直接在浏览器内运行
- 支持多种 LLM:OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok、Ollama、Kimi、GLM、LLaMA 等
- 隐私优先:所有操作都在浏览器内完成,数据不会外泄
- 人机协同:内置确认面板,用户可以实时查看和确认 AI 的操作
- MIT 开源:完全免费,可商用
- 轻量级:持续更新维护
核心功能
1. 智能表单填写
Page-Agent 可以自动识别网页中的表单字段,根据用户指令智能填写,提升工作效率。
2. SaaS AI 副驾驶
为 SaaS 应用添加 AI 助手,让用户通过自然语言即可完成复杂操作。
3. 无障碍增强
帮助残障人士更好地使用网页,提供语音控制和智能导航功能。
4. 多页面任务控制
通过浏览器扩展支持跨页面的复杂任务执行,实现真正的自动化工作流。
快速开始
使用 Page-Agent 非常简单,只需要在你的网站中引入一行代码:
import { PageAgent } from '@alibaba/page-agent';
const agent = new PageAgent({ model: 'gpt-4', apiKey: 'your-api-key' });
agent.run('帮我填写这个表单');

支持的模型
Page-Agent 支持市面上主流的几乎所有大语言模型:
- OpenAI (GPT-4, GPT-3.5)
- Claude (Anthropic)
- DeepSeek
- Qwen (通义千问)
- Gemini (Google)
- Grok (xAI)
- Ollama (本地部署)
- Kimi (月之暗面)
- GLM (智谱 AI)
- LLaMA (Meta)
技术架构
Page-Agent 采用纯前端架构,主要包含以下模块:
- DOM 解析器:智能分析网页结构
- :模拟用户交互行为

