阿里开源 Page-Agent：一行代码实现浏览器内 AI 原生应用

Page-Agent 是阿里开源的前端浏览器 GUI Agent 框架，支持零后端部署。它允许通过一行代码集成多种大语言模型（如 GPT、Claude、通义千问等），实现智能表单填写、SaaS 辅助及无障碍增强等功能。该方案采用纯前端架构，强调隐私安全与人机协同，适用于企业办公、电商及数据分析等场景。

FrontendX发布于 2026/4/6更新于 2026/4/1813 浏览

简介

Page-Agent 是阿里巴巴开源的浏览器内 GUI Agent 框架，核心理念是让任何网站都能轻松集成 AI 能力，无需后端部署。

核心特点

纯前端方案：无需后端服务器，直接在浏览器内运行
支持多种 LLM：OpenAI、Claude、DeepSeek、Qwen、Gemini、Grok、Ollama、Kimi、GLM、LLaMA 等
隐私优先：所有操作都在浏览器内完成，数据不会外泄
人机协同：内置确认面板，用户可以实时查看和确认 AI 的操作
MIT 开源：完全免费，可商用
轻量级：持续更新维护

核心功能

1. 智能表单填写

Page-Agent 可以自动识别网页中的表单字段，根据用户指令智能填写，提升工作效率。

2. SaaS AI 副驾驶

为 SaaS 应用添加 AI 助手，让用户通过自然语言即可完成复杂操作。

3. 无障碍增强

帮助残障人士更好地使用网页，提供语音控制和智能导航功能。

4. 多页面任务控制

通过浏览器扩展支持跨页面的复杂任务执行，实现真正的自动化工作流。

快速开始

使用 Page-Agent 非常简单，只需要在你的网站中引入一行代码：

import { PageAgent } from '@alibaba/page-agent';
const agent = new PageAgent({ model: 'gpt-4', apiKey: 'your-api-key' });
agent.run('帮我填写这个表单');

使用示例

支持的模型

Page-Agent 支持市面上主流的几乎所有大语言模型：

OpenAI (GPT-4, GPT-3.5)
Claude (Anthropic)
DeepSeek
Qwen (通义千问)
Gemini (Google)
Grok (xAI)
Ollama (本地部署)
Kimi (月之暗面)
GLM (智谱 AI)
LLaMA (Meta)

技术架构

Page-Agent 采用纯前端架构，主要包含以下模块：

DOM 解析器：智能分析网页结构
：模拟用户交互行为

阿里开源 Page-Agent：一行代码实现浏览器内 AI 原生应用

简介

核心特点

核心功能

1. 智能表单填写

2. SaaS AI 副驾驶

3. 无障碍增强

4. 多页面任务控制

快速开始

支持的模型

技术架构

更多推荐文章

相关免费在线工具

应用场景

企业办公

电商平台

数据分析

无障碍辅助

总结

阿里开源 Page-Agent：一行代码实现浏览器内 AI 原生应用

简介

核心特点

核心功能

1. 智能表单填写

2. SaaS AI 副驾驶

3. 无障碍增强

4. 多页面任务控制

快速开始

支持的模型

技术架构

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

应用场景

企业办公

电商平台

数据分析

无障碍辅助

总结