WebMCP:开启 Agentic Web 新时代——Chrome 新 API 的特性与前瞻

WebMCP:开启 Agentic Web 新时代——Chrome 新 API 的特性与前瞻

2026 年 2 月,Google Chrome 团队正式发布了 WebMCP(Web Model Context Protocol)的早期预览版。这是一个旨在重塑网页与 AI 代理(Agent)交互方式的新标准。它让网站不再只是“给人看”的静态页面,而是可以直接向 AI 代理暴露结构化工具,让 Agent 以更高效、更可靠的方式完成复杂任务。

过去,AI 代理操作网页主要依赖模拟人类行为:截屏、解析 DOM、点击按钮、填写表单。这种方式不仅慢、容易出错,还会消耗大量 token。随着 Agentic AI 的快速发展,这种低效交互已成为瓶颈。WebMCP 的出现,正是为了解决这个问题。它让网站主动声明“我能做什么”,Agent 直接调用结构化工具,像调用 API 一样精准高效。

WebMCP 是什么?

WebMCP 是由 Google 和 Microsoft 联合推动、正在 W3C 社区孵化的网页标准。它在浏览器层面引入了 navigator.modelContext 接口,让网站可以向 AI 代理暴露可调用的工具(tools)。这些工具带有明确的名称、描述、输入输出 schema,Agent 可以直接发现并执行,而无需通过视觉或 DOM 模拟。

核心目标:

  • 提升速度、可靠性和精确性
  • 让网页成为 Agent 的“原生接口”
  • 推动“Agentic Web”——网页主动参与 AI 代理工作流

两大核心 API:声明式与命令式

WebMCP 提供了两种互补的实现方式,满足从简单到复杂的不同场景。

Imperative API(命令式 API)
通过 JavaScript 动态注册,更灵活,适合复杂交互(如多步骤配置、实时计算)。示例:电商网站添加购物车工具

navigator.modelContext.registerTool({name:"add_to_cart",description:"将商品加入购物车",inputSchema:{type:"object",properties:{productId:{type:"string"},quantity:{type:"integer"}},required:["productId"]},execute:async(params)=>{// 实际业务逻辑awaitaddToCart(params.productId, params.quantity);return{success:true,cartCount:getCartCount()};}});

Agent 可以直接调用 add_to_cart,无需模拟点击、滚动、等待加载。

Declarative API(声明式 API)
最轻量的方式,直接在 HTML 标记中添加属性即可。适合已有表单的场景,几乎零额外成本。示例:一个航班搜索表单

<formtoolname="search_flights"tooldescription="搜索可用航班,支持出发地、目的地和日期筛选"><inputname="origin"placeholder="出发地"/><inputname="destination"placeholder="目的地"/><inputname="date"type="date"/><buttontype="submit">搜索</button></form>

Agent 看到这个表单后,就能直接调用 search_flights 工具,传入结构化参数,返回 JSON 格式的航班列表。

WebMCP 的核心优势

相比传统的 UI 模拟方式,WebMCP 带来了质的飞跃:

  • 速度更快:一次工具调用取代数十次截屏+推理+操作,延迟大幅降低。
  • 可靠性更高:明确工具契约,避免因页面布局变动导致的失败。
  • 成本更低:大幅减少 token 消耗,不再需要传输大量截图或无关 DOM。
  • 开发者友好:复用现有前端代码,无需额外后端 API 或重构。
  • 用户体验更好:支持“human-in-the-loop”,Agent 在用户可见的页面上操作,保持上下文共享。

典型应用场景:

  • 旅行预订:Agent 直接搜索、筛选、预订航班
  • 电商:精准搜索商品、配置选项、完成下单
  • 客户支持:自动填写技术细节、提交工单

前瞻性功能与影响

WebMCP 不仅是技术升级,更是 Agentic Web 的基础设施。它预示着几个重要趋势:

  1. 开发者红利期来临
    谁先实现高质量的 WebMCP 工具层,谁就能在 Agent 流量中占据先机。早期采用者可以吸引更多 AI 代理访问,提升网站在 Agent 生态中的曝光和转化。
  2. 标准化与跨浏览器支持
    目前仅在 Chrome 146 Canary 中通过 flag 启用,但 Microsoft 已参与孵化,Edge 很可能跟进。未来有望成为 W3C 正式标准,像 HTTP 一样成为网页与 Agent 交互的通用接口。
  3. 与其它协议互补
    WebMCP 专注于浏览器内、用户可见的交互场景,与 Google A2A(headless 自动化)、Anthropic MCP(服务端)形成互补,共同构建完整的 Agent 生态。
  4. 潜在挑战与演进
    发现机制(如何让 Agent 知道网站支持 WebMCP)、安全性(权限控制)、以及网站货币化模式仍需探索。但正如帖子中讨论的,一些平台可能选择封闭,而开放者将赢得未来。

结语

WebMCP 的出现,标志着网页从“被动展示”向“主动协作”转变。它让 AI 代理真正“理解”网站意图,而不是盲目模拟人类行为。对于开发者来说,现在就是最佳窗口期:打开 Chrome Canary,启用 flag,尝试 travel-demo,亲手注册几个工具。

Agentic Web 时代已经拉开序幕。你的网站准备好迎接 Agent 了吗?

Read more

无人机避障新思路:手把手教你用APF-RRT*算法实现高效轨迹规划(附Python代码)

无人机避障新思路:手把手教你用APF-RRT*算法实现高效轨迹规划(附Python代码) 去年夏天,我在一个无人机巡检项目里遇到了一个棘手的问题:传统的RRT算法在复杂林地环境中规划路径时,经常“卡”在密集的树木之间,要么采样效率低下导致规划时间过长,要么生成的路径曲折得让无人机像喝醉了一样左右摇摆。团队尝试了各种参数调整,效果都不理想。直到我们把人工势场法的引导机制引入到双向RRT*算法中,情况才发生了根本性转变——不仅规划速度提升了近70%,生成的路径也平滑了许多。 这种结合了APF(人工势场法)和双向RRT的混合算法,如今已经成为许多无人机开发者解决复杂环境路径规划的秘密武器。它巧妙地将APF的方向引导优势与RRT的渐进最优特性结合起来,同时利用双向搜索大幅提升收敛速度。今天,我就从工程实践的角度,带你一步步实现这个算法,分享我在实际项目中积累的参数调优经验,并提供可直接运行的Python代码。 1. 理解APF-RRT*算法的核心思想 在开始写代码之前,我们需要先弄清楚这个混合算法到底解决了什么问题。传统的RRT算法虽然概率完备,但在复杂环境中存在明显的局限性:随机采

【论文阅读103】pinn-review-科学机器学习中的物理信息神经网络:现状与展望

【论文阅读103】pinn-review-科学机器学习中的物理信息神经网络:现状与展望

科学机器学习中的物理信息神经网络:现状与展望 作者:Salvatore Cuomo¹ · Vincenzo Schiano Di Cola² · Fabio Giampaolo¹ · Gianluigi Rozza³ · Maziar Raissi⁴ · Francesco Piccialli¹ 在线发表:2022年7月26日 摘要 物理信息神经网络(Physics-Informed Neural Networks,PINNs)是一类将模型方程(如偏微分方程,PDE)直接嵌入神经网络结构中的神经网络(NN)。目前,PINNs 已被广泛用于求解偏微分方程、分数阶方程、积分-微分方程以及随机偏微分方程。这一新兴方法作为一种多任务学习框架出现,在该框架中,神经网络不仅需要拟合观测数据,还需最小化 PDE 残差。 本文对物理信息神经网络相关文献进行了全面综述:研究的主要目标是阐明这类网络的特征、优势与局限性。同时,本文还涵盖了更广义的基于配点法(collocation-based)的物理约束神经网络研究,包括从最初的基础 PINN(

论文阅读:Training language models to follow instructions with human feedback

Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744. 引言 引言首先指出了当前大型语言模型(LMs)存在的一个核心问题:模型规模变大并不意味着它们能更好地遵循用户的意图 。具体而言,大型模型经常生成不真实、有毒或对用户毫无帮助的输出,这是因为语言模型的训练目标(预测网页上的下一个 token)与用户希望的目标(“有用且安全地遵循指令”)是错位的。作者的目标是让模型在“有用性”(Helpful)、“诚实性”(Honest)和“无害性”(Harmless)这三个方面与用户意图对齐。

openclaw飞书机器人权限管理

为了确保 OpenClaw 既能顺畅运行,又不至于因权限过大导致安全隐患,建议在飞书开发者后台 - 权限管理中,按照以下清单进行勾选。 这份清单分为基础必备和进阶功能两部分: 1. 基础必备权限(无论个人还是团队,必须开启) 这些权限保证机器人能“听到”指令并“开口”说话: * im:message:p2p_msg:readonly (接收单聊消息) —— 允许机器人和你 1 对 1 聊天。 * im:message:group_at_msg:readonly (接收群聊中@机器人的消息) —— 团队场景下,机器人只响应被 @ 的内容,保护群隐私。 * im:message.p2p_msg:send (发送单聊消息) —— 机器人回复你的基础。 * im:message.