如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

优质文章学习记录

05 Apr 2026 — 6 min read

一、简单介绍：

Web Scraper 的优点就是对新手友好，在最初抓取数据时，把底层的编程知识和网页知识都屏蔽了，可以非常快的入门，只需要鼠标点选几下，几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里，写了很多篇关于 Web Scraper 的教程，本文类似于一篇导航文章，把爬虫的注意要点和我的教程连接起来。最快一个小时，最多一个下午，就可以掌握 Web Scraper 的使用，轻松应对日常生活中的数据爬取需求。

像这样的网页数据，想要通过网页爬虫的方式获取数据，可以下载web scraper进行爬虫

这是常见的网页类型：

1.单页

单页是最常见的网页类型。

我们日常阅读的文章，推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型，Web Scraper 教程里就拿豆瓣电影作为案例，入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的，当我们访问一个网站时，不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据，随着用户的交互操作（滚动、筛选、分页）才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据，因为内容较多，我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项，不同的选择会加载不同的数据，组合多变，交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页

官方支持Fierfox浏览器和Chrome浏览器，用edge浏览器也可以，以下演示我用edge浏览器来做：

二、安装教程

点进插件里获取更多扩展：

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息？那是因为你没有点scroll设置延迟，下面我来教学：

三、使用教程

1.第一步：选择一个帖子

按F12进入开发者模式：

接下来点create sitemap:

然后名字随便取，url填上面的网页链接：

然后点create sitemap

接下来创建新的选择器：

id随便取，type按照我图片上的来，元素滚动：

然后点击select选择全部的下滑框，像我图里的这样，然后点保存（我红框标注的）：

然后记得scroll记得也要选上，延迟选2000，最后save：

然后再点进content里面：

继续add:

然后直接一步到位吧，把最重要的data内容爬下来，id随便取，类型是text：

其它的像名字，点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框，此时最重要的来了！！！！！按住shift点击下一个帖子的data内容，这时候往下翻会发现都自动选中了：

done后save

其实在爬之前也可以data preview一下：

然后他会自动向下翻页

最后点击抓取：

不用管直接start：

然后他会自己往下翻，等他结束关闭了：

最后数据会弹出来，然后点导出数据：

最后结果：

四、总结：

掌握了 Web Scraper 的使用，基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫，虽然灵活度上受到了限制，但是低廉的学习成本可以大大节省学习时间，快速解决手头的工作，提高整体的工作效率。综合来看，Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

深度盘点：GitHub 上十大必装 Claude Skill，让你的 AI 助手效率提升 4 倍

深度盘点：GitHub 上十大必装 Claude Skill，让你的 AI 助手效率提升 4 倍 Claude Code 已经很强大，但如果搭配这些精心设计的 Skills，它将变身超级生产力工具。本文为你深度解析 GitHub 上最受欢迎的 10 大 Claude Skills，帮助你找到最适合的配置方案。引言：为什么 Claude Skills 如此重要？在 2025-2026 年，Claude Code 生态经历了爆发式增长。Skills 系统的出现，让 Claude 从一个"对话助手"升级为"专业工具"。通过安装不同的 Skills，你可以：

AI agent：介绍 ZeroClaw 安装，使用

ZeroClaw 是一款纯 Rust 编写、超轻量、高性能的 AI Agent 运行时，主打极低资源占用、快速启动与多模型/多通道接入，适合本地/嵌入式/服务器部署。一、ZeroClaw 核心介绍 ZeroClaw 定位为轻量级 AI 助手基础设施，核心优势： * 极致轻量：编译后仅约 3.4MB 单文件二进制，运行内存 < 5MB，启动 < 10ms。 * 纯 Rust 实现：无 Node.js 依赖，安全、稳定、内存安全。 * 多模型兼容：原生支持 22+ AI 服务商（OpenAI、

OpenClaw ACP 协议深度解析：让 IDE 直接驱动你的 AI Agent

OpenClaw ACP 协议深度解析：让 IDE 直接驱动你的 AI Agent 🔗 ACP（Agent Client Protocol）是 OpenClaw 最新的核心基础设施升级 —— 一个连接 IDE 和 OpenClaw Gateway 的通信隧道，让你在 VS Code / Zed 中直接驱动 AI Agent，一切都无需离开编辑器 📑 文章目录 1. 为什么需要 ACP：在 IDE 和 Agent 之间反复横跳的痛苦 2. ACP 30 秒速懂：AI 世界的 Language Server Protocol 3. ACP 架构全景：

2026年3月23日技术资讯洞察：AI Agent失控，Claude Code引领AI编程新趋势

兄弟们早上好！今天是2026年3月23日，我又准时给大家分享今天的技术资讯啦，就是这么准时！话不多说，开始上菜！ 1. Meta内部AI Agent失控：首个Sev 1级生产事故敲响安全警钟来源： InfoQ《Meta 内部 Agent 失控升级：首个 Sev 1 级事故曝光，系统数据裸奔了两小时》发布时间： 2026年3月20日事件回顾：权限失控两小时上周，Meta内部发生了一起典型的"Agent失控"生产事故。一名Meta员工在内部论坛发帖求助技术问题，另一名工程师调用公司内部的AI Agent来分析问题。然而，这个Agent没有跟调用者私聊，而是直接在论坛上公开发布了建议回复。更糟糕的是，Agent给出的建议是错误的。提问员工按照这个错误信息操作，导致权限配置出错，大量公司内部数据+用户相关数据短暂暴露给一批原本无权限的工程师。整个暴露过程持续近2小时，Meta内部将其定为Sev 1级，即公司安全事件体系中第二高的严重等级。技术剖析：上下文压缩的安全隐患