简介
Web Scraper 是一款对新手友好的浏览器插件,屏蔽了底层编程知识,通过鼠标点选即可快速搭建自定义爬虫。
网页类型
- 单页:如文章详情页,结构最简单。
- 分页列表:主流做法是先加载部分数据,随交互(滚动、分页)加载下一部分。知乎属于此类。
- 筛选表单:PC 网站常见,筛选项组合多变,交互复杂。
安装
官方支持 Firefox、Chrome 和 Edge 浏览器。在浏览器扩展商店搜索 "Web Scraper" 进行安装。
使用步骤
-
创建 Sitemap
- 打开目标帖子页面,按 F12 进入开发者模式。
- 点击插件中的 "Create sitemap"。
- 输入名称及当前网页链接,点击创建。
-
配置选择器
- 滚动选择器:新建选择器,Type 设为 "Scroll"。点击页面下滑框选中元素,设置 Scroll 为 true,延迟设为 2000ms,保存。
- 内容选择器:在 Content 中新增选择器,Type 设为 "Text"。按住 Shift 键点击第一个数据项,再向下翻至最后一个数据项,自动选中所有条目,保存。
- 可添加其他同级字段(如点赞量、评论量)。
-
抓取与导出
- 点击 "Start" 开始抓取,插件会自动向下翻页。
- 抓取结束后,点击 "Export" 导出数据。
- 数据将以 CSV 格式弹出,可保存至本地。
总结
掌握 Web Scraper 的使用,可应对大部分日常数据爬取需求。相比 Python 爬虫,其学习成本低,能快速解决工作问题,提高效率。


