一、简单介绍
Web Scraper 是一款对新手友好的浏览器插件,屏蔽了底层编程知识,可快速搭建自定义爬虫。
常见的网页类型包括:
1. 单页
单页是最常见的网页类型。日常阅读的文章、推文详情页均属于此类。Web Scraper 教程常以豆瓣电影为例入门基础使用。
2. 分页列表
互联网资源无限,主流做法是先加载部分数据,随用户交互(滚动、筛选、分页)加载下一部分。知乎属于第二种网页滚动加载分页。
3. 筛选表单
PC 网站常见,特点是有许多筛选项,不同选择加载不同数据,组合多变,交互复杂。
官方支持 Firefox 和 Chrome 浏览器,Edge 也可用。以下演示以 Edge 浏览器为例。
二、安装教程
在扩展商店搜索 Web Scraper 进行安装。
若仅能爬取少量信息,通常是因为未设置滚动延迟。
三、使用教程
- 第一步:选择一个帖子
按 F12 进入开发者模式。
点击 create sitemap。
名字自定义,URL 填写当前网页链接,点击 create sitemap。
创建新的选择器:
ID 可自定义,Type 选择 Element Scroller(元素滚动)。
点击 select 选择全部下滑框,保存。
记得勾选 scroll,延迟设为 2000,最后保存。
点进 content 里面继续 add。
直接提取最重要的 data 内容,ID 自定义,类型是 text。
其他信息如名字、点赞量等可同级别添加需要爬取的框。
接下来点 select 点击内容框,按住 shift 点击下一个帖子的 data 内容,往下翻会发现都自动选中。
完成后保存。
抓取前可进行数据预览。
系统会自动向下翻页。
最后点击抓取,不用管直接 start。
等待结束关闭。
数据弹出后,点击导出数据。
最终导出数据。
四、总结
掌握 Web Scraper 可应对大部分日常数据爬取需求。相比 Python 爬虫,其学习成本低,能快速提升效率。


