如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

【AI开发】—— Copilot最佳使用方式与配置

【AI开发】—— Copilot最佳使用方式与配置

从 Claude Code 到 Copilot:我的 AI 编码工具选型与深度配置指南 本人使用过很多智能体开发工具,Claude Code、Codex、Cursor、Google Studio、Coze,其实千篇一律,大同小异。各厂商对 Agent 的 Prompt 设定与思考逻辑等略有差异,例如 Claude Code、Codex 等都有内置的系统提示词,作为开箱即用的 Coding 工具,专门针对编码、测试等开发流程进行了优化,使大家使用起来觉得非常高效(以 Claude Code 为例,感兴趣的可以参考 Claude Code 的系统提示词及智能体的设定);后来出现了 Skills、MCP 等、Plan Agent、SubAgent 等新特性,

Copilot代理与网络配置全攻略(突破访问限制的终极方法)

第一章:Copilot代理与网络配置全攻略(突破访问限制的终极方法) 在使用 GitHub Copilot 的过程中,开发者常因网络策略或区域限制无法正常激活服务。通过合理配置代理与网络环境,可有效绕过此类问题,确保代码补全功能稳定运行。 配置本地代理服务器 为确保 Copilot 能够连接至远程 API,建议在本地部署 HTTP 代理服务。以下是一个基于 Node.js 的简易代理示例: // proxy-server.js const http = require('http'); const net = require('net'); // 创建 HTTP 代理服务器 const server = http.createServer((req, res) => { // 允许跨域请求 res.setHeader(

普通的笔记本电脑使用Faster-Whisper 如何选择模式?

普通的笔记本电脑使用Faster-Whisper 如何选择模式?

CPU 环境下使用 Faster-Whisper 并开启 int8 量化,这几个模型模式(tiny、base、distil-whisper)的主要区别在于识别准确率(WER)、运行速度(RTF)以及对上下文的理解能力。 在 CPU + int8 模式下,你的瓶颈主要在于计算速度和内存带宽。以下是详细的对比分析和建议: 1. 核心区别概览 模型模式参数量速度 (CPU int8)准确率核心优势适用场景Tiny~39M🚀 极快⭐ 基础资源占用极低,响应最快简单的语音指令、极低延迟需求的实时字幕Base~74M⚡ 快⭐⭐ 良好速度与准确率的平衡点日常会议记录、清晰的播客转录Distil-Whisper~756M🐢 较慢⭐⭐⭐⭐ 优秀接近 Large 模型的准确率,抗噪性强复杂口音、背景噪音大、专业术语较多的场景 2. 详细模式解析 🟢 Tiny 模式:极致速度,资源敏感