如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

OpenClaw 配置本地 Ollama 模型完整指南:零成本打造全离线个人 AI 助理

OpenClaw 配置本地 Ollama 模型完整指南:零成本打造全离线个人 AI 助理

OpenClaw 配置本地 Ollama 模型完整指南:零成本打造全离线个人 AI 助理(2026 最新版·含 Auth 配置) 大家好,我是你的 AI 技术博主。今天我们来聊一个 2026 年最火的本地 AI 助理项目——OpenClaw。它能帮你清理收件箱、发邮件、管理日历、处理文件、集成 Telegram/WhatsApp,甚至执行复杂任务,而且完全跑在你自己的电脑上。 配合 Ollama 运行本地模型(如 Qwen3、Qwen2.5、GLM-4.7、Llama3.3 等),你就可以实现真正零费用、零网络依赖、全隐私保护的智能体体验。官方从 Ollama 0.17

【Agent】那个搞远程的向日葵也出 AI 了?!不用买设备,不用复杂配置,还支持多平台

【Agent】那个搞远程的向日葵也出 AI 了?!不用买设备,不用复杂配置,还支持多平台

那个搞远程的向日葵也出 AI 了?!不用买设备,不用复杂配置,还支持多平台 * 写在最前面 * 比openclaw更简单的配置过程,没有特定环境的需求 * 真正实用的地方,是它更接近现实场景 * 多平台、可查看、可接手,才是它更适合大众的原因 * 结语 🌌你好!这里是 晓雨的笔记本在所有感兴趣的领域扩展知识,感谢你的陪伴与支持~👋 欢迎添加文末好友,不定期掉落福利资讯 写在最前面 版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。 最近一段时间,“AI 操作电脑”这件事越来越火。很多人第一次看到这类演示时,都会觉得有点神奇:原来 AI 不只是会聊天、会写文案,居然真的开始会“用电脑”了。 也正因为这样,很多人会下意识觉得,所有“AI 控电脑”

智谱AI API接入实战:免费模型不限量使用指南(含若手软件配置示例)

智谱AI API接入实战:免费模型不限量使用指南(含若手软件配置示例)

本教程适用于有AI能力的软件,例如: 若手内容管家(批量生成内容、图片):https://www.ruoshou.com/soft/2.html 若手AI重命名(智能修改文件名):https://www.ruoshou.com/soft/3.html 其他非若手软件产品,但使用标准OpenAI API 格式请求的软件同样通用 基本信息 1. 平台地址:https://www.bigmodel.cn/ 2. KEY地址:https://www.bigmodel.cn/usercenter/proj-mgmt/apikeys 3. 模型、价格列表:https://www.bigmodel.cn/pricing 4.

DeepSeek-R1-Distill-Llama-8B实战教程:Ollama Web UI定制化提示模板配置方法

DeepSeek-R1-Distill-Llama-8B实战教程:Ollama Web UI定制化提示模板配置方法 你是不是也遇到过这样的问题:用DeepSeek-R1-Distill-Llama-8B模型时,每次都要重复输入相似的提示词,或者想让模型按照特定格式输出结果,但总是达不到理想效果? 今天我就来分享一个实用技巧——通过Ollama Web UI配置定制化提示模板,让你一键调用预设好的提示词,大幅提升使用效率和输出质量。无论你是开发者、研究人员,还是普通用户,这个方法都能让你的AI助手变得更聪明、更听话。 1. 为什么需要定制化提示模板? 在开始具体操作之前,我们先聊聊为什么要做这件事。DeepSeek-R1-Distill-Llama-8B是一个推理能力很强的模型,但要让它的能力充分发挥,提示词的编写质量至关重要。 1.1 常见的使用痛点 我总结了几个大家经常遇到的问题: * 重复劳动:每次都要重新输入相似的提示词结构 * 格式混乱:模型输出格式不统一,需要手动整理 * 效果不稳定:同样的任务,不同时间输入效果差异大 * 新手门槛高:不知道怎么写提示