如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

读懂 Google 搜索里的页面体验:从浏览器渲染到 Core Web Vitals 的完整落地指南

读懂 Google 搜索里的页面体验:从浏览器渲染到 Core Web Vitals 的完整落地指南

很多人谈页面体验时,习惯把它等同于跑分,或者把某一个指标当成万能钥匙。更贴近真实情况的理解是:Google 的核心排名系统希望把内容质量与可用性、可访问性、加载与交互的顺畅程度一起纳入整体判断,最终奖励那些让用户读得顺、点得动、看得清、信得过的页面。Google 也明确说明,不存在某一个单一的page experience signal可以决定排名,页面体验更像一组围绕整体使用感受的信号集合。(Google for Developers) 下面这篇文章会把页面体验拆成一套你能在工程上执行的框架:你会看到每个要点背后对应的浏览器机制,如何用工具测量,怎样用改动把指标变好,以及为什么只追求满分反而可能浪费时间。(Google for Developers) 页面体验到底在衡量什么 如果把页面体验当成一个产品指标,它衡量的是用户在一次访问中是否能顺利完成目标,比如:打开页面后能快速看到主要内容、滚动时布局不乱跳、点击按钮能及时响应、页面不会被弹窗强行打断、连接是安全的、手机上不用放大缩小就能读。Google 给出了一组非常实用的自测问题,只要你对这些问题大部分都能回答是,通常意味着你

WebUI界面交互优化:手机检测系统上传失败重试机制与用户体验改进

WebUI界面交互优化:手机检测系统上传失败重试机制与用户体验改进 1. 引言:从一次上传失败说起 想象一下这个场景:你正急着用手机检测系统分析一张重要的监控截图,点击上传按钮,进度条转了几圈,最后弹出一个冷冰冰的提示——“上传失败”。没有原因,没有解决方案,只能重新选择文件再试一次。如果网络稍微波动,这个过程可能要重复好几遍。 这就是我们今天要解决的问题。基于 DAMO-YOLO 和 TinyNAS 技术的实时手机检测系统,虽然核心检测能力出色(88.8%的准确率,3.83ms/张的速度),但在用户交互层面,特别是文件上传这个关键环节,还有很大的优化空间。 一个真正好用的系统,不仅要“跑得快”,还要“用得顺”。本文将带你深入探讨如何为这个手机检测系统设计一套智能的上传失败重试机制,并从多个维度提升WebUI的整体用户体验。无论你是系统开发者、运维人员还是最终用户,这些改进都能让日常使用变得更加顺畅。 2. 当前上传流程的问题诊断 在开始优化之前,我们先要搞清楚现有上传流程到底有哪些痛点。根据用户反馈和实际测试,我总结了以下几个主要问题: 2.1

前端十年:从0到资深开发者的10堂必修课【第1篇】

前端十年:从0到资深开发者的10堂必修课【第1篇】

前端十年:从0到资深开发者的10堂必修课 第1篇:基石篇——HTML/CSS/JavaScript 核心与开发环境 万丈高楼平地起,任何宏伟的前端工程都离不开最基础的三大核心技术:HTML、CSS 和 JavaScript。本篇将带你夯实这些基石,同时搭建高效的开发环境,为后续的进阶之路做好充分准备。 一、HTML5 语义化与文档结构 HTML 是网页的骨架,而 HTML5 带来的语义化标签让骨架更加清晰、可读。良好的语义化不仅有助于搜索引擎理解页面内容(SEO),还能提升代码的可维护性和无障碍访问性(a11y)。 1. 常用语义标签与 SEO 基础 在 HTML5 之前,我们常用 <div> 来划分页面区域,但 <div> 本身没有任何语义。HTML5 引入了一系列语义标签,让页面结构一目了然。

Dify 入门系列(六):从 Web 到 API交付与集成,打通 AI 落地的“最后一公里”

大家好,我是独孤风。 在上一篇教程中,我们已经在Dify的“工作室”里,用5分钟“组装”出了一个懂公司规范的 “📊 数据治理知识助手”。 但是,现在有一个尴尬的问题: 这个超酷的AI助手,目前还被锁在Dify的“工厂”里。 只有拥有Dify账号、能登录后台的人才能看见它。这就像造了一辆法拉利,却只能在自家车库里空转,不能开上路去接送客户。 AI工程化的核心,不仅在于“造出来”,更在于“用起来”。 今天,我们要进行Dify入门篇的关键一课:交付与集成 (Delivery & Integration)。 我们将拆掉Dify工厂的围墙,通过三种方式,把这个AI助手“分发”到真实的世界中去: 1. Web App:生成公开链接,发给老板直接用。 2. 嵌入 (Embed):把AI挂载到公司内网或博客上。 3. API (后端即服务):这是架构师的最爱,