如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

机器人灵巧手:技术演进、市场格局与未来前景

机器人灵巧手:技术演进、市场格局与未来前景

机器人灵巧手:技术演进、市场格局与未来前景 机器人灵巧手作为具身智能的”最后一厘米”,正经历从实验室技术到产业化落地的关键转折点。2025年,全球灵巧手市场规模已达63.39亿元,中国市场规模更高达501.33亿元,年复合增长率超过300%。随着特斯拉Optimus Gen3等产品的量产计划推进,灵巧手技术正向”全感知”和”自适应”方向发展,逐步突破”性能、成本、可靠性”的”不可能三角”。从驱动系统看,空心杯电机和微型丝杠+腱绳传动方案成为主流;感知系统则通过触觉传感器与AI视觉融合实现突破。产业链国产化率已达70%以上,核心部件如空心杯电机、谐波减速器、传感器等均实现自主可控。未来5-10年,灵巧手有望从工业制造向家庭服务、医疗康养、特种作业等多元场景扩展,2030年全球市场规模预计达450亿元,2035年销量将突破百万只,迎来百亿级市场。 一、技术发展路径与核心模块创新 灵巧手技术发展经历了三个主要阶段:1970-1990年的基础结构阶段,1990-2020年的系统集成阶段,以及2020年至今的”全感知”和”自适应”

AI绘图的硬件密码:如何为Stable Diffusion选择与优化你的电脑配置

AI绘图的硬件密码:如何为Stable Diffusion选择与优化你的电脑配置 当第一次看到AI生成的画作时,很多人都会被其惊人的创造力和表现力所震撼。从细腻的肖像到奇幻的场景,AI绘图正在重塑创意产业的边界。而Stable Diffusion作为当前最受欢迎的开源AI绘图工具,让每个人都能在本地电脑上体验这股创作浪潮。但不同于在线服务,本地运行Stable Diffusion对硬件有着特定要求,不当的配置可能导致生成速度缓慢甚至无法运行。本文将深入解析硬件选择与优化的核心要点,帮助你在预算范围内搭建最适合AI绘图的工作站。 1. 显卡:AI绘图的核心引擎 显卡是影响Stable Diffusion性能的最关键组件,其选择直接决定了生成图像的速度和质量。与游戏或3D渲染不同,AI绘图对显卡有着独特的需求模式。 显存容量是首要考量因素。Stable Diffusion在生成512x512像素图像时,基础模型通常需要至少4GB显存。而若想处理更高分辨率(如768x768或1024x1024)或使用更复杂的大模型,8GB以上显存将成为必要条件。实测数据显示: 显存容量支持分

2026年,我整理了中国 200 多家机器人(具身智能)公司名单

2026年,我整理了中国 200 多家机器人(具身智能)公司名单

近几年,机器人行业突然变得异常热闹。尤其是2022年9月特斯拉首次亮相具身智能人形机器人 Optimus 之后,国内外都掀起了一波浪潮。2023年之后,国内出现了一批新的人形机器人公司,为了更好地理解这个行业,我整理了一份中国机器人企业名单,包含200 多家企业,涵盖人形机器人、工业机器人、移动机器人、服务机器人、特种机器人等领域。 注:名单中的企业排序没有特殊含义,仅表示本人收集信息的先后顺序。 序号企业简称总部成立时间主营产品网址企业全称1优必选深圳2012年人形机器人、轮式机器人https://ubtrobot.com深圳市优必选科技股份有限公司2宇树科技杭州2016年四足机器狗、人形机器人https://unitree.com宇树科技股份有限公司3智元上海2023年四足、轮式、双足人形机器人、具身模型https://zhiyuan-robot.com智元创新(上海)科技股份有限公司4海康机器人杭州2016年机器视觉、移动机器人https://hikrobotics.com杭州海康机器人股份有限公司5傅利叶上海2015年康复机器人、双足人形机器人、灵巧手https://f

win11本地部署openclaw实操第2集-让小龙虾具有telegram机器人能力和搜索网站能力

win11本地部署openclaw实操第2集-让小龙虾具有telegram机器人能力和搜索网站能力

1 按照第一集的部署完成后,我们就开始考虑给小龙虾增加telegram机器人和搜索网站能力,实现效果如下: 2 telegram机器人能力部署 C:\Users\Administrator.openclaw的配置文件openclaw.json 增加一段内容 "channels":{"telegram":{"enabled": true, "dmPolicy":"pairing", "botToken":"你的telegram机器人的token", "groupPolicy":"allowlist", "streamMode":"partial", "network":{"