如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

Llama-Factory训练进度条卡住?常见问题排查手册

Llama-Factory训练进度条卡住?常见问题排查手册 在大模型落地越来越依赖微调的今天,一个看似不起眼的问题——训练进度条不动了,却常常让开发者陷入焦虑。明明进程没崩、日志还在刷,GPU利用率也正常,可WebUI上的进度条就是一动不动,像极了“假死”。这种情况到底是不是真卡?要不要重启?会不会丢数据? 如果你正在用 Llama-Factory 做模型微调,并且被这类问题困扰过,那你并不孤单。这个框架虽然大大降低了大模型定制的门槛,但其背后的复杂性并未消失,只是被封装得更友好而已。当“表面平静”之下暗流涌动时,我们需要的不是盲目重试,而是深入运行机制去定位根因。 Llama-Factory 的核心价值在于它把原本需要写一堆脚本、配一堆参数的大模型微调流程,变成了一键启动的可视化操作。支持上百种主流模型架构,集成 LoRA、QLoRA、全参微调等多种策略,还能通过 WebUI 实时查看 loss 曲线和显存占用。听起来很完美,对吧? 可一旦训练“卡住”,这种抽象反而成了障碍:你不知道是数据加载慢、显存溢出、还是前端通信断了。

【AIGC】如何获取ChatGPT外部GPTs应用的提示词Prompt指令和知识库文件

【AIGC】如何获取ChatGPT外部GPTs应用的提示词Prompt指令和知识库文件

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳]本文专栏: AIGC |GPTs应用实例 文章目录 * 💯前言 * 💯获取GPTs的提示词Prompt指令 * 💯获取GPTs的知识库文件 * 💯小结 * 关于GPTs指令如何在ChatGPT上使用,请看这篇文章: 【AIGC】如何在ChatGPT中制作个性化GPTs应用详解     https://blog.ZEEKLOG.net/2201_75539691?type=blog * 关于如何使用国内AI工具复现类似GPTs效果,请看这篇文章: 【AIGC】国内AI工具复现GPTs效果详解     https://blog.ZEEKLOG.net/2201_75539691?type=blog 💯前言 随着 ChatGPT 和其他 AI 应用的不断发展,越来越多的外部 GPTs 被集成进来,以增强其功能和适应多样化的用户需求。这些外部 GPTs 并不仅仅是通用的 聊天助手,而是专为特定场景、

等了整整一年,Midjourney V8今天终于开放!

等了整整一年,Midjourney V8今天终于开放!

今夕是何年,Midjourney终于更新了…… 说真的,等这个版本等得有点久了,就在今天,Midjourney正式放出 V8 Alpha,开放社区测试。 虽然还是Alpha版本,但这一次,感觉不一样了。 Midjourney一直是AI生图领域公认的「审美标杆」,但它有个老毛病——更新慢,而且喜欢鸽。 从V6.1到V7,社区等了将近一年,V7发布后,V8的消息就开始传,然后又传了将近一年。 期间各种「下周发布」「下个月发布」「年底发布」…… 结果到今天,V8 Alpha终于来了。 虽迟但到,今天它来了。 V8到底更新了什么?它有什么特点。 官方公告直接说了几个重点,咱们一条条拆。 1.提示词理解能力,终于升级了 这是V8最核心的改变。 V8在理解详细指令方面大幅提升,同时在你随意发挥时依然能给你惊喜。 说人话就是:以前你写复杂提示词,Midjourney经常「选择性失忆」,只执行一部分。 V8之后,它的提示词遵循能力更强了。 2.

VSCode 中精准禁用 Copilot 代码补全:按语言与场景灵活配置

1. 为什么需要精准控制 Copilot 代码补全 作为一个用了 VSCode 和 Copilot 好几年的开发者,我深刻体会到 AI 代码补全的双刃剑效应。刚开始用 Copilot 的时候,那种"它怎么知道我要写什么"的惊喜感真的很棒,但后来我发现,在某些场景下,这种自动补全反而会成为负担。 比如我在刷算法题的时候,刚写了个函数名,Copilot 就直接把整个实现都给我补全了。这还训练什么?完全达不到练习的目的。还有时候在写一些特定语言的代码,Copilot 的补全风格和团队规范不一致,每次都要手动调整,反而增加了工作量。 更让我头疼的是在不同项目间切换的时候。有些项目我希望充分利用 Copilot 提高效率,有些项目则需要完全自己动手写代码。如果每次都去全局开关 Copilot,那也太麻烦了。 其实 Copilot 的设计团队早就想到了这些场景,他们在 VSCode 中提供了非常精细的控制方式。不只是简单的开和关,你可以按编程语言禁用,