如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

优质文章学习记录

11 Apr 2026 — 6 min read

一、简单介绍：

Web Scraper 的优点就是对新手友好，在最初抓取数据时，把底层的编程知识和网页知识都屏蔽了，可以非常快的入门，只需要鼠标点选几下，几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里，写了很多篇关于 Web Scraper 的教程，本文类似于一篇导航文章，把爬虫的注意要点和我的教程连接起来。最快一个小时，最多一个下午，就可以掌握 Web Scraper 的使用，轻松应对日常生活中的数据爬取需求。

像这样的网页数据，想要通过网页爬虫的方式获取数据，可以下载web scraper进行爬虫

这是常见的网页类型：

1.单页

单页是最常见的网页类型。

我们日常阅读的文章，推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型，Web Scraper 教程里就拿豆瓣电影作为案例，入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的，当我们访问一个网站时，不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据，随着用户的交互操作（滚动、筛选、分页）才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据，因为内容较多，我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项，不同的选择会加载不同的数据，组合多变，交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页

官方支持Fierfox浏览器和Chrome浏览器，用edge浏览器也可以，以下演示我用edge浏览器来做：

二、安装教程

点进插件里获取更多扩展：

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息？那是因为你没有点scroll设置延迟，下面我来教学：

三、使用教程

1.第一步：选择一个帖子

按F12进入开发者模式：

接下来点create sitemap:

然后名字随便取，url填上面的网页链接：

然后点create sitemap

接下来创建新的选择器：

id随便取，type按照我图片上的来，元素滚动：

然后点击select选择全部的下滑框，像我图里的这样，然后点保存（我红框标注的）：

然后记得scroll记得也要选上，延迟选2000，最后save：

然后再点进content里面：

继续add:

然后直接一步到位吧，把最重要的data内容爬下来，id随便取，类型是text：

其它的像名字，点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框，此时最重要的来了！！！！！按住shift点击下一个帖子的data内容，这时候往下翻会发现都自动选中了：

done后save

其实在爬之前也可以data preview一下：

然后他会自动向下翻页

最后点击抓取：

不用管直接start：

然后他会自己往下翻，等他结束关闭了：

最后数据会弹出来，然后点导出数据：

最后结果：

四、总结：

掌握了 Web Scraper 的使用，基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫，虽然灵活度上受到了限制，但是低廉的学习成本可以大大节省学习时间，快速解决手头的工作，提高整体的工作效率。综合来看，Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Llama-Factory训练进度条卡住？常见问题排查手册

Llama-Factory训练进度条卡住？常见问题排查手册在大模型落地越来越依赖微调的今天，一个看似不起眼的问题——训练进度条不动了，却常常让开发者陷入焦虑。明明进程没崩、日志还在刷，GPU利用率也正常，可WebUI上的进度条就是一动不动，像极了“假死”。这种情况到底是不是真卡？要不要重启？会不会丢数据？如果你正在用 Llama-Factory 做模型微调，并且被这类问题困扰过，那你并不孤单。这个框架虽然大大降低了大模型定制的门槛，但其背后的复杂性并未消失，只是被封装得更友好而已。当“表面平静”之下暗流涌动时，我们需要的不是盲目重试，而是深入运行机制去定位根因。 Llama-Factory 的核心价值在于它把原本需要写一堆脚本、配一堆参数的大模型微调流程，变成了一键启动的可视化操作。支持上百种主流模型架构，集成 LoRA、QLoRA、全参微调等多种策略，还能通过 WebUI 实时查看 loss 曲线和显存占用。听起来很完美，对吧？可一旦训练“卡住”，这种抽象反而成了障碍：你不知道是数据加载慢、显存溢出、还是前端通信断了。

【AIGC】如何获取ChatGPT外部GPTs应用的提示词Prompt指令和知识库文件

博客主页： [小ᶻ☡꙳ᵃⁱᵍᶜ꙳]本文专栏: AIGC |GPTs应用实例文章目录 * 💯前言 * 💯获取GPTs的提示词Prompt指令 * 💯获取GPTs的知识库文件 * 💯小结 * 关于GPTs指令如何在ChatGPT上使用，请看这篇文章：【AIGC】如何在ChatGPT中制作个性化GPTs应用详解 https://blog.ZEEKLOG.net/2201_75539691?type=blog * 关于如何使用国内AI工具复现类似GPTs效果，请看这篇文章：【AIGC】国内AI工具复现GPTs效果详解 https://blog.ZEEKLOG.net/2201_75539691?type=blog 💯前言随着 ChatGPT 和其他 AI 应用的不断发展，越来越多的外部 GPTs 被集成进来，以增强其功能和适应多样化的用户需求。这些外部 GPTs 并不仅仅是通用的聊天助手，而是专为特定场景、

等了整整一年，Midjourney V8今天终于开放！

今夕是何年，Midjourney终于更新了…… 说真的，等这个版本等得有点久了，就在今天，Midjourney正式放出 V8 Alpha，开放社区测试。虽然还是Alpha版本，但这一次，感觉不一样了。 Midjourney一直是AI生图领域公认的「审美标杆」，但它有个老毛病——更新慢，而且喜欢鸽。从V6.1到V7，社区等了将近一年，V7发布后，V8的消息就开始传，然后又传了将近一年。期间各种「下周发布」「下个月发布」「年底发布」…… 结果到今天，V8 Alpha终于来了。虽迟但到，今天它来了。 V8到底更新了什么？它有什么特点。官方公告直接说了几个重点，咱们一条条拆。 1.提示词理解能力，终于升级了这是V8最核心的改变。 V8在理解详细指令方面大幅提升，同时在你随意发挥时依然能给你惊喜。说人话就是：以前你写复杂提示词，Midjourney经常「选择性失忆」，只执行一部分。 V8之后，它的提示词遵循能力更强了。 2.

VSCode 中精准禁用 Copilot 代码补全：按语言与场景灵活配置

1. 为什么需要精准控制 Copilot 代码补全作为一个用了 VSCode 和 Copilot 好几年的开发者，我深刻体会到 AI 代码补全的双刃剑效应。刚开始用 Copilot 的时候，那种"它怎么知道我要写什么"的惊喜感真的很棒，但后来我发现，在某些场景下，这种自动补全反而会成为负担。比如我在刷算法题的时候，刚写了个函数名，Copilot 就直接把整个实现都给我补全了。这还训练什么？完全达不到练习的目的。还有时候在写一些特定语言的代码，Copilot 的补全风格和团队规范不一致，每次都要手动调整，反而增加了工作量。更让我头疼的是在不同项目间切换的时候。有些项目我希望充分利用 Copilot 提高效率，有些项目则需要完全自己动手写代码。如果每次都去全局开关 Copilot，那也太麻烦了。其实 Copilot 的设计团队早就想到了这些场景，他们在 VSCode 中提供了非常精细的控制方式。不只是简单的开和关，你可以按编程语言禁用，