如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

如何利用简单的浏览器插件Web Scraper爬取知乎评论数据

一、简单介绍:

Web Scraper 的优点就是对新手友好,在最初抓取数据时,把底层的编程知识和网页知识都屏蔽了,可以非常快的入门,只需要鼠标点选几下,几分钟就可以搭建一个自定义的爬虫。

我在过去的半年里,写了很多篇关于 Web Scraper 的教程,本文类似于一篇导航文章,把爬虫的注意要点和我的教程连接起来。最快一个小时,最多一个下午,就可以掌握 Web Scraper 的使用,轻松应对日常生活中的数据爬取需求。

像这样的网页数据,想要通过网页爬虫的方式获取数据,可以下载web scraper进行爬虫

这是常见的网页类型:

1.单页

单页是最常见的网页类型。

我们日常阅读的文章,推文的详情页都可以归于这种类型。作为网页里最简单最常见的类型,Web Scraper 教程里就拿豆瓣电影作为案例,入门 Web Scraper 的基础使用。

2.分页列表

分页列表也是非常常见的网页类型。

互联网的资源可以说是无限的,当我们访问一个网站时,不可能一次性把所有的资源都加载到浏览器里。现在的主流做法是先加载一部分数据,随着用户的交互操作(滚动、筛选、分页)才会加载下一部分数据。

教程里我费了较大的笔墨去讲解 Web Scraper 如何爬取不同分页类型网站的数据,因为内容较多,我放在本文的下一节详细介绍。

3.筛选表单

表单类型的网页在 PC 网站上比较常见。

这种网页的最大特点就是有很多筛选项,不同的选择会加载不同的数据,组合多变,交互较为复杂。比如说淘宝的购物筛选页。

知乎就是属于第二种的网页滚动加载分页




官方支持Fierfox浏览器和Chrome浏览器,用edge浏览器也可以,以下演示我用edge浏览器来做:

二、安装教程

点进插件里获取更多扩展:

搜索web scraper进行安装

大家在自己使用的时候是不是只能爬5条信息?那是因为你没有点scroll设置延迟,下面我来教学:

三、使用教程

1.第一步:选择一个帖子

按F12进入开发者模式:

接下来点create sitemap:

然后名字随便取,url填上面的网页链接:

然后点create sitemap

接下来创建新的选择器:

id随便取,type按照我图片上的来,元素滚动:

然后点击select选择全部的下滑框,像我图里的这样,然后点保存(我红框标注的):

然后记得scroll记得也要选上,延迟选2000,最后save:

然后再点进content里面:

继续add:

然后直接一步到位吧,把最重要的data内容爬下来,id随便取,类型是text:

其它的像名字,点赞量评论量什么的你们自己可以设置同级别的add点击需要爬取的框,把信息都爬下来

接下来点select点击内容框,此时最重要的来了!!!!!按住shift点击下一个帖子的data内容,这时候往下翻会发现都自动选中了:

done后save

其实在爬之前也可以data preview一下:

然后他会自动向下翻页

最后点击抓取:

不用管直接start:

然后他会自己往下翻,等他结束关闭了:

最后数据会弹出来,然后点导出数据:

最后结果:

四、总结:

掌握了 Web Scraper 的使用,基本上可以应付学习工作中 90% 的数据爬取需求。相对于 python 爬虫,虽然灵活度上受到了限制,但是低廉的学习成本可以大大节省学习时间,快速解决手头的工作,提高整体的工作效率。综合来看,Web Scraper 还是非常值得去学习的。

希望大家多多点赞收藏支持~

Read more

基于飞算JavaAI的在线图书借阅平台设计与实现

基于飞算JavaAI的在线图书借阅平台设计与实现

引言 在数字化转型背景下,高校图书管理系统面临智能化升级需求。本文以飞算JavaAI为开发工具,通过智能引导式开发流程,实现一个包含用户管理、图书借阅、权限控制等核心功能的在线平台。系统采用Spring Boot + MyBatis技术栈,结合飞算AI的代码生成能力,将传统3周的开发周期压缩至3天,验证了AI辅助开发在Java企业级应用中的高效性。 文章目录 * 引言 * 飞算介绍 * 环境准备 * 1. 下载“IDEA” * 2.安装 * 3. 下载“飞算Java AI”扩展 * 4.登录 * 需求分析与规划 * 核心功能模块 * 技术选型 * 系统实现 * 1. 自然语言描述需求 * 2. 理解需求 * 3. 设计接口 * 4. 表结构设计 * 5. 处理逻辑接口 * 6. 生成源码 * 优化与调试心得 * 遇到的问题 * 调试技巧 * 成果展示与总结

如何用AI加速Simulink建模与仿真

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 点击'项目生成'按钮,等待项目生成完整后预览效果 输入框内输入如下内容: 使用快马平台生成一个Simulink模型代码,用于模拟一个PID控制器系统。要求包含输入信号生成模块、PID控制器模块、被控对象模块和输出显示模块。系统应能自动调整PID参数以达到最佳控制效果,并生成相应的仿真结果图表。 最近在研究控制系统设计时,发现Simulink建模虽然强大,但手动搭建复杂模型相当耗时。尤其像PID控制器这类需要反复调试的系统,光是参数优化就能让人抓狂。于是尝试用AI工具来辅助开发,效果出乎意料的好,这里分享一下具体操作和心得。 1. 明确建模目标 首先需要明确要实现的系统功能:构建一个完整的PID控制闭环,包含信号输入、控制器、被控对象和结果可视化四个核心模块。传统手动建模至少要经历模块拖拽、连线、参数设置、仿真验证等十余个步骤。 2. 参数智能优化 最惊喜的是AI能根据被控对象特性推荐初始PID参数。比如当模型包含惯性环节时,会自动给出较大的微分时间常

Seedance 2.0(即梦 2.0)深度解析:AI 视频进入「导演级」可控时代

Seedance 2.0(即梦 2.0)深度解析:AI 视频进入「导演级」可控时代

2026 年 2 月 12 日,字节跳动 Seed 实验室正式发布Seedance 2.0(即梦 2.0) 多模态音视频生成大模型。它以统一多模态联合架构为底座,在运动稳定性、角色一致性、多镜头叙事与音画同步上实现全面突破,成为当前国内最接近工业级生产的 AI 视频模型之一。 一、核心定位与行业地位 * 定位:全能型 AI 视频生成模型,支持文生视频、图生视频、视频续作、音频驱动、多模态混合生成 * 成绩:在权威榜单Video Arena中文生视频、图生视频双赛道登顶 * 输出规格:2K 电影级分辨率,最长支持15 秒高质量多镜头成片,支持视频平滑延长 二、四大核心能力(真正解决创作痛点) 1. 多模态全能参考:一次输入,全域控制

与AI沟通的正确方式——AI提示词:原理、策略与精通之道

与AI沟通的正确方式——AI提示词:原理、策略与精通之道

文章目录 * 第一章:提示词革命——AI时代的新语言 * 1.1 从命令行到自然语言:人机交互的范式转变 * 1.1.1 历史脉络中的交互演进 * 1.1.2 提示词的本质:思维的结构化投射 * 1.2 提示词为何如此重要:放大人类智能的杠杆 * 1.2.1 提示词作为“思维乘数” * 1.2.2 经济性价值:降低AI使用成本 * 1.2.3 协作性价值:标准化智能协作协议 * 1.3 提示词的认知科学基础:人类如何思考AI如何“思考” * 1.3.1 人类思维的特点与提示词设计 * 1.3.2 AI的“思维”