JAVA API (三):从基础爬虫构建到带条件数据提取 —— 详解 URL、正则与爬取策略

JAVA API (三):从基础爬虫构建到带条件数据提取 —— 详解 URL、正则与爬取策略

个人主页-爱因斯晨

文章专栏-Java学习

相关文章:API (一)

相关文章:API(二)

持续努力中,感谢支持
在这里插入图片描述

一、爬虫基础

(一)爬虫的基本概念

  • 定义:爬虫是按照一定规则自动抓取网络信息的程序,在 Java 环境下,可借助URLHttpURLConnection等 API 来实现。
  • 应用场景:广泛应用于数据采集,如电商平台的价格监控、各类新闻的聚合;还可用于信息分析,如舆情监测等。

(二)Java 实现简单爬虫的步骤

建立网络连接:利用URL类确定目标网页的地址,再通过openConnection()方法获取HttpURLConnection对象。

URL url =newURL("https://example.com");HttpURLConnection conn =(HttpURLConnection) url.openConnection();

设置请求参数:明确请求方式(GET/POST)以及超时时间等参数。

conn.setRequestMethod("GET"); conn.setConnectTimeout(5000);

获取响应数据:通过输入流读取网页的内容,并将其转换为字符串进行处理。

InputStream in = conn.getInputStream();BufferedReader br =newBufferedReader(newInputStreamReader(in));String line;StringBuilder sb =newStringBuilder();while((line = br.readLine())!=null){ sb.append(line);}

数据解析与提取:结合字符串处理方法或者正则表达式,从网页源码中提取出目标信息,如链接、文本内容等。

(三)爬虫的核心 API

  • URL:代表统一资源定位符,主要功能是标识网络资源的地址。
  • HttpURLConnection:用于发送 HTTP 请求和接收响应,支持设置请求头、获取响应码等操作。
  • 输入流相关类(InputStreamBufferedReader):这些类的作用是读取网络数据。

二、带条件爬取与贪婪爬取

(一)带条件爬取

  • 定义:按照特定规则对目标数据进行筛选,避免无差别地抓取无关信息,从而提高爬取效率。
  • 实现方式:
  • 基于标签筛选:例如只提取<a>标签中的链接,或者<div>中的文本内容。
  • 基于内容关键词:通过字符串的contains()方法或者正则表达式,过滤出包含指定关键词的数据。
  • 示例:爬取网页中所有包含 “Java” 关键词的标题
Pattern pattern =Pattern.compile("<title>(.*?)</title>");Matcher matcher = pattern.matcher(htmlContent);while(matcher.find()){String title = matcher.group(1);if(title.contains("Java")){System.out.println(title);}}

(二)贪婪爬取与非贪婪匹配

  • 贪婪匹配:正则表达式在默认情况下,会尽可能匹配最长的字符串。比如,用.*匹配<div>content1</div>``<div>content2</div>时,会从第一个<div>一直匹配到最后一个</div>
  • 非贪婪匹配:在量词后添加?可实现非贪婪匹配,即尽可能匹配最短的字符串。例如,.*?能够分别匹配两个<div>标签内的内容。
  • 对比示例:
  • 正则表达式"<div>(.*)</div>"(贪婪):匹配结果为 “content1content2”
  • 正则表达式"<div>(.*?)</div>"(非贪婪):匹配结果为 “content1” 和 “content2”

三、正则表达式的核心方法

(一)正则表达式基础语法

  • 常用元字符:.(可匹配任意字符)、*(匹配前导字符 0 次或多次)、+(匹配前导字符 1 次或多次)、?(匹配前导字符 0 次或 1 次)、()(用于分组)等。
  • 预定义字符类:\d(匹配数字)、\w(匹配字母、数字、下划线)、\s(匹配空白字符)等。

(二)Java 中处理正则的两个核心类

Pattern 类:

表示编译后的正则表达式,可通过compile()方法创建实例。

Pattern pattern =Pattern.compile("\\d+");// 匹配1个或多个数字
Matcher 类:

用于对字符串进行匹配操作,常用方法包括:

Matcher matcher = pattern.matcher("abc123def456");while(matcher.find()){System.out.println(matcher.group());// 输出:123、456}
  • find():查找下一个匹配的子序列。
  • group():返回当前匹配的子序列(需要与find()配合使用)。
  • matches():判断整个字符串是否完全匹配正则表达式。

四、实战注意事项

反爬机制规避:

设置合理的请求间隔,可使用Thread.sleep()实现;添加请求头来模拟浏览器,例如设置User-Agent

conn.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64)");

正则表达式效率优化:

避免使用过度复杂的表达式,对于频繁使用的正则,提前将其编译为Pattern实例,这样可实现复用,减少性能消耗。

合法性与道德规范:

爬取数据时,需遵守网站的robots.txt协议,避免侵犯隐私或者引发法律风险。

Read more

【MYSQL】MYSQL学习的一大重点:MYSQL数据类型

【MYSQL】MYSQL学习的一大重点:MYSQL数据类型

🎬 个人主页:艾莉丝努力练剑 ❄专栏传送门:《C语言》《数据结构与算法》《C/C++干货分享&学习过程记录》 《Linux操作系统编程详解》《笔试/面试常见算法:从基础到进阶》《Python干货分享》 ⭐️为天地立心,为生民立命,为往圣继绝学,为万世开太平 🎬 艾莉丝的简介: 文章目录 * 0 ~> int:最佳实践 * 1 ~> 数据类型分类 * 1.1 数值类型 * 1.2 文本、二进制类型 * 1.3 时间日期 * 1.4 String类型 * 2 ~> 数值类型 * 2.1 TINYINT 类型 * 2.2

Tauri 项目结构前端壳 + Rust 内核,怎么协作、怎么构建、怎么扩展

1. 顶层(前端工程):就是一个普通的 Web 项目 Tauri 的项目结构非常“工程化”:通常由两部分组成 * 可选的 JavaScript/前端工程(负责 UI,最终产出静态资源) * 必须的 Rust 工程(在 src-tauri/,负责窗口、系统能力、打包分发、安全边界) 一个典型目录长这样(你贴的结构非常标准): . ├── package.json ├── index.html ├── src/ │ ├── main.js ├── src-tauri/ │ ├── Cargo.toml │ ├── Cargo.lock │ ├── build.rs │ ├── tauri.conf.json │ ├── src/ │ │ ├── main.rs │ │ └── lib.rs │ ├── icons/

s2-pro部署教程:Docker Compose编排s2-pro+前端+日志收集一体化

s2-pro部署教程:Docker Compose编排s2-pro+前端+日志收集一体化 1. 项目概述 s2-pro是Fish Audio开源的专业级语音合成解决方案,通过Docker镜像形式提供开箱即用的文本转语音服务。本教程将指导您使用Docker Compose一键部署完整的s2-pro生产环境,包含: * 核心语音合成服务 * 现代化前端界面 * 集中式日志收集系统 * 健康监控组件 2. 环境准备 2.1 硬件要求 * GPU服务器:推荐NVIDIA Tesla T4或更高性能显卡 * 内存:至少16GB RAM * 存储:50GB可用磁盘空间(用于模型缓存) 2.2 软件依赖 确保宿主机已安装: * Docker 20.10+ * Docker Compose 2.0+ * NVIDIA Container Toolkit 验证环境: docker --version docker-compose

QT for Android之嵌入webview的问题及解决方案记录(一)

最近的项目是做国产平板(安卓)上的app,目前项目已落地,回顾并记录一下遇到的问题。 注:整个系列问题针对于QT5.12.4 + QT Creator4.9.1,该帖用于记录遇到的问题与当时的解决方案,若有更好的方法欢迎评论。 1.html资源的存储位置问题         我的项目是用的前端用VSCode打的资源包的内容,内容中一般包含assets/css/imgs/js等文件夹及入口文件index.html。 结论:直接放在运行目录的同级目录android文件夹里的assets文件夹下,相当于将资源包里的文件直接全部复制到android>>assets文件夹下即可。(不能将该部分的文件放在.pro文件中去操作,我操作时的资源包大小在200MB,放在pro文件中去进行查找和复制的话QTCreator会很卡很卡)。         为什么当时要去pro文件中操作,是因为项目里还有些人脸识别的资源需要打包并拷贝到自定义的一个文件夹中,比如取名为android-src,里面放一些音视频资源之类的,后来觉得前端资源也应该放到这个文件夹里,于是就改为去pro文件中操作,结果就变得很