Python 实战:Boss 直聘职位信息爬虫开发全解析​

Python 实战:Boss 直聘职位信息爬虫开发全解析​

在求职和职场数据分析场景中,获取结构化的职位信息能为我们提供极大的便利 —— 无论是对比薪资水平、分析行业需求,还是研究企业招聘偏好,都需要可靠的数据源支持。本文将手把手教你用 Python 开发一个 Boss 直聘爬虫,通过监听网络请求的方式高效获取职位数据,并将结果保存为 Excel 文件。

一、开发前准备:环境与工具

在开始编码前,我们需要搭建好开发环境并明确核心依赖库的作用,确保后续开发过程顺畅。

1. 环境要求

  • Python 3.8 及以上版本(推荐 3.10,兼容性更好)
  • 浏览器:Chrome 或 Edge(需与 Chromium 内核驱动版本匹配)

2. 核心依赖库

本文爬虫主要依赖 4 个关键库,可通过pip install 库名命令安装:

  • DrissionPage:一款强大的浏览器自动化工具,支持控制浏览器、监听网络请求,无需手动配置 Selenium 驱动,上手门槛极低。
  • pandas:数据分析领域的 “瑞士军刀”,用于将爬取到的字典数据转换为 DataFrame,并快速导出为 Excel。
  • sqlalchemy:(本文未实际使用数据库存储,预留扩展接口)用于数据库连接,方便后续将数据存入 MySQL、PostgreSQL 等数据库。
  • json:Python 内置库,用于解析接口返回的 JSON 格式数据。

二、爬虫核心逻辑拆解

本爬虫的核心思路是:模拟浏览器访问 Boss 直聘搜索页 → 监听后端返回职位数据的 API 接口 → 解析 JSON 数据提取关键字段 → 翻页循环采集 → 保存数据到 Excel。相比传统的 “解析网页 HTML” 方式,监听 API 接口能直接获取结构化数据,效率更高且稳定性更强。

下面我们按代码顺序逐步解析每个模块的作用。

1. 初始化与用户输入

首先通过input()函数获取用户想要爬取的职位关键词和页数,让爬虫更具灵活性。

import json

from time import sleep

from sqlalchemy import create_engine

import pandas as pd

from DrissionPage import ChromiumPage

# 接收用户输入:职位关键词和爬取页数

key = input('请输入你想爬取的职位信息')

mun = int(input('请输入你想爬取页数'))

# 实例化Chromium浏览器对象(自动启动浏览器)

dp = ChromiumPage()

2. 监听 API 接口:精准捕获数据来源

Boss 直聘的职位数据是通过异步请求加载的,我们通过 DrissionPage 的listen功能,精准监听返回职位列表的 API 接口,避免解析复杂的网页 DOM 结构。

# 访问Boss直聘搜索页:传入职位关键词,城市默认“全国”(city=100010000)

dp.get(f'https://www.zhipin.com/web/geek/job?query={key}&city=100010000')

# 定义空列表,用于存储爬取到的职位字典数据

ans = []

关键说明:该 API 接口是通过浏览器 F12 开发者工具(Network→XHR/ Fetch)分析发现的,每次翻页都会请求该接口返回 JSON 格式的职位数据。

3. 循环爬取:翻页与数据提取

这是爬虫的核心执行部分,通过循环实现多页爬取,每一页都完成 “下滑加载→等待数据→解析字段→存储数据” 的流程。

# 循环爬取指定页数

for page in range(mun):

print(f'正在采集第{page+1}页数据') # 页码从1开始更符合用户习惯

# 1. 下滑到页面底部:触发下一页数据加载

dp.scroll.to_bottom()

# 2. 等待API响应:最多等待10秒(默认值),获取接口返回数据

resp = dp.listen.wait()

# 3. 解析JSON数据:从响应体中提取职位列表

json_data = resp.response.body # resp.response.body直接返回解析后的字典

jobList = json_data['zpData']['jobList'] # 职位数据存储在zpData→jobList中

# 可选:将原始JSON数据保存到文件,方便调试

with open('boss_raw_data.json', 'w', encoding='utf-8')as file:

file.write(json.dumps(json_data, indent=4, ensure_ascii=False))

# 4. 提取关键字段:遍历职位列表,提取需要的信息

for job in jobList:

# 处理工作地点:城市+区域+商圈(如“北京-朝阳区-望京”)

work_location = job['cityName'] + '-' + job['areaDistrict'] + '-' + job['businessDistrict']

# 提取核心字段,存储为字典

job_info = {

'岗位名称': job['jobName'],

'工作地点': work_location,

'学历要求': job['jobDegree'],

'工作经验': job['jobExperience'],

'薪资范围': job['salaryDesc'],

'公司名称': job['brandName'],

'职位标签': ','.join(job['jobLabels']), # 列表转字符串,方便Excel查看

'职位要求': ' '.join(job['skills']), # 技能要求拼接为字符串

'招聘人姓名': job['bossName'],

'招聘人职位': job['bossTitle'],

'公司行业': job['brandIndustry'],

'公司规模': job['brandScaleName']

}

print(job_info) # 打印当前职位信息,方便实时查看

ans.append(job_info) # 将字典添加到列表中

# 5. 翻页与等待:避免请求过于频繁被反爬

print(f'第{page+1}页采集完成,等待3秒后继续...')

sleep(3) # 休眠3秒,降低反爬风险

核心亮点

  • 工作地点字段进行了拼接处理,更符合阅读习惯;
  • 职位标签和技能要求将列表转为字符串,避免 Excel 中出现 “[]” 符号;
  • 每页爬取后休眠 3 秒,降低被 Boss 直聘反爬机制拦截的概率。

4. 数据保存:导出为 Excel 文件

使用 pandas 将列表中的字典数据转换为 DataFrame,然后通过to_excel()方法导出为 Excel 文件,无需手动处理格式。

# 将列表数据转换为DataFrame

df = pd.DataFrame(ans)

# 导出为Excel:index=False表示不保存行索引

df.to_excel(f"boss_{key}_职位数据.xlsx", index=False)

print(f"爬取完成!共采集{len(ans)}条{key}职位数据,已保存为Excel文件。")

三、运行与结果展示

1. 运行步骤

  1. 安装所有依赖库:pip install drissionpage pandas sqlalchemy;
  2. 复制代码到 Python 文件(如boss_crawler.py);
  3. 运行文件,根据提示输入职位关键词(如 “Python 开发”)和爬取页数(如 “5”);
  4. 等待爬虫执行完成,当前目录会生成 Excel 文件。

2. 结果展示

Excel 文件包含 12 个字段,数据结构清晰,可直接用于后续分析:

岗位名称

工作地点

学历要求

薪资范围

公司名称

职位标签

Python 开发工程师

北京 - 朝阳区 - 望京

本科

25k-35k・14 薪

某互联网公司

五险一金,弹性工作,年终奖

全栈开发工程师

上海 - 浦东新区 - 张江

本科

20k-40k・13 薪

某科技公司

远程办公,股票期权

四、反爬与合规注意事项

爬虫开发需遵守法律法规和平台规则,避免触犯风险,以下几点务必注意:

  1. 控制爬取频率:本文已添加sleep(3),请勿删除或缩短休眠时间,建议单 IP 单日爬取页数不超过 50 页;
  2. 避免登录爬取:未登录状态下的公开数据爬取风险较低,登录后爬取可能涉及个人信息,存在法律风险;
  3. 遵守 robots 协议:访问https://www.zhipin.com/robots.txt查看 Boss 直聘的爬虫限制规则;
  4. 非商业用途:本爬虫仅用于学习和个人数据分析,禁止用于商业盈利或恶意攻击平台。

如果出现 “无法获取数据” 或 “浏览器被拦截”,可能是 IP 被限制,建议更换网络或暂停爬取 1-2 小时后再尝试。

五.资料获取

资料下载地址:项目展示

总结

本文通过 DrissionPage 监听 API 的方式,避开了复杂的网页解析,高效获取了 Boss 直聘的结构化职位数据。整个过程从用户输入到 Excel 导出,逻辑清晰且代码简洁,非常适合 Python 爬虫初学者学习。

需要强调的是,爬虫开发必须以合规为前提,合理控制爬取频率,避免对目标网站造成负担。希望本文能为你的职场数据分析或爬虫学习提供帮助!

Read more

几小时完成生鲜配送系统!飞算JavaAI专业版:智能引导+两大工具承包开发全流程

作为一名Java开发者,我曾无数次被「需求拆解难、后期调试烦」的问题困住,最近面对一个生鲜配送系统的开发需求,光梳理业务逻辑、设计表结构就要耗上大半天,后续还要花时间处理代码规范、依赖冲突,往往一周才能拿出可运行的项目。直到试用了飞算JavaAI专业版,才发现AI辅助开发能如此高效:借助它的智能引导系统和两大核心AI工具,我从需求输入到项目初步完成仅需几小时,大大节省了我的时间。 智能引导五步法:让模糊需求快速落地 做生鲜配送系统前,我的需求很简单:「支持用户下单、订单跟踪、配送员调度、库存管理」,但具体怎么拆分模块、设计接口完全没头绪。放在以前,至少要花1天时间和产品经理对接需求文档,而飞算JavaAI的智能引导系统,直接帮我把模糊需求变成了标准化的开发方案。 第一步「理解需求」就超出预期。我在输入框写下核心诉求后,系统10秒内就拆解出几个关键点,还补充了我没考虑到很多功能——比如当生鲜商品临近保鲜期时,系统会自动触发库存预警,异常订单(如地址不明确、支付超时)会自动分流处理,简直像有个资深行业顾问在补位。 第二步「设计接口」根据我的需求创建了繁多的接口供我选择,并且可

By Ne0inhk
【Java 开发日记】阻塞队列有哪些?拒绝策略有哪些?

【Java 开发日记】阻塞队列有哪些?拒绝策略有哪些?

目录 阻塞队列有哪些? 拒绝策略有哪些? 面试回答 阻塞队列有哪些? 在Java的java.util.concurrent包里面,阻塞队列的实现挺多的,我们可以根据它的功能和结构来记,主要分这么几类: 1. 按容量划分: * 有界队列: 就是队列有固定的容量。 * ArrayBlockingQueue: 最经典的一个,底层是数组,创建时必须指定大小。它的生产和消费用同一把锁,性能相对稳定。 * LinkedBlockingQueue: 底层是链表,它既可以是有界的(构造时指定容量),也可以默认是无界的(默认是Integer.MAX_VALUE,几乎相当于无界)。它的生产和消费用了两把锁,在高并发场景下吞吐量通常比ArrayBlockingQueue更高。 * 无界队列: 理论上是无限的,只要内存够就能一直放。 * PriorityBlockingQueue: 一个支持优先级排序的无界队列。元素必须实现Comparable接口,或者构造时传入Comparator。它出队的顺序是按优先级来的,不是先进先出 * DelayQueue: 一个很特殊的队

By Ne0inhk
Java 大视界 -- 基于 Java+Storm 构建实时日志分析平台:从日志采集到告警可视化(440)

Java 大视界 -- 基于 Java+Storm 构建实时日志分析平台:从日志采集到告警可视化(440)

Java 大视界 -- 基于 Java+Storm 构建实时日志分析平台:从日志采集到告警可视化(440) * 引言: * 正文: * 一、实时日志分析平台的核心架构设计 * 1.1 架构分层与核心组件 * 1.2 组件选型的实战思考(10 余年经验沉淀,数据真实有出处) * 二、日志采集层:Flume 的高可用配置(生产级优化) * 2.1 Flume 的核心配置(抗住十万级 / 秒流量,注释完整) * 2.2 Flume 的高可用部署(避免单点故障,实战步骤清晰) * 2.2.1 多 Agent 冗余部署 * 2.2.2 Nginx

By Ne0inhk
若依(RuoYi)框架升级适配 JDK 21 和 SpringBoot 3.5.10

若依(RuoYi)框架升级适配 JDK 21 和 SpringBoot 3.5.10

技术迭代新高度,若依框架焕新升级 作为国内开发者广泛使用的开源快速开发框架,若依(RuoYi)始终紧跟技术前沿,为企业级应用开发提供高效、稳定的底层支撑。近日,若依框架完成核心技术栈的重磅升级 —— 全面适配 JDK 21 长期支持版本(LTS)与 SpringBoot 3.5.10 稳定版,为开发者带来更高效、更安全、更适配未来的开发体验。 一、核心升级:适配 JDK 21 + SpringBoot 3.5.10,解锁技术新能力 1. JDK 21 LTS 适配:性能与安全双重提升 JDK 21 作为 Java 官方长期支持版本,带来了虚拟线程、字符串模板、密封类等重磅特性,相比传统 JDK

By Ne0inhk