【爬取目标】
目标网站:2025 年《财富》中国 500 强
在企业经营分析、行业趋势研究、公司竞争力评估等场景中,财富中国 500 强榜单是不可或缺的参考依据。手动整理榜单中的企业信息(排名、公司名称、营业收入、利润等)不仅耗时费力且容易出错,因此本文将教你使用 Python 编写爬虫程序,批量爬取财富中国 500 强数据并自动保存到 Excel 文件,快速搭建专属企业信息库!
【实现效果】
代码实现批量爬取财富中国 500 强榜单数据,整理结构化信息后存放到 Excel 文件中:
一、技术栈和环境版本
Python:3.12.3
编辑器:PyCharm
第三方模块,自行安装:
pip install requests==2.32.5
pip install pandas==2.3.3
pip install openpyxl==3.1.5
pip install beautifulsoup4==4.12.3
二、爬虫实战分析
2.1 导入模块
import requests
import pandas as pd
from bs4 import BeautifulSoup
import time
2.2 分析网页
访问目标页面,观察网络请求,发现数据通常以表格形式存在。需构造合适的请求头模拟浏览器访问。
2.3 发送请求,获取网页源码
def get_html(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}
response = requests.get(url, headers=headers, timeout=)
response.encoding = response.apparent_encoding
response.text


