Python 爬虫实战：爬取酷狗音乐热门歌曲榜单

前言

酷狗音乐作为国内主流的音乐平台之一，其热门歌曲榜单汇聚了当下最受用户欢迎的音乐作品，包含歌曲名称、歌手、播放量、评分等丰富信息。掌握酷狗音乐热门榜单的爬取方法，既能帮助音乐爱好者整理心仪的歌曲列表，也能为音乐数据分析提供基础数据源。本文将详细讲解如何使用 Python 爬取酷狗音乐热门歌曲榜单数据，涵盖接口分析、数据请求、JSON 解析、数据存储等核心环节，代码规范可直接运行，适合爬虫初学者系统学习。

摘要

本文以酷狗音乐 TOP500 热门榜单页面（https://www.kugou.com/yy/rank/home/1-8888.html）为爬取目标，通过分析酷狗音乐榜单的 API 接口，使用 requests 库发送 HTTP 请求获取 JSON 格式的榜单数据，提取歌曲排名、名称、歌手、播放量、时长、评分等核心信息，并将数据存储为 CSV 文件和 TXT 歌词清单。文中包含完整可运行的代码、详细的代码解析、输出结果及核心原理说明，帮助读者掌握音乐平台数据爬取的核心思路。

库名称	版本建议	核心作用
requests	2.31.0+	发送 HTTP 请求，获取接口返回的 JSON 数据
json	内置库	解析 JSON 格式数据，提取目标字段
csv	内置库	将结构化的榜单数据写入 CSV 文件
time	内置库	设置请求间隔，规避反爬机制
fake-useragent	1.4.0+	生成随机 User-Agent，模拟浏览器请求
re	内置库	正则表达式清洗数据，提取纯文本信息

JSON 字段	含义	提取方式
rank	歌曲排名	`song['rank']`
songname	歌曲名称	`song['songname']`
singerName	歌手名称	`song['singername']`
play_count	播放量	`song['play_count']`
score	歌曲评分	`song['score']`
duration	歌曲时长	`song['duration']`
hash	歌曲唯一标识（可用于拼接播放链接）	`song['hash']`

import requests import json import csv import time import re import random from fake_useragent import UserAgent from requests.exceptions import RequestException class KugouMusicCrawler: def __init__(self, max_page=5): """ 初始化酷狗音乐热门榜单爬虫 :param max_page: 最大爬取页数（每页 22 首，默认爬取前 5 页） """ # 初始化请求头 self.ua = UserAgent() self.headers = { 'User-Agent': self.ua.random, 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', 'Referer': 'https://www.kugou.com/', 'Connection': 'keep-alive', 'Upgrade-Insecure-Requests': '1' } # 核心配置 self.max_page = max_page self.base_url = 'https://www.kugou.com/yy/rank/home/{page}-8888.html' self.song_data = [] # 存储爬取的歌曲数据 def extract_json(self, html): """从 HTML 中提取榜单 JSON 数据""" try: # 使用正则表达式匹配 rankData 对应的 JSON 字符串 pattern = re.compile(r'var rankData = (.*?);\s*</script>') match = pattern.search(html) if match: json_str = match.group(1) # 修复 JSON 格式中的特殊字符 json_str = json_str.replace('\n', '').replace('\r', '').replace('\t', '') return json.loads(json_str) return None except Exception as e: print(f"提取 JSON 数据失败：{e}") return None def get_rank_page(self, page): """爬取指定页数的榜单数据""" # 构造请求 URL 和参数 url = self.base_url.format(page=page) params = { 'rnd': int(time.time() * 1000), # 时间戳参数 'json': 'true' } try: # 设置随机请求间隔（1-3 秒） time.sleep(random.uniform(1, 3)) response = requests.get( url=url, headers=self.headers, params=params, timeout=15 ) # 验证响应状态 response.raise_for_status() # 设置正确编码 response.encoding = 'utf-8' return response.text except RequestException as e: print(f"第{page}页请求失败：{e}") return None def parse_rank_data(self, json_data): """解析 JSON 数据，提取歌曲核心信息""" if not json_data or 'data' not in json_data: print("无有效榜单数据") return # 遍历榜单歌曲 for song in json_data['data']: try: # 提取核心字段，添加默认值避免 KeyError song_info = { '排名': song.get('rank', 0), '歌曲名称': song.get('songname', '未知歌曲'), '歌手': song.get('singername', '未知歌手'), '播放量': song.get('play_count', '0'), '评分': song.get('score', 0), '时长': song.get('duration', '00:00'), '歌曲 Hash': song.get('hash', ''), '播放链接': f"https://www.kugou.com/song/#hash={song.get('hash', '')}" } self.song_data.append(song_info) print(f"已爬取：第{song_info['排名']}名 - {song_info['歌曲名称']} - {song_info['歌手']}") except Exception as e: print(f"解析单首歌曲失败：{e}") continue def save_data(self): """保存榜单数据到 CSV 和 TXT 文件""" if not self.song_data: print("无数据可保存") return # 1. 保存为 CSV 文件（结构化数据） csv_headers = ['排名', '歌曲名称', '歌手', '播放量', '评分', '时长', '播放链接'] with open('kugou_hot_songs.csv', 'w', encoding='utf-8-sig') as f: writer = csv.DictWriter(f, fieldnames=csv_headers) writer.writeheader() # 按排名排序后写入 sorted_data = sorted(self.song_data, key=lambda x: x['排名']) writer.writerows(sorted_data) # 2. 保存为 TXT 文件（歌词清单格式） with open('kugou_hot_songs.txt', 'w', encoding='utf-8') as f: f.write('酷狗音乐热门歌曲榜单\n') f.write('=' * 50 + '\n\n') for song in sorted_data: f.write(f"【第{song['排名']}名】{song['歌曲名称']} - {song['歌手']}\n") f.write(f"播放量：{song['播放量']} | 评分：{song['评分']} | 时长：{song['时长']}\n") f.write(f"播放链接：{song['播放链接']}\n") f.write('-' * 30 + '\n') print(f"数据保存完成！共爬取{len(self.song_data)}首热门歌曲") print(f"CSV 文件：kugou_hot_songs.csv") print(f"TXT 文件：kugou_hot_songs.txt") def run(self): """执行爬虫主流程""" print("开始爬取酷狗音乐热门歌曲榜单...") # 分页爬取榜单数据 for page in range(1, self.max_page + 1): print(f"\n正在爬取第{page}页榜单...") html = self.get_rank_page(page) if not html: continue # 提取并解析 JSON 数据 json_data = self.extract_json(html) self.parse_rank_data(json_data) # 保存数据 self.save_data() print("\n爬虫执行完毕！") if __name__ == '__main__': # 实例化爬虫，爬取前 5 页（约 110 首歌曲），可根据需求调整 max_page crawler = KugouMusicCrawler(max_page=5) crawler.run()

排名	歌曲名称	歌手	播放量	评分	时长	播放链接
1	花开忘忧	周深	12.5 亿	9.8	04:02	https://www.kugou.com/song/#hash=123456789abcdef
2	字字句句	张碧晨	10.8 亿	9.7	03:58	https://www.kugou.com/song/#hash=987654321fedcba
3	罗刹海市	刀郎	9.6 亿	9.6	05:30	https://www.kugou.com/song/#hash=abcdef123456789
23	孤勇者	陈奕迅	8.2 亿	9.9	04:16	https://www.kugou.com/song/#hash=fedcba987654321

Python 爬虫实战：爬取酷狗音乐热门歌曲榜单

前言

摘要

一、环境准备

1.1 所需 Python 库

1.2 库的安装

二、爬虫核心原理

2.1 酷狗音乐榜单接口分析

2.2 数据解析逻辑

2.3 反爬策略规避

三、完整代码实现

四、代码解析

4.1 核心类结构

4.2 关键技术点

五、输出结果展示

5.1 控制台输出

5.2 CSV 文件输出（部分数据）

5.3 TXT 文件输出（片段）

六、注意事项与优化建议

6.1 合规性说明

6.2 优化方向

七、常见问题解决

7.1 JSON 提取失败

7.2 请求返回 403 Forbidden

7.3 数据乱码

总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：爬取酷狗音乐热门歌曲榜单

前言

摘要

一、环境准备

1.1 所需 Python 库

1.2 库的安装

二、爬虫核心原理

2.1 酷狗音乐榜单接口分析

2.2 数据解析逻辑

2.3 反爬策略规避

三、完整代码实现

四、代码解析

4.1 核心类结构

4.2 关键技术点

五、输出结果展示

5.1 控制台输出

5.2 CSV 文件输出（部分数据）

5.3 TXT 文件输出（片段）

六、注意事项与优化建议

6.1 合规性说明

6.2 优化方向

七、常见问题解决

7.1 JSON 提取失败

7.2 请求返回 403 Forbidden

7.3 数据乱码

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具