Python 爬虫实战：抓取小红书穿搭笔记数据

基于 Python requests 和 jsonpath 库实现小红书穿搭笔记数据抓取。通过模拟登录获取 Cookie，分析移动端 API 接口参数构造规则，解析 JSON 响应提取标题、内容、互动数等字段。集成反爬策略如随机延迟、User-Agent 轮换及请求头指纹模拟，结合代理池与异常重试机制应对封禁风险。最终将结构化数据保存为 CSV 文件，适用于时尚趋势分析与消费研究。

数字游民发布于 2026/2/6更新于 2026/4/181 浏览

前言

小红书作为国内领先的生活方式分享平台，穿搭笔记汇聚了海量的时尚趋势、单品推荐、搭配技巧等核心信息，是时尚行业分析、消费趋势研究的重要数据源。小红书采用强反爬机制（如登录验证、动态 Cookie、签名参数、图片懒加载），且核心数据完全通过 AJAX 接口动态加载，爬虫开发需兼顾接口分析、登录态维护、反爬规避等多维度能力。本文将系统讲解基于 requests+jsonpath 的小红书穿搭笔记数据抓取方案，从接口分析、参数构造到数据解析，实现完整的实战落地。

摘要

本文以小红书穿搭笔记数据抓取为核心场景，深度解析小红书移动端 API 接口的请求逻辑，通过模拟登录获取有效 Cookie、构造合法请求参数、解析 JSON 响应数据，实现穿搭笔记的标题、点赞数、收藏数、评论数、正文内容、标签等核心信息的抓取。实战目标网页示例：小红书穿搭笔记示例页（可替换为任意小红书穿搭笔记 URL）。

一、爬虫开发前置知识

1.1 核心原理

小红书数据加载逻辑：

网页端 / 移动端的笔记数据均通过加密的 AJAX 接口返回（JSON 格式），无静态 HTML 数据；
接口请求需携带核心参数：cookie（登录态）、x-s（签名参数）、x-t（时间戳）、referer（来源）；
反爬机制包括：登录验证（未登录仅能获取少量数据）、签名参数校验、IP 频率限制、设备指纹验证、请求头校验。

核心解决思路：

模拟小红书登录（手动 / 自动），获取有效登录 Cookie；
分析穿搭笔记列表 / 详情接口的参数构造规则；
构造符合小红书规范的请求头和参数，调用 API 接口；
解析 JSON 响应数据，提取核心字段并结构化存储。

1.2 环境依赖

需安装的 Python 库及安装命令如下：

pip install requests jsonpath-python pandas fake-useragent pycryptodome

库名称	核心作用
requests	发送 HTTP 请求，调用小红书 API 接口
jsonpath-python	解析嵌套 JSON 数据，提取目标字段
pandas	笔记数据结构化存储与导出
fake-useragent	生成随机 User-Agent，规避基础反爬
pycryptodome	（可选）处理小红书接口签名加密（进阶）

二、实战开发流程

2.1 目标分析

以小红书穿搭笔记为例，需抓取的核心字段：

字段名称	字段说明	数据类型
note_id	笔记 ID（唯一标识）	字符串
note_title	笔记标题	字符串
note_content	笔记正文内容	字符串
author_name	作者昵称	字符串
like_count

相关免费在线工具

加密/解密文本

使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online

curl 转代码

解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。在线工具，curl 转代码在线工具，online

Base64 字符串编码/解码

将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online

Base64 文件转换器

将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online

Markdown转HTML

将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online

HTML转Markdown

将 HTML 片段转为 GitHub Flavored Markdown，支持标题、列表、链接、代码块与表格等；浏览器内处理，可链接预填。在线工具，HTML转Markdown在线工具，online

import requests import json import time import random import pandas as pd from fake_useragent import UserAgent from jsonpath import jsonpath from urllib.parse import urlencode class XiaoHongShuCrawler: def __init__(self, cookie): """ 初始化爬虫 :param cookie: 小红书登录后的 Cookie 字符串 """ # 初始化请求头 self.ua = UserAgent() self.headers = { 'User-Agent': self.ua.random, 'Accept': 'application/json, text/plain, */*', 'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8', 'Referer': 'https://www.xiaohongshu.com/', 'Cookie': cookie, 'Origin': 'https://www.xiaohongshu.com', 'X-Requested-With': 'XMLHttpRequest', 'sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Google Chrome";v="120"', 'sec-ch-ua-mobile': '?0', 'sec-ch-ua-platform': '"Windows"', 'Sec-Fetch-Dest': 'empty', 'Sec-Fetch-Mode': 'cors', 'Sec-Fetch-Site': 'same-origin' } # 存储所有笔记数据的列表 self.all_note_data = [] # 小红书 API 基础 URL self.base_api_url = 'https://edith.xiaohongshu.com/api/sns/web/v1/feed' def get_note_detail(self, note_id): """ 获取单篇笔记的详细数据 :param note_id: 笔记 ID :return: 笔记数据字典/None """ try: # 构造笔记详情接口参数 params = { 'note_id': note_id, 'source': 'web', 'timestamp': int(time.time() * 1000) } # 随机延迟（3-8 秒），规避频率限制 time.sleep(random.uniform(3, 8)) # 发送 GET 请求 response = requests.get( url=f'{self.base_api_url}/detail?{urlencode(params)}', headers=self.headers, timeout=20 ) response.raise_for_status() json_data = response.json() # 验证接口返回状态 if json_data.get('success') is not True: print(f"笔记{note_id}接口返回失败：{json_data.get('msg', '未知错误')}") return None # 提取核心数据 note_data = {} # 基础信息 note_data['note_id'] = note_id note_data['note_title'] = jsonpath(json_data, '$..title')[0] if jsonpath(json_data, '$..title') else '无标题' note_data['note_content'] = jsonpath(json_data, '$..content')[0] if jsonpath(json_data, '$..content') else '无正文' note_data['author_name'] = jsonpath(json_data, '$..nickname')[0] if jsonpath(json_data, '$..nickname') else '未知作者' # 互动数据 note_data['like_count'] = int(jsonpath(json_data, '$..like_count')[0]) if jsonpath(json_data, '$..like_count') else 0 note_data['collect_count'] = int(jsonpath(json_data, '$..collect_count')[0]) if jsonpath(json_data, '$..collect_count') else 0 note_data['comment_count'] = int(jsonpath(json_data, '$..comment_count')[0]) if jsonpath(json_data, '$..comment_count') else 0 # 标签处理（拼接所有标签） tags = jsonpath(json_data, '$..tags[*].name') or [] note_data['tag_list'] = ' | '.join(tags) if tags else '无标签' # 发布时间（转换为可读格式） publish_ts = jsonpath(json_data, '$..create_time')[0] if jsonpath(json_data, '$..create_time') else 0 note_data['publish_time'] = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(publish_ts)) if publish_ts else '未知时间' # 笔记链接 note_data['note_url'] = f'https://www.xiaohongshu.com/explore/{note_id}' print(f"成功抓取笔记【{note_data['note_title']}】（ID：{note_id}）") return note_data except requests.exceptions.RequestException as e: print(f"笔记{note_id}请求失败：{e}") return None except Exception as e: print(f"笔记{note_id}解析失败：{e}") return None def crawl_note_list(self, keyword='穿搭', page_num=3, page_size=20): """ 根据关键词抓取穿搭笔记列表 :param keyword: 搜索关键词（默认穿搭） :param page_num: 抓取页数 :param page_size: 每页笔记数 """ try: for page in range(1, page_num + 1): # 构造搜索接口参数 params = { 'keyword': keyword, 'page': page, 'page_size': page_size, 'sort': 'popular', # 按热度排序：popular-最热，latest-最新 'timestamp': int(time.time() * 1000) } # 随机延迟（5-10 秒） time.sleep(random.uniform(5, 10)) # 发送搜索请求 response = requests.get( url=f'{self.base_api_url}/search?{urlencode(params)}', headers=self.headers, timeout=20 ) response.raise_for_status() json_data = response.json() if json_data.get('success') is not True: print(f"第{page}页搜索失败：{json_data.get('msg', '未知错误')}") continue # 提取笔记 ID 列表 note_ids = jsonpath(json_data, '$..note_id') or [] if not note_ids: print(f"第{page}页未获取到笔记 ID，结束抓取") break print(f"第{page}页获取到{len(note_ids)}篇笔记 ID") # 逐个抓取笔记详情 for note_id in note_ids: note_data = self.get_note_detail(note_id) if note_data: self.all_note_data.append(note_data) except Exception as e: print(f"搜索列表抓取失败：{e}") def save_data(self, save_path='xiaohongshu_fashion_notes.csv'): """ 保存笔记数据到 CSV 文件 :param save_path: 保存路径 """ if not self.all_note_data: print("无有效笔记数据可保存") return # 转换为 DataFrame 并去重（按 note_id） df = pd.DataFrame(self.all_note_data) df = df.drop_duplicates(subset=['note_id'], keep='last') # 处理正文内容换行符（避免 CSV 格式错乱） df['note_content'] = df['note_content'].str.replace('\n', ' ') # 保存 CSV（utf-8-sig 解决 Excel 中文乱码） df.to_csv(save_path, index=False, encoding='utf-8-sig') print(f"小红书穿搭笔记数据已保存至：{save_path}") print(f"共抓取{len(df)}篇有效笔记") return df # 主程序执行 if __name__ == '__main__': # ==================== 重要配置 ==================== # 替换为你自己的小红书登录 Cookie（获取方式见下文） XHS_COOKIE = '你的小红书登录 Cookie 字符串' # ================================================== # 实例化爬虫对象 crawler = XiaoHongShuCrawler(cookie=XHS_COOKIE) # 抓取关键词为'穿搭'的笔记，共 3 页，每页 20 篇 crawler.crawl_note_list(keyword='穿搭', page_num=3, page_size=20) # 保存数据 result_df = crawler.save_data() # 控制台输出抓取结果（展示前 5 条） print("\n=== 小红书穿搭笔记数据抓取结果（前 5 条）===") print(result_df.head().to_string(index=False))

note_id	note_title	note_content	author_name	like_count	collect_count	comment_count	tag_list	publish_time	note_url
65a2b3c4d5e6f7g8h9i0j	早春通勤穿搭｜简约高级感拉满	早春通勤穿搭分享，简约的基础款搭配真的永不过时！面料选择垂坠感好的，显气质～	穿搭博主 Lily	12580	8960	589	#早春穿搭	#通勤穿搭	#简约风
65b3c4d5e6f7g8h9i0j1k	小个子穿搭｜158cm 显高技巧	158cm 小个子穿搭技巧，高腰裤 + 短上衣真的 yyds，视觉增高 5cm！	小个子穿搭酱	8960	6580	456	#小个子穿搭	#显高穿搭	#158cm

反爬类型	表现形式	解决方案
Cookie 失效	接口返回'未登录'或 401 错误	1. 重新登录小红书，更新 Cookie；2. 使用 `requests.Session()` 保持会话，自动刷新 Cookie（进阶）
IP 封禁	所有请求返回 403/503 错误	1. 暂停抓取 12-24 小时；2. 使用高匿代理池轮换 IP（如 911S5、阿布云）；3. 降低抓取频率（单次延迟 10+ 秒）
接口返回空数据	JSON 无笔记信息	1. 检查 Cookie 是否有效；2. 验证 API 接口 URL 是否过期（小红书 API 不定期更新）；3. 更换关键词 / 排序方式
签名参数校验	接口返回'参数错误'	1. 分析前端签名生成逻辑，添加 `x-s`/`x-t` 等签名参数；2. 改用 selenium+mitmproxy 抓取真实请求参数（进阶）

Python 爬虫实战：抓取小红书穿搭笔记数据

前言

摘要

一、爬虫开发前置知识

1.1 核心原理

1.2 环境依赖

二、实战开发流程

2.1 目标分析

更多推荐文章

相关免费在线工具

2.2 核心代码实现

2.4 代码输出结果示例

2.5 核心代码原理拆解

三、反爬机制应对策略

3.1 常见反爬问题及解决方案

3.2 进阶优化建议

四、注意事项

总结

Python 爬虫实战：抓取小红书穿搭笔记数据

前言

摘要

一、爬虫开发前置知识

1.1 核心原理

1.2 环境依赖

二、实战开发流程

2.1 目标分析

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.2 核心代码实现

2.3 Cookie 获取方法（关键步骤）

2.4 代码输出结果示例

2.5 核心代码原理拆解

三、反爬机制应对策略

3.1 常见反爬问题及解决方案

3.2 进阶优化建议

四、注意事项

总结