一、爬取目标
很多人想研究爆款笔记、做竞品分析,或者收集素材,手动一篇篇看效率太低。所以,编写了小红书笔记搜索爬虫。 这个脚本能根据你给的关键词,批量搜索并下载相关笔记,包括正文、互动数据、发布时间。
二、数据结果图展示
字段:关键词,链接,链接 ID,昵称,帖子发布时间,笔记链接,笔记内容,点赞数,收藏数,评论数,分享数,图片链接。
所有数据自动保存为 Excel 文件,干净整齐。但注意一个关键词只能爬取 220 条评论(网页版)。
原理讲解:
- 核心是调用小红书的搜索接口,它是一个
POST请求。 - 你需要准备一个有效的 cookie(从网页版小红书获取),这是能拿到数据的关键。
- 通过接口拿到笔记 ID 列表后,再逐个去访问笔记的详情页。
三、爬虫代码讲解
导入库:
import requests
import pandas as pd
import json
import time
from datetime import datetime
from lxml import etree
3.1 核心思路与配置
运行这个需要关键参数:cookie。这需要你登录小红书网页版,在开发者工具里抓取。 为了方便管理多个关键词和 Cookie,设计了用 Excel 文件来配置:
搜索词.xlsx:一行一个,放你想搜的关键词。cookie.xlsx:一行一个,放你的 cookie(程序支持多个 cookie 自动切换)。
3.2 关键步骤:搜索并翻页
这是向小红书搜索接口发送请求的核心,可以按'最新'、'综合'等方式排序。
json_data = {
'keyword': '春日穿搭', # 你的关键词
'page': 1, # 第几页
'page_size': 20, # 每页 20 条
'sort': 'time_descending' # 按最新排序
}
response = requests.post('https://edith.xiaohongshu.com/api/sns/web/v1/search/notes', json=json_data, headers=headers)
notes_list = response.json()[][]


