在线浏览“秀人网合集”的新思路:30 行 Python 把封面图链接秒变本地可点图库

在线浏览“秀人网合集”的新思路:30 行 Python 把封面图链接秒变本地可点图库

用 30 行 Python 把秀人网公开合集“搬”进本地数据库

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

“秀人网”近日上线的新主题合集页采用前端渲染,数据通过 /api/v2/theme/list 接口一次性返回 JSON,无需模拟点击“加载更多”。接口无登录限制,但带 5 秒滑动窗口的 IP 频次校验:单 IP >30 次/分即返回 429。本文示范如何遵守 robots 协议、放缓速率,仅采集“公开可见”字段,并给出断点续抓、User-Agent 随机化、异常重试等常用技巧。
核心思路三步走:
分析列表接口:在浏览器 DevTools 里筛选 XHR,发现真实请求 URL 形如
https://www.xiuren.net/api/v2/theme/list?page={page}&size=20,返回体含 data.total 与 data.list。
解析单条记录:字段 title、author、coverUrl 即为我们需要的元数据,无需再进详情页。
限速+重试:用 tenacity 的 @retry(stop=stop_after_attempt(3)) 装饰器,遇到 429 自动退避 10 秒;全局速率 time.sleep(random.uniform(1, 2)),确保平均 <30 次/分。
运行环境:Python≥3.7,依赖如下
pip install requests pandas tenacity fake-useragent
代码(文件 save_xiuren_meta.py):

#!/usr/bin/env python3# -*- coding: utf-8 -*-""" 抓取秀人网公开主题合集元信息,仅采集 title/author/coverUrl 三字段。 仅供学习,请遵守平台 robots.txt 与相关法律法规。 """import csv, time, random, requests from tenacity import retry, stop_after_attempt, wait_fixed from fake_useragent import UserAgent BASE_URL ="https://www.xiuren.net/api/v2/theme/list" CSV_FILE ="xiuren_meta.csv" PAGE_SIZE =20 MAX_PAGE =50# 按需调整,0 表示抓全量 SLEEP_RANGE =(1,2)# 秒,随机休眠 ua = UserAgent() session = requests.Session() session.headers.update({"Referer":"https://www.xiuren.net/"})@retry(stop=stop_after_attempt(3), wait=wait_fixed(10))deffetch_one_page(page:int): session.headers.update({"User-Agent": ua.random}) params ={"page": page,"size": PAGE_SIZE} resp = session.get(BASE_URL, params=params, timeout=10)if resp.status_code ==429:raise Exception("Rate limited") resp.raise_for_status()return resp.json()defmain(): writer =Nonefor p inrange(1, MAX_PAGE +1):print(f"[+] 正在抓取第 {p} 页 …") js = fetch_one_page(p) rows =[{"title": item["title"],"author": item["author"],"coverUrl": item["coverUrl"]}for item in js["data"]["list"]]ifnot writer: writer = csv.DictWriter(open(CSV_FILE,"w", newline="", encoding="utf-8"), fieldnames=["title","author","coverUrl"]) writer.writeheader() writer.writerows(rows)if js["data"]["total"]<= p * PAGE_SIZE:break time.sleep(random.uniform(*SLEEP_RANGE))print(f"[√] 抓取完成,已写入 {CSV_FILE}")if __name__ =="__main__": main()

运行后同级目录生成 xiuren_meta.csv,可导入 Excel 或数据库二次分析。若需增量更新,可把 CSV_FILE 改为 SQLite,并在写入前按 title 做唯一索引去重。
再次提醒:
仅抓取“公开可见”字段,不绕过登录、不破解加密参数;
速率温和,不干扰站点正常服务;
数据勿商用,尊重原作者版权。
祝各位读者调试顺利,也欢迎把改进方案提交到开源社区,共同维护良好的技术交流氛围。

Read more

Java Map和Set

Java Map和Set

文章目录 * Map和Set * 二叉搜索树 * 查找 * 分析: * 插入 * 删除 * Map * Map的使用 * Set * Set的使用 * 哈希表 * 负载因子的调节(重点) * 闭散列 * 开散列 * HashMap和HashSet * 面试题 * HashMap的源码 Map和Set 1. map和set用于搜索 2. 搜索树,二叉搜索树 -> AVL树 -> 红黑树 3. AVL树:高度平衡的二叉搜索树 4. TreeMap和TreeSet底层是红黑树,每次存储元素都得进行大小比较 二叉搜索树 1. 二叉搜索树:如果左子树不为空,那么左子树所有节点都小于根节点,如果右子树不为空,那么右子树所有节点都大于根节点,它的左右子树都是二叉搜索树 2. 二叉搜索树的中序遍历是有序的 查找 1. 比key大往右找,

Java 部署:滚动更新(K8s RollingUpdate 策略)

Java 部署:滚动更新(K8s RollingUpdate 策略)

👋 大家好,欢迎来到我的技术博客! 📚 在这里,我会分享学习笔记、实战经验与技术思考,力求用简单的方式讲清楚复杂的问题。 🎯 本文将围绕Java部署这个话题展开,希望能为你带来一些启发或实用的参考。 🌱 无论你是刚入门的新手,还是正在进阶的开发者,希望你都能有所收获! 文章目录 * Java 部署:滚动更新(K8s RollingUpdate 策略) * 什么是滚动更新(Rolling Update)? * 为什么 Java 应用特别需要滚动更新? * Kubernetes 滚动更新的核心机制 * 默认值 * 参数详解 * 构建一个支持滚动更新的 Java 应用 * 1. 创建 Spring Boot 项目 * 2. 编写主类 * 3. 添加控制器 * 4. 配置 Actuator 健康端点 * 5. 构建 Docker 镜像 * 编写 Kubernetes

2025华为OD机试真题+全流程解析+备考攻略+经验分享+Java/python/JavaScript/C++多种语言最佳实现

2025华为OD机试真题+全流程解析+备考攻略+经验分享+Java/python/JavaScript/C++多种语言最佳实现

华为OD全流程解析,备考攻略 快捷目录 * 华为OD全流程解析,备考攻略 * 一、什么是华为OD? * 二、什么是华为OD机试? * 三、华为OD面试流程 * 四、华为OD薪资待遇及职级体系 * 五、ABCDE卷类型及特点 * 六、题型与考点 * 七、机试备考策略 * 八、薪资与转正 * 九、常见问题解答 * 十、总结 * 2025 华为OD 机试真题 B卷 100分题型 * 2025 华为OD 机试真题 B卷 200分题型 * 2025 华为OD 机试真题 A卷 100分题型 * 2025 华为OD 机试真题 A卷 200分题型 一、什么是华为OD? 华为OD(Outsourcing Dispacth)

【保姆级教程】AI图生图+视频生成完整工作流(附提示词+参数表)

【保姆级教程】AI图生图+视频生成完整工作流(附提示词+参数表)

【保姆级教程】AI图生图+视频生成完整工作流(附提示词+参数表) 目录 * 一、前言 * 二、环境搭建与工具选择 * 三、第一步:生成高质量基础图片(图生图) * 3.1 模型选择 * 3.2 提示词编写 * 3.3 参数设置参考 * 四、第二步:图生视频核心操作 * 4.1 AnimateDiff插件安装与配置 * 4.2 运动参数详解 * 4.3 生成视频与后处理 * 五、实战案例与提示词解析 * 六、常见问题与解决方案(避坑指南) * 七、资源下载 * 八、结语 一、前言 最近AI视频生成技术火得一塌糊涂,从Runway Gen-2到Stable Diffusion的AnimateDiff插件,