在线浏览“秀人网合集”的新思路:30 行 Python 把封面图链接秒变本地可点图库

在线浏览“秀人网合集”的新思路:30 行 Python 把封面图链接秒变本地可点图库

用 30 行 Python 把秀人网公开合集“搬”进本地数据库

在这里插入图片描述


在这里插入图片描述


在这里插入图片描述

“秀人网”近日上线的新主题合集页采用前端渲染,数据通过 /api/v2/theme/list 接口一次性返回 JSON,无需模拟点击“加载更多”。接口无登录限制,但带 5 秒滑动窗口的 IP 频次校验:单 IP >30 次/分即返回 429。本文示范如何遵守 robots 协议、放缓速率,仅采集“公开可见”字段,并给出断点续抓、User-Agent 随机化、异常重试等常用技巧。
核心思路三步走:
分析列表接口:在浏览器 DevTools 里筛选 XHR,发现真实请求 URL 形如
https://www.xiuren.net/api/v2/theme/list?page={page}&size=20,返回体含 data.total 与 data.list。
解析单条记录:字段 title、author、coverUrl 即为我们需要的元数据,无需再进详情页。
限速+重试:用 tenacity 的 @retry(stop=stop_after_attempt(3)) 装饰器,遇到 429 自动退避 10 秒;全局速率 time.sleep(random.uniform(1, 2)),确保平均 <30 次/分。
运行环境:Python≥3.7,依赖如下
pip install requests pandas tenacity fake-useragent
代码(文件 save_xiuren_meta.py):

#!/usr/bin/env python3# -*- coding: utf-8 -*-""" 抓取秀人网公开主题合集元信息,仅采集 title/author/coverUrl 三字段。 仅供学习,请遵守平台 robots.txt 与相关法律法规。 """import csv, time, random, requests from tenacity import retry, stop_after_attempt, wait_fixed from fake_useragent import UserAgent BASE_URL ="https://www.xiuren.net/api/v2/theme/list" CSV_FILE ="xiuren_meta.csv" PAGE_SIZE =20 MAX_PAGE =50# 按需调整,0 表示抓全量 SLEEP_RANGE =(1,2)# 秒,随机休眠 ua = UserAgent() session = requests.Session() session.headers.update({"Referer":"https://www.xiuren.net/"})@retry(stop=stop_after_attempt(3), wait=wait_fixed(10))deffetch_one_page(page:int): session.headers.update({"User-Agent": ua.random}) params ={"page": page,"size": PAGE_SIZE} resp = session.get(BASE_URL, params=params, timeout=10)if resp.status_code ==429:raise Exception("Rate limited") resp.raise_for_status()return resp.json()defmain(): writer =Nonefor p inrange(1, MAX_PAGE +1):print(f"[+] 正在抓取第 {p} 页 …") js = fetch_one_page(p) rows =[{"title": item["title"],"author": item["author"],"coverUrl": item["coverUrl"]}for item in js["data"]["list"]]ifnot writer: writer = csv.DictWriter(open(CSV_FILE,"w", newline="", encoding="utf-8"), fieldnames=["title","author","coverUrl"]) writer.writeheader() writer.writerows(rows)if js["data"]["total"]<= p * PAGE_SIZE:break time.sleep(random.uniform(*SLEEP_RANGE))print(f"[√] 抓取完成,已写入 {CSV_FILE}")if __name__ =="__main__": main()

运行后同级目录生成 xiuren_meta.csv,可导入 Excel 或数据库二次分析。若需增量更新,可把 CSV_FILE 改为 SQLite,并在写入前按 title 做唯一索引去重。
再次提醒:
仅抓取“公开可见”字段,不绕过登录、不破解加密参数;
速率温和,不干扰站点正常服务;
数据勿商用,尊重原作者版权。
祝各位读者调试顺利,也欢迎把改进方案提交到开源社区,共同维护良好的技术交流氛围。

Read more

【Git:远程操作和标签管理】从克隆到推送:Git 远程协作与标签管理实战指南

【Git:远程操作和标签管理】从克隆到推送:Git 远程协作与标签管理实战指南

🔥艾莉丝努力练剑:个人主页 ❄专栏传送门:《C语言》、《数据结构与算法》、C/C++干货分享&学习过程记录、Linux操作系统编程详解、笔试/面试常见算法:从基础到进阶、测试开发要点全知道 ⭐️为天地立心,为生民立命,为往圣继绝学,为万世开太平 🎬艾莉丝的简介: 目录 艾莉丝的Gitee地址 1  ~>  远程操作 1.1  理解分布式版本控制系统 1.2  远程仓库 1.3  创建远程仓库 1.4  克隆远程仓库 1.4.1  使用HTTPS方式 1.4.2  使用SSH方式 1.5  向远程仓库推送 1.6

By Ne0inhk

从开源到落地:SimpleBGC 三轴稳像平台全栈技术解析(上)

引言:为什么选择 SimpleBGC? 在无人机航拍、工业检测、机器人视觉等场景中,“稳定” 是核心需求 —— 哪怕设备轻微抖动,也会导致画面模糊、数据偏差。而市面上专业稳像设备(如大疆 Ronin 系列)动辄数千元,且闭源架构无法自定义扩展。 SimpleBGC 的出现打破了这一局面:它以开源架构为核心,硬件设计文件、固件代码完全公开,成本仅为专业设备的 1/5~1/10,同时支持从微型运动相机到工业级负载的全场景适配。无论是电子爱好者 DIY、学生做科创项目,还是中小企业开发定制化设备,SimpleBGC 都是性价比极高的选择。 本文将从 “硬件电路设计→软件代码解析→软件算法分析” 三个维度,带大家彻底搞懂这款开源稳像平台的技术细节,即使是刚接触嵌入式开发的新手,也能跟着步骤理解原理、动手实践。 第一部分:SimpleBGC 硬件电路设计 —— 开源架构下的模块化方案 SimpleBGC 的硬件设计遵循 “模块化、

By Ne0inhk
别在自己造轮子了!推荐一款功能炸裂的开源人工智能解决方案,内置产品级IOC、以图搜图,人像搜索

别在自己造轮子了!推荐一款功能炸裂的开源人工智能解决方案,内置产品级IOC、以图搜图,人像搜索

💂 个人网站:IT知识小屋🤟 版权: 本文由【IT学习日记】原创、在ZEEKLOG首发、需要转载请联系博主💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦 文章目录 * 简介 * 开发环境 * 功能模块 * 开源地址&使用手册 * 写在最后 简介 本项目是一款依托于JAVA实现的通用人工智能解决方案,涵盖了模型训练、推理到Web/桌面应用的一整套AI功能。支持产品级OCR文字识别(可自定义模板)、图像搜索、人脸检索、智能抠图、照片上色、图像增强、机器翻译、RAG搜索以及大模型接入等,可开箱即用。 系统采用主流技术栈:SpringBoot + Vue搭建,后端使用SpringBoot提供API服务,前端基于Vue实现可视化管理,支持模块化部署和二次开发。项目代码完全开源,模块之间高度解耦,用户可按需引入,灵活扩展,特别适合需要快速集成 AI 功能的企业与个人开发者。

By Ne0inhk
从安装到代码提交:Git 远程协作中 90% 的问题都能在这里找到答案

从安装到代码提交:Git 远程协作中 90% 的问题都能在这里找到答案

工欲善其事,必先利其器。 目录 * 安装 Git 的步骤: * 本地Git与远程仓库连接及操作全指南 * 一、本地仓库初始化与远程仓库连接 * 1. 初始化本地Git仓库 * 2. 关联远程仓库 * 1. 查看当前分支状态 * 2. 新建本地分支 * 方法1:基于当前分支创建新分支 * 方法2:创建并直接切换到新分支(推荐) * 方法3:基于远程分支创建本地分支 * 3. 切换到已有的本地分支 * 二、分支管理与远程分支同步 * 1. 查看远程分支 * 2. 拉取远程分支到本地 * 三、代码提交与推送到远程仓库 * 1. 常规提交流程 * 2. 简化推送命令 * 四、远程仓库信息查看与更新 * 1. 查看远程仓库详细信息 * 2. 同步远程仓库最新数据 * 五、常见问题解决与优化配置 * 1. 网络与连接问题修复 * 2. 推送大文件或提升传输稳定性

By Ne0inhk