GitHub开源项目日报 · 2026年2月25日 · 本期榜单AI代理与爬虫热潮
本期榜单主要项目覆盖网页抓取、AI代理技能、代码知识图谱、上下文工程、内存框架、向量数据库与大模型训练等方向。 Scrapling 提供自适应爬虫与多会话并发,Hugging Face Skills 提供标准化代理技能集合,GitNexus 本地运行的代码知识图谱,Superpowers 基于技能的端到端代理工作流,Hello-Agents 与 DeerFlow 展示多智能体协作与执行能力,PageIndex 推理式 RAG、memU 24/7 内存框架、RuVector 本地向量数据库与图推理,以及 Megatron-LM 的 GPU 优化训练工具。 其中每天增长超过100星以上的项目包含 Hello-Agents 与 Superpowers。
根据Github Trendings的统计,共有以下项目上榜:
| 排名 | 项目名称 | 项目语言 |
|---|---|---|
| 1 | Scrapling:适应性网页抓取框架,覆盖从单次请求到全量爬虫 (D4Vinci/Scrapling) | Python |
| 2 | Hugging Face Skills:AI代理技能集合 (huggingface/skills) | Python |
| 3 | GitNexus:浏览器端零服务器代码知识图谱与 AI 助手 (abhigyanpatwari/GitNexus) | TypeScript |
| 4 | 面向代理的技能框架与软件开发工作流(Superpowers) (obra/superpowers) | Shell |
| 5 | 上下文工程与多代理系统技能集合 (muratcankoylan/Agent-Skills-for-Context-Engineering) | Python |
| 6 | Hello-Agents:从零到多智能体的系统化学习 (datawhalechina/hello-agents) | Python |
| 7 | DeerFlow:开源超级代理执行框架 (bytedance/deer-flow) | TypeScript, Python |
| 8 | PageIndex:向量无关的推理式RAG 框架 (VectifyAI/PageIndex) | Python |
| 9 | memU:用于24/7主动代理的内存框架 (NevaMind-AI/memU) | Python |
| 10 | RuVector:高性能自学习向量图神经网络数据库(Rust实现) (ruvnet/ruvector) | Rust |
| 11 | Megatron-LM 与 Megatron Core:GPU 优化大规模训练库 (NVIDIA/Megatron-LM) | Python |
| 12 | Bash 是全部:一个微型 Claude Code 风格代理学习项目 (shareAI-lab/learn-claude-code) | TypeScript, Python |
| 13 | 系统提示与 AI 工具模型汇总与洞察 (x1xhlol/system-prompts-and-models-of-ai-tools) | 其他 |
| 14 | Plano:面向代理应用的 AI 本地代理与数据平面 (katanemo/plano) | Rust |
| 15 | 鱼皮的 AI 知识库与 Vibe Coding 零基础教程 (liyupi/ai-guide) | JavaScript |
| 16 | Cloud CLI(Claude Code UI)跨设备代码工作区管理 (siteboon/claudecodeui) | JavaScript, TypeScript |
Rank 1 - Scrapling:适应性网页抓取框架,覆盖从单次请求到全量爬虫
- 项目路径:D4Vinci/Scrapling
- 创建时间:创建于1年前
- 项目成长:平均每天获得28.0个星星
- 开发语言:Python
- 协议类型:BSD 3-Clause “New” or “Revised” License
- Star数量:13993 个
- Fork数量:928 次
- 贡献人数:5 人
- Open Issues数量:8 个
- Github地址:https://github.com/D4Vinci/Scrapling.git
- 项目首页: https://scrapling.readthedocs.io/en/latest/
关键词: Scrapling, Web Scraping, Fetcher, StealthyFetcher, DynamicFetcher, Playwright, Cloudflare Turnstile, Proxy Rotation, Spider, MCP, Selector, CSS/XPath, JSON/JSONL, Docker, IPython shell, Browser automation, AI, Claude, Cursor, PyRight, MyPy
项目简介
Scrapling 是一个自适应的网页抓取框架,能够从单次请求扩展到大规模爬虫。其解析器在网页变化时会自动重新定位元素,Fetchers 探测并绕过 Cloudflare Turnstile 等反爬机制,Spider 框架支持多会话并发、暂停/恢复,以及自动代理轮换,使用仅需几行 Python 即可实现全流程爬取。还提供实时流式输出、内置导出和 MCP 服务器用于 AI 辅助的数据提取,面向开发者和普通用户。
该项目通过智能元素追踪、灵活选择器、以及对网站改版的自适应定位,解决了网页结构变化导致的抓取失效问题。同时,结合多会话、分布式请求、浏览器自动化、代理轮换和域名拦截等功能,提升了稳定性、通过率和扩展性,进一步实现高吞吐与实时统计。
应用场景
- 企业级数据采集与监控:大型组织需要持续从电商、新闻、金融等站点获取结构化数据,Scrapling 的高并发、跨会话、暂停/恢复和自动代理轮换能力,可以稳定地在高更新频率的网站上进行长期数据监控,并通过内置导出或数据管线集成到仓库。
- 个人开发者的学习与自动化工具:在学习阶段可以通过命令行或 Python API 快速搭建爬虫,Scrapling 提供互动式 Shell、Curl 转 Scrapling 请求等工具,降低上手难度。
- AI 数据准备与研究:结合 MCP 服务器和 AI 模型,可以在抓取阶段精准定位目标内容,减少后续处理成本,提升标注和推断阶段的效率。
- 合规环境的浏览器自动化与安全测试:利用 StealthyFetcher/DynamicFetcher 与 ProxyRotator 的组合进行自动化测试、反爬策略评估、以及浏览器行为仿真,帮助团队在合规前提下验证系统鲁棒性。
Rank 2 - Hugging Face Skills:AI代理技能集合
- 项目路径:huggingface/skills
- 创建时间:创建于93天前
- 项目成长:平均每天获得66.3个星星
- 开发语言:Python
- 协议类型:Apache License 2.0
- Star数量:6169 个
- Fork数量:367 次
- 贡献人数:14 人
- Open Issues数量:14 个
- Github地址:https://github.com/huggingface/skills.git
关键词: HuggingFace, Skills, Agent Skills, Codex, Claude Code, Gemini CLI, Cursor, SKILL.md, AGENTS.md, gemini-extension.json, Trackio, TRL, GGUF, HF Hub, datasets, evaluation, jobs, model-trainer, gradio, paper-publisher, tool-builder
趋势变化
上一次上榜时间:2026-02-24,Star 增长:+1404 (+29.5%)
项目简介
本仓库提供一组用于 AI/ML 任务的技能(Skills),以 Agent Skill 标准格式组织,便于在 Claude Code、Codex、Gemini CLI、Cursor 等主流代理中使用。每个技能是独立文件夹,含 SKILL.md 前置信息与执行指南,方便快速集成到工作流中。示例技能覆盖数据集管理、模型训练、评估、任务调度、实验跟踪等场景,帮助开发者以同一仓库构建可重复、可扩展的自动化 AI 流程。
当前不同代理工具在 AI 任务定义与执行上缺乏统一标准,集成成本高,重复工作多。该项目通过标准化的 Skill 目录与 SKILL.md 描述,提供数据集创建、模型训练、评估、任务调度等可移植的指令和脚本集合,降低跨工具集成难度,提升协作效率和工作流可重复性。
应用场景
- 企业级 AI/ML 工作流自动化:在企业数据平台上结合 hugging-face-datasets、hugging-face-jobs、hugging-face-model-trainer 等技能,将数据准备、模型训练、评估与结果记录的全链路自动化,提升产出效率、可追溯性,并方便与 HF Hub、Trackio、GGUF 等配套工具协同工作。
- 研究与学术出版:研究团队利用 hugging-face-paper-publisher、hugging-face-evaluation 及 Trackio,自动整理论文信息、关联模型和数据集、生成专业文章,并记录评测结果,提升学术产出的效率与准确性。
- 个人开发与学习演示:学习者和开发者可通过 gradio、datasets、hf-cli 快速搭建演示、创建小型数据集、运行简单训练任务,并在本地或 HF Spaces 上展示与分享结果,促进原型验证。
- SaaS/企业市场入口与集成:企业级服务可通过 gemini-extension