网络机器人(爬虫)-入门

优质文章学习记录

07 Apr 2026 — 4 min read

爬虫：也称网络爬虫(网络机器人),是一种按照一定的预设规则，自动浏览并抓取网络数据的程序或脚本

开始 ---> 发送Http请求 ---> 解析结果提取数据---->数据处理(清洗)-->数据存储 --->结束

数据清洗：是指对采集到的原始数据进行处理，修正，转换和标准化的过程，目的是让数据变得数据变得规范，准确

robots协议：

robots协议也称为爬虫协议，爬虫规则，是指网站根目录下存放的一份文本文件robots.txt,用于告诉爬虫那些页面可以抓取，哪些页面不能抓取。(君子协议)

User-Agent: 用户代理，通过该请求头确认爬虫的类型

Disallow: 禁止访问的资源

Allow: 运行访问的资源

Sitemap: 网站地图,帮助爬虫更高效地获取网站内容

Craw-delay: 爬取间隔时间，避免频繁访问造成网站地压力过大

怎么查看每个网站的robots协议

在每个网址后面加上/robots.txt

练习：获取TIOBE编程语言排行榜单

1. 查看TIOBE网站的robots.txt文件，明确资源获取的规则

2. 安装requests库,用于发送网络请求(pip install requests)

3. 编写python代码，访问TIOBE网站，获取数据

代码示例import requests # 定义url target_url = "http://www.tiobe.com/tiobe-index/" # 发送请求，获取数据 response = requests.get(target_url) # 输出到控制台 print(response.text) 这里提一嘴，所有的网络请求都是get请求

另外返回的是页面的前端代码，接下来就是解析结果处理数据

处理前端数据前先说明一下网页结构也就是前端的基础知识

一个网页是由三个部分组成的，分别是：HTML,CSS，JS

HTML: 超文本语言，由一堆预设的标签构成。HTML负责网页的结构(页面元素和内容)

CSS: 层叠样式表。CSS负责网页的表现(页面元素的外观，位置等样式，如颜色，大小等)

JS: 全称：JavaScript，负责网页的行为(交互效果)

我们要抓取的是网页当中的内容也就是HTML控制页面的内容

HTML：超文本标记语言。

超文本：超越了文本的限制，比普通文本更强大。除了文字信息，还可以定义图片，音频，视频等内容

标记语言：由标签“<标签名>”构成的语言

HTML标签都是预定义好的。例如：使用<h1>展示标题，使用<img>展示图片，使用<video>展示视频。

HTML代码直接在浏览器中运行，HTML标签由浏览器解析

接下来回归正轨

如何解析返回的前端代码，那就是lxml

啥事lxml

lxml: 是一个高性能的HTML/XML文档的解析库，支持Xpath语法来解析和获取网页数据

Xpath语法：

一种在HTML/XML文档中导航或定位元素的查询语言，让你能够准确的定位文档中的特定元素，属性或文本

那么怎么从这个图片中解析数据

response = requests.get(target_url) document = html.fromstring(response.text) #解析数据 th_list=document.xpath("//table[@id='top20']/thead/tr/th/text()") print(th_list)

怎么讲每个tr单独占一行打印出来

tr_list=document.xpath("//table[@id='top20']/tbody/tr") for tr in tr_list: td_list=tr.xpath("./td/text()") print(td_list)

Dify Web 前端二次开发（隐藏探索功能 + 替换 Logo）

核心修改内容 1. 隐藏导航栏「探索」功能（图标 + 文字按钮）； 2. 将默认 Dify Logo 替换为自定义 FDAI Logo（PNG 格式）。（一）隐藏「探索」功能完整过程 1. 定位目标组件探索功能对应的组件文件路径：web/app/components/header/explore-nav/index.tsx（组件名：ExploreNav），该组件被嵌套在 Header 组件中渲染，无需修改布局文件 app/(commonlayout)/layout.tsx。 2. 首次尝试：仅删除图标（未彻底隐藏） * 操作：删除组件内图标渲染代码 { activated ? <RiPlanetFill />

前端实时数据刷新全方案详解｜WebSocket / 定时轮询 / 惰性轮询 / Web Worker/SharedWorker/ 后台静默同步

文章目录 * websocket * 定时轮询（setInterval） * 惰性轮询（setTimeout 递归） * 优缺点 * Web Worker 轮询 * 为什么要用 Web Worker 做轮询？ * vue2 写法 * Vue3 + Vite 写法（最常用） * 使用场景 * Periodic Background Sync * 核心机制 * 代码示例 * requestIdleCallback * SharedWorker websocket * 一次握手 → 永久保持连接（直到主动关闭） * 双向通信：客户端 ↔ 服务器随时互发消息 * 服务器有新数据 → 立刻推给前端 * 真正实时刷新数据 // 连接 WebSocketconst ws =newWebSocket('ws://localhost:8080/ws'

旧安卓手机别扔!用KSWEB搭个人博客，搭配外网访问超香

KSWEB 作为安卓端轻量级 Web 服务器，核心功能是提供 PHP、MySQL 运行环境，能轻松部署 Typecho、WordPress 等博客系统，Termux 则可辅助管理内网穿透服务；这类工具特别适合预算有限的学生、个人博主，或是想折腾闲置设备的数码爱好者，优点也很突出 —— 对硬件要求极低，1GB 内存就能运行，旧款红米、华为畅享等机型都能适配，而且内置的运行环境无需手动配置，新手也能快速上手。使用这套工具时也有不少需要注意的地方，比如手机要长期插电并连接稳定 Wi-Fi，否则服务容易中断；还要给 KSWEB 和 Termux 关闭电池优化、放开存储权限，我用小米手机测试时就因为没关后台限制，导致 Apache 服务频繁被系统杀掉，折腾了好一会儿才排查出问题；另外非 Root 机型也能使用，但部分文件权限操作会稍显繁琐。不过仅靠 KSWEB 部署完博客后，只能在局域网内访问，这会带来很多不便：比如在家用电脑能连手机看博客，

基于 C# .NET Framework 开发实现 WebService服务实例详解——一文学懂WebService服务开发技术及应用

目录 1. Web Service 概念介绍 1.1 什么是 Web Service 1.2 SOAP（简单对象访问协议） 1.3 WSDL（Web 服务描述语言） 1.4 应用场景 2. 创建 Web Service 项目 3. 编写 Web Service 代码 3.1 打开 WebService1.asmx.cs 3.2 编写服务方法 3.3 代码解析 4. 测试 Web Service 4.1

Read more

Dify Web 前端二次开发（隐藏探索功能 + 替换 Logo）

前端实时数据刷新全方案详解｜WebSocket / 定时轮询 / 惰性轮询 / Web Worker/SharedWorker/ 后台静默同步

旧安卓手机别扔!用KSWEB搭个人博客，搭配外网访问超香

基于 C# .NET Framework 开发实现 WebService服务实例详解——一文学懂WebService服务开发技术及应用