Python 爬虫实战：从基础抓取到多线程下载优化

Python 爬虫实战：从基础抓取到多线程下载优化 | 极客日志

# 页面链接的初始化列表
page_links_list = ['http://www.netbian.com/']

# 获取爬取的页数和页面链接
pages = int(input('请输入你想爬取的页数：'))
if pages > 1:
    for page in range(2, pages + 1):
        url = 'http://www.netbian.com/index_' + str(page) + '.htm'
        page_links_list.append(url)
else:
    pass

print(page_links_list)

请输入你想爬取的页数：5
['http://www.netbian.com/', 'http://www.netbian.com/index_2.htm', 
'http://www.netbian.com/index_3.htm', 'http://www.netbian.com/index_4.htm', 
'http://www.netbian.com/index_5.htm']

import requests
from bs4 import BeautifulSoup

# 页面链接的初始化列表
url = 'http://www.netbian.com/'
# 图片链接列表
img_links_list = []

# 获取 img 标签，并提取图片链接
try:
    html = requests.get(url, timeout=5).content.decode('gbk')
    soup = BeautifulSoup(html, 'lxml')
    imgs = soup.select("div.list li a img")
    for img in imgs:
        img_link = img['src']
        img_links_list.append(img_link)
    print(img_links_list)
    print(len(img_links_list))
except Exception as e:
    print(f"请求失败：{e}")

import urllib.request

url = 'http://img.netbian.com/file/2019/0817/smalle213d95e54c5b4fb355b710a473292ea1566035585.jpg'
urllib.request.urlretrieve(url, filename='test.jpg')

import requests
from bs4 import BeautifulSoup
import lxml
import urllib.request
import os
import time

# 获取图片并下载到本地
def GetImages(url):
    try:
        html = requests.get(url, timeout=5).content.decode('gbk')
        soup = BeautifulSoup(html, 'lxml')
        imgs = soup.select("div.list li a img")
        for img in imgs:
            link = img['src']
            display = link.split('/')[-1]
            print('正在下载：', display)
            # 确保目录存在
            if not os.path.exists('./images'):
                os.mkdir('./images')
            filename = './images/' + display
            urllib.request.urlretrieve(link, filename)
    except Exception as e:
        print(f"下载失败 {link}: {e}")

# 获取爬取的页数，返回链接数
def GetUrls(page_links_list):
    pages = int(input('请输入你想爬取的页数：'))
    if pages > 1:
        for page in range(2, pages + 1):
            url = 'http://www.netbian.com/index_' + str(page) + '.htm'
            page_links_list.append(url)

if __name__ == '__main__':
    page_links_list = ['http://www.netbian.com/']
    GetUrls(page_links_list)
    os.makedirs('./images', exist_ok=True)
    print("开始下载图片！！！")
    start = time.time()
    for url in page_links_list:
        GetImages(url)
    print('图片下载成功！！！')
    end = time.time() - start
    print('消耗时间为：', end)

import urllib.request
import threading
from bs4 import BeautifulSoup
import requests
import os
import time
import lxml

# 页面链接的初始化列表
page_links_list = ['http://www.netbian.com/']
# 图片链接列表
img_links_list = []

# 获取爬取的页数和页面链接
def GetUrls(page_links_list):
    pages = int(input('请输入你想爬取的页数：'))
    if pages > 1:
        for page in range(2, pages + 1):
            url = 'http://www.netbian.com/index_' + str(page) + '.htm'
            page_links_list.append(url)

# 初始化锁，创建一把锁
gLock = threading.Lock()

# 生产者，负责从每个页面中获取图片的链接
class Producer(threading.Thread):
    def run(self):
        while len(page_links_list) > 0:
            # 上锁
            gLock.acquire()
            # 默认取出列表中的最后一个元素
            if page_links_list:
                page_url = page_links_list.pop()
            else:
                gLock.release()
                continue
            # 释放锁
            gLock.release()

            # 获取 img 标签
            try:
                html = requests.get(page_url, timeout=5).content.decode('gbk')
                soup = BeautifulSoup(html, 'lxml')
                imgs = soup.select("div.list li a img")

                # 加锁，向全局列表添加图片链接
                gLock.acquire()
                for img in imgs:
                    img_link = img['src']
                    img_links_list.append(img_link)
                # 释放锁
                gLock.release()
            except Exception:
                pass

# 消费者，负责从获取的图片链接中下载图片
class Consumer(threading.Thread):
    def run(self):
        print(f"{threading.current_thread().name} is running")
        while True:
            # 上锁
            gLock.acquire()
            if len(img_links_list) == 0:
                # 不管什么情况，都要释放锁
                gLock.release()
                # 检查是否所有任务完成，这里简化处理，实际项目中可用标志位
                break
            else:
                img_url = img_links_list.pop()
                # 释放锁
                gLock.release()
                filename = img_url.split('/')[-1]
                print('正在下载：', filename)
                path = './images/' + filename
                try:
                    urllib.request.urlretrieve(img_url, filename=path)
                except Exception as e:
                    print(f"下载错误：{e}")

if __name__ == '__main__':
    GetUrls(page_links_list)
    os.makedirs('./images', exist_ok=True)
    start = time.time()
    
    # 5 个生产者线程，去从页面中爬取图片链接
    producers = []
    for x in range(5):
        t = Producer()
        t.start()
        producers.append(t)
   
    # 10 个消费者线程，去从中提取下载链接，然后下载
    consumers = []
    for x in range(10):
        t = Consumer()
        t.start()
        consumers.append(t)

    # 等待所有线程结束
    for p in producers:
        p.join()
    for c in consumers:
        c.join()

    end = time.time() - start
    print("全部下载完成")
    print('消耗时间为：', end)

User-Agent 设置：许多网站会拒绝没有 User-Agent 的请求。建议在 requests.get 中添加 headers。
```
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)
```
异常处理：网络请求可能超时或失败，务必使用 try-except 包裹关键代码块，防止程序崩溃。
遵守 robots.txt：在爬取前检查网站的 robots.txt 协议，尊重网站方的爬取规则。
频率控制：避免在短时间内发送过多请求导致 IP 被封禁，可适当增加 time.sleep() 延时。
资源清理：下载完成后注意清理临时文件，避免占用过多磁盘空间。

Python 爬虫实战：从基础抓取到多线程下载优化

Python 爬虫实战：从基础抓取到多线程下载优化

一、目标站点信息

二、目标站点分析

(1) 构造页面的 URL 列表

(2) 获取一个页面中所有的图片链接

(3) 将图片下载到本地

(4) 构建完整的简单爬虫

(5) 使用 Python 多线程爬取图片并下载到本地

三、最佳实践与注意事项

四、总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：从基础抓取到多线程下载优化

Python 爬虫实战：从基础抓取到多线程下载优化

一、目标站点信息

二、目标站点分析

(1) 构造页面的 URL 列表

(2) 获取一个页面中所有的图片链接

(3) 将图片下载到本地

(4) 构建完整的简单爬虫

(5) 使用 Python 多线程爬取图片并下载到本地

三、最佳实践与注意事项

四、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具