Python 爬虫实战：常见验证码自动识别方案

Python 爬虫实战：常见验证码自动识别方案 | 极客日志

pip install requests pillow opencv-python numpy

# Ubuntu/Debian
sudo apt-get install tesseract-ocr
sudo apt-get install libtesseract-dev
# Windows/Mac 需从官网下载安装包并配置环境变量

pip install tensorflow keras

from PIL import Image, ImageFilter
import pytesseract
import cv2
import numpy as np

def preprocess_image(image_path):
    # 读取图片
    img = cv2.imread(image_path)
    
    # 转灰度
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    
    # 二值化 (Otsu's thresholding)
    _, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    
    # 保存预处理后的图片供 Tesseract 读取
    cv2.imwrite('preprocessed.png', binary)
    return 'preprocessed.png'

def recognize_text(image_path):
    # 预处理
    processed_path = preprocess_image(image_path)
    
    # 调用 Tesseract
    config = '--psm 6 --oem 3 -c tessedit_char_whitelist=ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789'
    text = pytesseract.image_to_string(Image.open(processed_path), config=config)
    
    return text.strip()

if __name__ == '__main__':
    result = recognize_text('captcha.png')
    print(f'识别结果：{result}')

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.utils import to_categorical
import numpy as np

# 假设已有训练好的数据 X_train, y_train
# X_train shape: (num_samples, height, width, channels)
# y_train shape: (num_samples, num_classes)

def build_model(input_shape, num_classes):
    model = Sequential()
    model.add(Conv2D(32, (3, 3), activation='relu', input_shape=input_shape))
    model.add(MaxPooling2D((2, 2)))
    model.add(Conv2D(64, (3, 3), activation='relu'))
    model.add(MaxPooling2D((2, 2)))
    model.add(Flatten())
    model.add(Dense(128, activation='relu'))
    model.add(Dropout(0.5))
    model.add(Dense(num_classes, activation='softmax'))
    
    model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
    return model

# 加载预训练模型
# model = load_model('captcha_model.h5')
# prediction = model.predict(test_image)

from tensorflow.keras.applications import MobileNetV2
from tensorflow.keras.preprocessing import image
from tensorflow.keras.applications.mobilenet_v2 import preprocess_input, decode_predictions

def predict_object(image_path):
    # 加载预训练模型
    base_model = MobileNetV2(weights='imagenet', include_top=True)
    
    # 读取并预处理图片
    img = image.load_img(image_path, target_size=(224, 224))
    x = image.img_to_array(img)
    x = np.expand_dims(x, axis=0)
    x = preprocess_input(x)
    
    # 预测
    preds = base_model.predict(x)
    results = decode_predictions(preds, top=3)[0]
    
    for label, description, score in results:
        if score > 0.5:
            print(f'识别为：{description} (置信度：{score:.2f})')

import cv2
import numpy as np

def find_slider_position(bg_path, gap_path):
    # 读取图片
    bg = cv2.imread(bg_path)
    gap = cv2.imread(gap_path)
    
    # 转换为灰度图
    gray_bg = cv2.cvtColor(bg, cv2.COLOR_BGR2GRAY)
    gray_gap = cv2.cvtColor(gap, cv2.COLOR_BGR2GRAY)
    
    # 获取缺口图的宽和高
    w, h = gray_gap.shape[1], gray_gap.shape[0]
    
    # 执行模板匹配
    res = cv2.matchTemplate(gray_bg, gray_gap, cv2.TM_CCOEFF_NORMED)
    
    # 查找最大值及其位置
    min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(res)
    
    # 计算中心点坐标
    # 注意：实际移动距离通常是左上角坐标加上缺口宽度的一半
    left = max_loc[0]
    top = max_loc[1]
    distance = left + w // 2
    
    print(f'滑块起始位置：({left}, {top})')
    print(f'需要移动的距离：{distance}px')
    
    return distance

# 使用示例
# distance = find_slider_position('bg.png', 'gap.png')

import requests
from fake_useragent import UserAgent

headers = {
    'User-Agent': UserAgent().chrome,
    'Accept-Language': 'zh-CN,zh;q=0.9'
}

session = requests.Session()
response = session.get('https://example.com/captcha', headers=headers)

# 假设已识别出验证码 token
captcha_token = get_captcha_from_image(response.content)

payload = {
    'username': 'user',
    'password': 'pass',
    'captcha': captcha_token
}

login_response = session.post('https://example.com/login', data=payload, headers=headers)
print(login_response.text)

Python 爬虫实战：常见验证码自动识别方案

Python 爬虫实战：常见验证码自动识别方案

一、引言

二、环境准备与依赖安装

1. 基础依赖

2. OCR 引擎 (Tesseract)

3. 深度学习框架

三、文字验证码识别

1. 传统 OCR 识别 (Tesseract)

预处理步骤

代码示例

2. 深度学习识别

模型构建思路

代码示例 (Keras)

四、图像验证码识别

1. 识别策略

2. 实现流程

3. 代码逻辑示意

五、滑动验证码识别

1. 原理分析

2. 模板匹配算法

3. 代码实现

4. 高级处理技巧

六、综合应用与反爬对抗

示例：集成到 Requests 中

七、法律合规与道德风险

八、总结

更多推荐文章

相关免费在线工具

Python 爬虫实战：常见验证码自动识别方案

Python 爬虫实战：常见验证码自动识别方案

一、引言

二、环境准备与依赖安装

1. 基础依赖

2. OCR 引擎 (Tesseract)

3. 深度学习框架

三、文字验证码识别

1. 传统 OCR 识别 (Tesseract)

预处理步骤

代码示例

2. 深度学习识别

模型构建思路

代码示例 (Keras)

四、图像验证码识别

1. 识别策略

2. 实现流程

3. 代码逻辑示意

五、滑动验证码识别

1. 原理分析

2. 模板匹配算法

3. 代码实现

4. 高级处理技巧

六、综合应用与反爬对抗

示例：集成到 Requests 中

七、法律合规与道德风险

八、总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具