Python 爬虫 XPath 定位语法详解与实战

Python 爬虫 XPath 定位语法详解与实战 | 极客日志

pip install lxml

pip install requests

符号	含义
`/`	根节点，节点分隔符
`//`	任意位置（递归下降）
`.`	当前节点
`..`	父级节点
`@`	属性
`*`	通配符，匹配任意元素

from lxml import etree

doc = '''
<div>
    <ul>
        <li class="item-0"><a href="link1.html">first item</a></li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-inactive"><a href="link3.html">third item</a></li>
    </ul>
</div>
'''

html = etree.HTML(doc)

# 获取所有 li 元素
print(html.xpath("//li"))

# 获取 div 下的第一个 ul
print(html.xpath("/div/ul[1]"))

# 获取当前节点的父节点
print(html.xpath("//li[@class='item-0']/.."))

# 选取第 n 个 a 元素（从 1 开始计数）
//a[n]

# 选取最后一个 a 元素
//a[last()]

# 选取倒数第二个 a 元素
//a[last()-1]

# 选取位置序号小于 3 的元素（即前两个）
//a[position()<3]

# 选取拥有 href 属性的 a 元素
//a[@href]

# 选取 href 属性值为 'www.baidu.com' 的 a 元素
//a[@href='www.baidu.com']

# 选取 price 值大于 2 的 book 元素
//book[@price>2]

from lxml import etree

doc = '''
<div>
    <ul>
        <p class="item-0 active"><a href="link1.html">first item</a></p>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-inactive"><a href="link3.html">third item</a></li>
    </ul>
</div>
'''

html = etree.HTML(doc)

# 匹配 class 包含 'item' 的所有元素
print(html.xpath("//*[contains(@class,'item')]")

# 匹配 class 以 'ul' 开头的元素
print(html.xpath("//*[starts-with(@class,'ul')]")

# 获取所有 a 标签的文本列表
print(html.xpath("//a/text()"))

# 获取第一个 a 标签的文本
print(html.xpath("//a")[0].text)

# 获取 ul 标签内的直接文本（注意：如果文本在子标签内，这里可能为空）
print(html.xpath("//ul")[0].text)

# 获取所有 a 标签的 href 属性
print(html.xpath("//a/@href"))

# 获取所有 li 标签的 class 属性
print(html.xpath("//li/@class"))

import requests
from lxml import etree
import time

def main():
    # 设置请求头，模拟浏览器访问
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"
    }

    baseurl = "https://movie.douban.com/top250?start="
    
    movie_list = []

    for i in range(0, 250, 25):  # 每次抓取 25 条，共 10 页
        url = f"{baseurl}{i}"
        try:
            res = requests.get(url=url, headers=headers, timeout=10).text
            data = etree.HTML(res)

            # 定位每一部电影条目
            items = data.xpath('//*[@id="content"]/div/div[1]/ol/li')

            for item in items:
                video_info = {
                    "title": "",
                    "year": "",
                    "score": 0,
                    "num": 0
                }

                # 提取标题
                title_list = item.xpath('./div/div[2]/div[1]/a/span/text()')
                for text_item in title_list:
                    video_info['title'] += text_item.replace("\n", "").replace("\xa0", " ")

                # 提取年份
                year_text = item.xpath('./div/div[2]/div[2]/p[1]/text()')[1].split("/")[0]
                video_info['year'] = year_text.replace("\n", "").replace("\xa0", " ").strip()

                # 提取评分
                score_text = item.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]
                video_info['score'] = score_text

                # 提取评价人数
                num_text = item.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0]
                video_info['num'] = num_text.replace("人评价", "")

                movie_list.append(video_info)

            print(f"已抓取第 {i // 25 + 1} 页数据")
            time.sleep(1)  # 礼貌性延迟，避免被封 IP

        except Exception as e:
            print(f"抓取失败：{e}")
            continue

    return movie_list

if __name__ == '__main__':
    movies = main()
    for m in movies[:5]:
        print(m)

Python 爬虫 XPath 定位语法详解与实战

Python 爬虫 XPath 定位语法详解与实战

1. 环境准备

2. 基础概念与路径表达式

2.1 路径表达式

2.2 谓语（Predicates）

3. 高级定位技巧

3.1 模糊匹配：contains 和 starts-with

3.2 获取文本内容

3.3 获取属性值

4. 实战案例：爬取豆瓣电影 Top250

5. 最佳实践与注意事项

6. 总结

更多推荐文章

相关免费在线工具

Python 爬虫 XPath 定位语法详解与实战

Python 爬虫 XPath 定位语法详解与实战

1. 环境准备

2. 基础概念与路径表达式

2.1 路径表达式

2.2 谓语（Predicates）

3. 高级定位技巧

3.1 模糊匹配：contains 和 starts-with

3.2 获取文本内容

3.3 获取属性值

4. 实战案例：爬取豆瓣电影 Top250

5. 最佳实践与注意事项

6. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具