基于 DrissionPage 的抖音评论数据自动化采集方案

基于 DrissionPage 的抖音评论数据自动化采集方案 | 极客日志

pip install DrissionPage

# 导入自动化模块
from DrissionPage import ChromiumPage
# 导入时间转换模块
from datetime import datetime
# 导入 csv 模块，用于操作 CSV 文件
import csv
# 导入时间模块，用于添加短暂等待，提高稳定性
import time
import re

# 提取视频标题和标签
def extract_video_info(page):
    """提取视频标题和以#开头的标签"""
    try:
        # 获取视频标题
        title_ele = page.ele('tag:h1', timeout=5)
        title = title_ele.text.strip() if title_ele else '未知标题'
        # 提取以#开头的标签
        tag_pattern = re.compile(r'#\S+')
        tags = tag_pattern.findall(title)
        # 纯标题（去掉标签）
        pure_title = tag_pattern.sub('', title).strip() or title
        return pure_title, tags
    except Exception as e:
        print(f"提取视频信息失败：{e}")
        return '未知标题', []

def extract_author_info(page):
    """
    精准适配版：提取作者信息（仅保留方式 1 的精准匹配）
    只匹配 class+data 属性结构，移除所有兜底方案
    """
    author_info = {
        '作者名称': '未知',
        '粉丝数': '0',
        '获赞数': '0'
    }
    try:
        # ========== 第一步：提取作者名称（仅保留精准匹配）==========
        # 仅保留方式 1：匹配 class=q5XQ42ql + data-click-from="title"
        author_ele = page.ele('xpath://div[@class="q5XQ42ql" and @data-click-from="title"]', timeout=3)
        if author_ele:
            # 提取该 div 下所有 span 的文本（自动拼接嵌套 span 的内容）
            author_name = author_ele.text.strip()
            if author_name:
                author_info['作者名称'] = author_name

        # ========== 第二步：提取粉丝数和获赞数（通用定位）==========
        stat_eles = page.eles('xpath://span[contains(text(), "粉丝") or contains(text(), "获赞") or contains(text(), "赞")]')
        for ele in stat_eles:
            stat_text = ele.text.strip()
            if '粉丝' in stat_text:
                if stat_text.replace('粉丝', '').strip().isdigit() or '万' in stat_text or '亿' in stat_text:
                    author_info['粉丝数'] = stat_text.replace('粉丝', '').strip()
                else:
                    next_ele = ele.next()
                    if next_ele and next_ele.text.strip():
                        author_info['粉丝数'] = next_ele.text.strip()
            elif '获赞' in stat_text or '赞' in stat_text:
                if stat_text.replace('获赞', '').replace('赞', '').strip().isdigit() or '万' in stat_text or '亿' in stat_text:
                    author_info['获赞数'] = stat_text.replace('获赞', '').replace('赞', '').strip()
                else:
                    next_ele = ele.next()
                    if next_ele and next_ele.text.strip():
                        author_info['获赞数'] = next_ele.text.strip()
    except Exception as e:
        print(f"提取作者信息失败：{e}")
    return author_info

def main():
    # 让用户输入视频链接
    video_url = input("请输入抖音视频链接（回车使用默认链接）：").strip()
    if not video_url:
        video_url = 'https://v.douyin.com/y5R-HvKi_vE'

    # 使用 with 语句管理文件资源，自动关闭文件
    with open('douyin_comments.csv', mode='w', encoding='utf-8-sig', newline='') as f:
        csv_writer = csv.DictWriter(f, fieldnames=[
            '视频标题', '视频标签', '作者名称', '作者粉丝数', '作者获赞数',
            '昵称', '地区', '日期', '评论'
        ])
        # 写入表头
        csv_writer.writeheader()

        # 打开浏览器（实际浏览对象）
        dp = ChromiumPage()
        # 记录实际爬取成功的页数
        success_page_count = 0
        # 存储视频信息和作者信息
        video_title = '未知标题'
        video_tags = []
        author_info = {'作者名称': '未知', '粉丝数': '0', '获赞数': '0'}

        try:
            # 保留精准的监听规则
            dp.listen.start('comment/list/')
            # 访问目标视频页面
            dp.get(video_url)
            # 延长等待时间（确保作者信息区域完全加载）
            time.sleep(8)

            # 提取视频标题和标签
            video_title, video_tags = extract_video_info(dp)
            # 提取作者信息（仅保留精准匹配）
            author_info = extract_author_info(dp)

            print(f"\n=== 开始爬取 ===")
            print(f"视频标题：{video_title}")
            print(f"视频标签：{','.join(video_tags) if video_tags else '无'}")
            print(f"作者名称：{author_info['作者名称']}")
            print(f"作者粉丝数：{author_info['粉丝数']}")
            print(f"作者获赞数：{author_info['获赞数']}")
            print(f"================\n")

            # 初始化页码和翻页状态
            page_num = 1
            has_next_page = True

            # 循环爬取，直到没有下一页
            while has_next_page:
                print(f'正在采集第 {page_num} 页的数据内容')
                # 等待数据包加载（延长超时时间，提高稳定性）
                resp = dp.listen.wait(timeout=15)
                if not resp:
                    print(f"第 {page_num} 页等待数据包超时，尝试滚动加载...")
                    # 主动滚动触发评论加载
                    dp.scroll.to_bottom()
                    time.sleep(2)
                    resp = dp.listen.wait(timeout=5)
                    if not resp:
                        print(f"第 {page_num} 页仍无数据包，终止爬取")
                        break

                # 获取响应数据
                try:
                    json_data = resp.response.body
                    # 解析数据，获取评论信息所在的列表
                    comments = json_data.get('comments', [])
                    # 如果评论列表为空，说明当前页无数据，终止循环
                    if not comments:
                        print(f"第 {page_num} 页无评论数据，终止爬取")
                        break

                    # 遍历评论列表，提取每条评论具体数据信息
                    for index in comments:
                        try:
                            create_time = index.get('create_time', 0)
                            # 容错处理时间字段
                            if create_time == 0:
                                date = '未知时间'
                            else:
                                date = str(datetime.fromtimestamp(create_time))

                            # 尝试获取地区信息
                            region = index.get('ip_label', '')
                            if not region:
                                ip_client_info = index.get('client_info', {})
                                region = ip_client_info.get('province', '未知')
                        except KeyError as e:
                            print(f"处理单个评论数据出现异常，异常信息：{e}，跳过该评论")
                            continue

                        dit = {
                            '视频标题': video_title,
                            '视频标签': ','.join(video_tags),
                            '作者名称': author_info['作者名称'],
                            '作者粉丝数': author_info['粉丝数'],
                            '作者获赞数': author_info['获赞数'],
                            '昵称': index.get('user', {}).get('nickname', '未知'),
                            '地区': region,
                            '日期': date,
                            '评论': index.get('text', ''),
                        }
                        try:
                            csv_writer.writerow(dit)
                            print(dit)
                        except Exception as e:
                            print(f"写入 CSV 文件出现异常，异常信息：{e}，跳过该数据")

                    # 爬取成功，页数 +1
                    success_page_count += 1

                    # 查找下一页元素，判断是否存在
                    next_page = dp.ele('css:.Rcc71LyU', timeout=3)
                    if not next_page:
                        print("未找到下一页元素，终止爬取")
                        break

                    # 尝试滚动到下一页按钮，失败则终止
                    try:
                        dp.scroll.to_see(next_page)
                        time.sleep(1)
                        next_page.click()
                        page_num += 1
                        time.sleep(3)
                    except Exception as e:
                        print(f"滚动/点击下一页按钮失败，异常信息：{e}，终止爬取")
                        break
                except Exception as e:
                    print(f"第 {page_num} 页数据处理出现异常，异常信息：{e}，终止爬取")
                    break

            print(f"\n=== 爬取结束 ===")
            print(f"共采集了 {success_page_count} 页评论数据")
            print(f"数据已保存到：douyin_comments.csv")
        except Exception as e:
            print(f"爬取过程中出现致命异常：{e}")
        finally:
            # 无论是否异常，都关闭浏览器
            dp.quit()
            print("浏览器已关闭")

if __name__ == '__main__':
    main()

dp.listen.start('comment/list/')

基于 DrissionPage 的抖音评论数据自动化采集方案

一、技术选型与核心优势

1. 核心依赖库

2. 方案优势

二、核心功能实现

1. 环境准备

2. 完整代码实现

3. 示例链接

4. 代码运行效果

5. CSV 导出效果

三、关键模块解析

1. 视频信息提取（extract_video_info）

2. 作者信息提取（extract_author_info）

3. 核心爬取逻辑（main 函数）

（1）网络请求监听

（2）分页处理

（3）数据存储

四、使用说明与注意事项

1. 使用步骤

2. 注意事项

五、功能扩展方向

总结

更多推荐文章

相关免费在线工具

基于 DrissionPage 的抖音评论数据自动化采集方案

一、技术选型与核心优势

1. 核心依赖库

2. 方案优势

二、核心功能实现

1. 环境准备

2. 完整代码实现

3. 示例链接

4. 代码运行效果

5. CSV 导出效果

三、关键模块解析

1. 视频信息提取（extract_video_info）

2. 作者信息提取（extract_author_info）

3. 核心爬取逻辑（main 函数）

（1）网络请求监听

（2）分页处理

（3）数据存储

四、使用说明与注意事项

1. 使用步骤

2. 注意事项

五、功能扩展方向

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具