AI 视频总结工具:Cursor Agent 实现多平台视频自动笔记
前言:看视频学习的痛点
打开一个 40 分钟的技术视频,心想这次一定好好做笔记。结果 10 分钟后,在暂停、截图、打字之间反复横跳,笔记写了三行,视频才看了一半。
更痛苦的是,做完笔记回头一看:写的啥?
既然让 AI 拥有各种超能力,那能不能让它帮我看视频、做笔记?于是,这个故事就开始了。
竞品调研
在动手造轮子之前,调研了市面上的工具:
| 工具 | 优点 | 缺点 |
|---|---|---|
| BibiGPT | 总结质量高,支持多平台 | 要钱,用多了钱包会痛 |
| Glarity | 浏览器插件,方便 | 也要钱,免费额度感人 |
| 通义听悟 | 阿里出品,中文友好 | 同样要钱,且有使用限制 |
| Kimi | 免费! | 不支持视频总结 |
总结下来就是:好用的都要钱,免费的不好用。
于是我想:既然 AI 这么强,为什么不自己做一个?白嫖自己的算力,想看多少看多少,笔记格式还能自己定义。
项目介绍:video-summarizer
这是一个安装在 Cursor 里的 Agent Skill。GitHub 地址:https://github.com/keepongo/video-summarizer.git
它只需要丢一个视频链接给 AI,就能自动:
- 提取视频字幕/语音转文字(三层降级策略,总有一个能用)
- 抽取关键帧截图(每段配图,再也不是纯文字笔记)
- 生成结构化 Markdown 笔记(自动保存到本地)
支持的平台:
- B 站 — 公开 API,无需 Cookie,直接起飞
- 抖音 — 直接解析移动端页面,无需登录
- 小红书 — 同上,移动端直接拿数据
- YouTube — 字幕 API 可用(IP 有限制,后面说)
- 以及所有
yt-dlp支持的平台
效果展示
B 站:大模型 Token 科普视频
给 Skill 丢了一个 B 站的大模型 Token 科普视频链接,它直接提取了字幕和关键帧。上图是视频中对 Token 概念的可视化讲解——"我喜欢唱、跳、Rap 和篮球"被拆分成一个个 Token,经典永不过时。AI 把这些关键画面都精准地抽出来了。
DeepSeek 拿着剑,GPT 拿着电锯——这画风,一看就是讲大模型"军备竞赛"的。Skill 自动抓到了这个灵魂画面,配合生成的文字总结,不用看视频就能 get 到精髓。
B 站是最省心的平台,公开 API + WBI 签名就搞定了,完全不需要登录或 Cookie。字幕直接从官方 API 拿,又快又准。
抖音:《奔跑吧》第十三季
- 直接未登录抖音复制链接给 cursor。
- 后面增加截图功能,一样按要求保存到 D 盘的 images 文件夹。
抖音的实现挺有意思:直接解析移动端分享页面的 ,拿到视频的 CDN 直链,不需要 Cookie,不需要登录,甚至不需要 (当然字幕还是得靠 Whisper 转录,毕竟抖音没有字幕文件)。


