YouTube 是英语世界的知识富矿,但一个 Stanford / MIT 公开课、CEO 访谈动辄 60-90 分钟。如果每个视频都看完,一天就报废了。用 AI 把长视频压缩成 3-5 分钟的可读笔记,是 2026 年知识工作者的基本技能。这篇说清楚 YouTube AI Summary 的工作原理 + 工具对比 + 实操步骤。
YouTube 给绝大多数视频自动生成字幕(auto-generated captions),很多 UP 主也会传人工字幕(community captions / manually-uploaded)。AI 总结工具直接拉字幕,丢给 GPT/Claude 总结,**不需要下载视频**,速度极快。
30 分钟视频通常 30 秒内出笔记,核心瓶颈在 LLM 推理速度。Claude Sonnet 4.5 / GPT-4o 对长上下文(50K+ tokens)的处理能力直接决定笔记质量。
少数视频没有字幕(如新发布、UP 主关闭字幕、小语种自动字幕质量太差)。这时候需要:
yt-dlp 下载音频(bestaudio[ext=m4a])large-v3-turbo / Groq Whisper API)这条路径慢一些(30 分钟视频约 1-3 分钟),但任何视频都能搞定。专业工具会自动判断走哪条。
| 工具 | 优势 | 劣势 |
|---|---|---|
| BiliNote(www.bilinote.app) | 中英文都好;支持 B 站 + 抖音 + 快手,跨平台一站式;长视频零信息丢失算法;多格式导出(PDF/Word/PPT/思维导图/海报) | web 版需注册 |
| YouTube Summary 浏览器插件 | 免费、即开即用 | 只支持 YouTube;输出格式单一;长视频会丢细节;只英文 |
| ChatGPT / Claude 手动复制字幕 | 免费(有订阅) | 体力活;字幕分段超长 context 容易丢内容;无章节结构 |
| NotebookLM | Google 生态;支持多源 | 视频源支持有限;无 Markdown 导出;在中国大陆访问困难 |
https://www.youtube.com/watch?v=XXXXXXXXXXXhttps://youtu.be/XXXXXXXXXXXYouTube 在大陆无法直连。BiliNote 在线版已经在出口侧统一处理代理,**用户无感**。如果你是开源单机版自部署,需要在 worker 容器配:
YOUTUBE_PROXY=http://your-proxy-host:7890
普通 map-reduce 总结的痛点:60 分钟视频切 5 段送给 AI,每段独立总结,最后再让 AI「整合」—— 整合步骤往往把前面的细节再次压缩,导致**越往后内容越少、关键案例 / 数据被悄悄删除**。
BiliNote 的章节锁定算法:
结果:90 分钟视频笔记里,30 分钟处的细节和 80 分钟处的细节同样丰富,**完全不丢信息**。
支持。Shorts 时长短,转写 + 总结通常 30 秒内完成。
BiliNote 支持自动语种检测。如果是中英文混合,可在生成前指定 language=zh 锁定输出语言。
开源单机版可以(BYOK)。在线版用 BiliNote 后端的模型池,按积分计费,免去 API 余额管理 / 重试 / 速率限制等麻烦。