前言:为什么 Whisper 还不够?
OpenAI 的 Whisper 模型在 ASR(自动语音识别)领域已经是天花板级别的存在,它能听懂极其模糊的口音和多国语言。 但是,Whisper 原生不支持 Speaker Diarization(说话人日记/分离)。它只能把音频变成文字,却无法告诉你这段文字是谁说的。
为了解决这个问题,我们需要引入 Pyannote.audio。这是一个基于 PyTorch 的开源音频分析工具包,它的专长就是'听声辨人'。
我们要做的,就是把这两个模型'缝合'起来。
一、架构设计:双管齐下
我们的系统处理流程如下:
- 音频输入:一段包含多个人说话的会议录音。
- 路径 A (Whisper):负责听内容,输出
(开始时间,结束时间,文本)。 - 路径 B (Pyannote):负责听声纹,输出
(开始时间,结束时间,说话人 ID)。 - 对齐融合 (Alignment):根据时间戳,将两边的结果匹配起来。
**系统流水线 (Mermaid):


