whisperX 入门指南：从安装到实现语音识别功能

whisperX 入门指南：从安装到实现语音识别功能 | 极客日志

conda create --name whisperx python=3.10
conda activate whisperx

conda install pytorch==2.0.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia

pip install whisperx

pip install git+https://github.com/m-bain/whisperX.git

pip install git+https://github.com/m-bain/whisperX.git --upgrade

git clone https://github.com/m-bain/whisperX.git
cd whisperX
pip install -e .

whisperx examples/sample01.wav

whisperx examples/sample01.wav --highlight_words True

whisperx examples/sample01.wav --model large-v2 --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --batch_size 4

whisperx examples/sample01.wav --model large-v2 --diarize --highlight_words True --min_speakers 2 --max_speakers 2

whisperx examples/sample01.wav --compute_type int8

whisperx examples/sample_de_01.wav --model large --language de

import whisperx
import gc

device = "cuda"
audio_file = "audio.mp3"
batch_size = 16  # 减少批大小以降低 GPU 内存占用
compute_type = "float16"  # 如果 GPU 内存不足，可以改为 "int8"

# 1. 使用原始 whisper 进行转录（批处理）
model = whisperx.load_model("large-v2", device, compute_type=compute_type)
audio = whisperx.load_audio(audio_file)
result = model.transcribe(audio, batch_size=batch_size)
print(result["segments"])  # 对齐前的结果

# 2. 对齐 whisper 输出
model_a, metadata = whisperx.load_align_model(language_code=result["language"], device=device)
result = whisperx.align(result["segments"], model_a, metadata, audio, device, return_char_alignments=False)
print(result["segments"])  # 对齐后的结果

# 3. 分配 speaker 标签
diarize_model = whisperx.DiarizationPipeline(use_auth_token="YOUR_HF_TOKEN", device=device)
diarize_segments = diarize_model(audio)
result = whisperx.assign_word_speakers(diarize_segments, result)
print(result["segments"])  # 带有 speaker ID 的结果

whisperX 入门指南：从安装到实现语音识别功能

whisperX 简介

环境搭建

1. 创建 Python 环境

2. 安装 PyTorch

3. 安装 whisperX

选项 A：稳定版本（推荐）

选项 B：开发版本

选项 C：开发模式

4. 配置 Speaker Diarization（可选）

命令行使用

基本使用

提高识别准确率

Speaker 区分

CPU 运行

多语言支持

Python API 使用

常见问题解决

GPU 内存不足

Speaker 区分效果不佳

时间戳不准确

总结

更多推荐文章

相关免费在线工具

whisperX 入门指南：从安装到实现语音识别功能

whisperX 简介

环境搭建

1. 创建 Python 环境

2. 安装 PyTorch

3. 安装 whisperX

选项 A：稳定版本（推荐）

选项 B：开发版本

选项 C：开发模式

4. 配置 Speaker Diarization（可选）

命令行使用

基本使用

提高识别准确率

Speaker 区分

CPU 运行

多语言支持

Python API 使用

常见问题解决

GPU 内存不足

Speaker 区分效果不佳

时间戳不准确

总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具