Whisper-WebUI 语音转文字与字幕制作实战
环境搭建
Docker 一键部署
使用 Docker 可以快速部署 Whisper-WebUI 服务。
cd Whisper-WebUI && docker compose build && docker compose up
启动后访问 http://localhost:7860。Windows 用户可直接运行 Install.bat。
获取源码
从官方仓库克隆代码包。
基础使用
- 选择音频源:上传本地文件、粘贴 YouTube 链接或麦克风录音。
- 设置转录选项:选择语言(支持自动检测)和模型大小(base 速度快,large 精度高)。
- 生成并导出:点击'开始转录',下载 SRT 或 VTT 格式字幕。
性能优化
针对长音频或噪音处理,可使用以下功能:
- 语音活动检测(VAD):跳过静音部分。
- 背景音乐分离:分离人声与背景音。
- 说话人区分:标记不同说话者。
引擎对比:
- 原生 Whisper:占用显存较高,速度较慢。
- faster-whisper:速度显著提升,显存占用更低。推荐使用 faster-whisper 引擎。
多语言支持
- 直接语音翻译:选择目标语言,直接输出翻译后的字幕。
- 字幕翻译:先生成原语言字幕,再使用 NLLB 模型或 DeepL API 翻译。
故障排除
- Python 版本错误:确保 Python 版本在 3.10-3.12 之间。
- FFmpeg 错误:安装 FFmpeg 并添加到环境变量。
- 模型下载失败:手动下载模型文件放入
models/Whisper/或models/NLLB/目录。
进阶配置
说话人分离:需获取 HuggingFace 令牌并在设置中填入。
命令行参数:
# 使用 insanely-fast-whisper 引擎
./start-webui.sh --whisper_type Vaibhavs10/insanely-fast-whisper
# CPU 模式
./start-webui.sh --device cpu
项目结构
- 核心转录模块:
modules/whisper/ - 音频预处理:
modules/vad/ - 音乐分离:
modules/uvr/ - 翻译功能:
modules/translation/

