Whisper-WebUI 语音转文字与字幕制作实战

介绍如何使用 Whisper-WebUI 进行语音转文字及字幕制作。涵盖 Docker 环境搭建、基础转录流程、性能优化（如 faster-whisper 引擎）、多语言翻译功能以及常见故障排查。支持 VAD 语音检测、说话人区分及多种音频格式输入，适用于视频创作、播客整理等场景。

王者发布于 2026/3/23更新于 2026/4/184.7K 浏览

Whisper-WebUI 语音转文字与字幕制作实战

环境搭建

Docker 一键部署

使用 Docker 可以快速部署 Whisper-WebUI 服务。

cd Whisper-WebUI && docker compose build && docker compose up

启动后访问 http://localhost:7860。Windows 用户可直接运行 Install.bat。

获取源码

从官方仓库克隆代码包。

基础使用

选择音频源：上传本地文件、粘贴 YouTube 链接或麦克风录音。
设置转录选项：选择语言（支持自动检测）和模型大小（base 速度快，large 精度高）。
生成并导出：点击'开始转录'，下载 SRT 或 VTT 格式字幕。

性能优化

针对长音频或噪音处理，可使用以下功能：

语音活动检测（VAD）：跳过静音部分。
背景音乐分离：分离人声与背景音。
说话人区分：标记不同说话者。

引擎对比：

原生 Whisper：占用显存较高，速度较慢。
faster-whisper：速度显著提升，显存占用更低。推荐使用 faster-whisper 引擎。

多语言支持

直接语音翻译：选择目标语言，直接输出翻译后的字幕。
字幕翻译：先生成原语言字幕，再使用 NLLB 模型或 DeepL API 翻译。

故障排除

Python 版本错误：确保 Python 版本在 3.10-3.12 之间。
FFmpeg 错误：安装 FFmpeg 并添加到环境变量。
模型下载失败：手动下载模型文件放入 models/Whisper/ 或 models/NLLB/ 目录。

进阶配置

说话人分离：需获取 HuggingFace 令牌并在设置中填入。

命令行参数：

# 使用 insanely-fast-whisper 引擎
./start-webui.sh --whisper_type Vaibhavs10/insanely-fast-whisper
# CPU 模式
./start-webui.sh --device cpu

项目结构

核心转录模块：modules/whisper/
音频预处理：modules/vad/
音乐分离：modules/uvr/
翻译功能：modules/translation/

Whisper-WebUI 语音转文字与字幕制作实战

Whisper-WebUI 语音转文字与字幕制作实战

环境搭建

Docker 一键部署

获取源码

基础使用

性能优化

多语言支持

故障排除

进阶配置

项目结构

使用建议

更多推荐文章

相关免费在线工具

Whisper-WebUI 语音转文字与字幕制作实战

Whisper-WebUI 语音转文字与字幕制作实战

环境搭建

Docker 一键部署

获取源码

基础使用

性能优化

多语言支持

故障排除

进阶配置

项目结构

使用建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具