Whisper Large v3 多语言语音识别 Web 服务部署指南

Whisper Large v3 多语言语音识别 Web 服务部署指南 | 极客日志

[客户端浏览器] ↓ (HTTP 请求) [Gradio Web UI] ←→ [Whisper 模型推理引擎] ↓ [FFmpeg 音频预处理] ↓ [CUDA GPU 加速计算]

组件	版本	作用说明
Whisper Large v3	1.5B 参数	主模型，负责语音转文字与语言识别
PyTorch	≥2.0	深度学习运行时环境
Gradio	4.x	构建 Web UI 与 API 接口
CUDA	12.4	GPU 并行计算支持
FFmpeg	6.1.1	音频解码与格式转换

资源类型	推荐配置
操作系统	Ubuntu 22.04 / 24.04 LTS
GPU	NVIDIA 显卡（支持 CUDA）
显存	≥20GB（推荐 RTX 4090 D）
内存	≥16GB
存储空间	≥10GB（含模型缓存）

python3 -m venv whisper-env
source whisper-env/bin/activate

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install gradio openai-whisper ffmpeg-python

pip install -r requirements.txt

sudo apt-get update && sudo apt-get install -y ffmpeg

ffmpeg -version

/root/Whisper-large-v3/
├── app.py                 # Web 服务主程序
├── requirements.txt       # Python 依赖列表
├── configuration.json     # 自定义模型配置（可选）
├── config.yaml            # Whisper 推理参数设置
└── example/               # 示例音频文件存放目录

import os
import whisper
import gradio as gr

# 设置模型缓存路径
os.environ["HF_HOME"] = "/root/.cache"

# 加载 Whisper Large-v3 模型（GPU）
model = whisper.load_model("large-v3", device="cuda")

def transcribe_audio(audio_path, task="transcribe"):
    """
    执行语音识别任务
    :param audio_path: 输入音频路径
    :param task: transcribe 或 translate
    :return: 字符串形式的识别结果
    """
    try:
        result = model.transcribe(
            audio_path,
            task=task,
            language=None  # 自动检测语言
        )
        return result["text"]
    except Exception as e:
        return f"推理失败：{str(e)}"

# 构建 Gradio 界面
with gr.Blocks(title="Whisper Large v3 多语言识别") as demo:
    gr.Markdown("# 🎤 Whisper Large v3 多语言语音识别 Web 服务")
    gr.Markdown("支持 99 种语言自动检测与转录，支持上传文件或麦克风输入。")
    with gr.Row():
        with gr.Column():
            audio_input = gr.Audio(label="输入音频", type="filepath")
            task_radio = gr.Radio(
                ["transcribe", "translate"],
                label="模式选择",
                value="transcribe"
            )
            submit_btn = gr.Button("开始识别", variant="primary")
        with gr.Column():
            output_text = gr.Textbox(label="识别结果", lines=10)
            submit_btn.click(
                fn=transcribe_audio,
                inputs=[audio_input, task_radio],
                outputs=output_text
            )
    gr.Markdown("**示例音频测试**")
    gr.Examples(
        examples=[
            ["example/chinese-speech.wav", "transcribe"],
            ["example/english-podcast.mp3", "translate"]
        ],
        inputs=[audio_input, task_radio]
    )

# 启动服务
if __name__ == "__main__":
    demo.launch(
        server_name="0.0.0.0",
        server_port=7860,
        share=False  # 是否生成公网链接
    )

python3 app.py

Running on local URL: http://0.0.0.0:7860
Model loaded on CUDA device. To create a public link, set `share=True` in launch().

http://<服务器 IP>:7860

demo.launch(server_port=8080)  # 改为 8080

# 替代方案（降低资源消耗）
model = whisper.load_model("medium", device="cuda")  # 仅 768MB 显存占用

sudo apt-get install -y ffmpeg

which ffmpeg  # 应返回 /usr/bin/ffmpeg

netstat -tlnp | grep 7860

kill <PID>

wget https://huggingface.co/openai/whisper-large-v3/resolve/main/pytorch_model.bin
mv pytorch_model.bin /root/.cache/whisper/large-v3.pt

# 查看服务进程
ps aux | grep app.py

# 查看 GPU 使用情况
nvidia-smi

# 查看端口占用状态
netstat -tlnp | grep 7860

# 实时查看日志输出
tail -f nohup.out  # 若后台运行

# 停止服务
kill <进程 ID>

# 后台持久化运行
nohup python3 app.py > whisper.log 2>&1 &

Whisper Large v3 多语言语音识别 Web 服务部署指南

Whisper Large v3 多语言语音识别 Web 服务部署指南

1. 引言

2. 技术架构与核心组件解析

2.1 整体架构设计

2.2 核心技术栈详解

3. 环境准备与依赖安装

3.1 系统环境要求

3.2 安装 Python 依赖

3.3 安装 FFmpeg 音频处理工具

4. Web 服务实现与代码解析

4.1 目录结构规划

4.2 核心代码实现（app.py）

4.3 关键代码解析

5. 快速启动与服务访问

5.1 启动服务命令

5.2 访问 Web 界面

5.3 修改监听端口（可选）

6. 性能优化与常见问题排查

6.1 GPU 显存不足（CUDA OOM）

6.2 FFmpeg 未安装错误

6.3 端口被占用

6.4 模型下载缓慢或失败

7. 维护与监控命令汇总

8. 总结

更多推荐文章

相关免费在线工具

Whisper Large v3 多语言语音识别 Web 服务部署指南

Whisper Large v3 多语言语音识别 Web 服务部署指南

1. 引言

2. 技术架构与核心组件解析

2.1 整体架构设计

2.2 核心技术栈详解

3. 环境准备与依赖安装

3.1 系统环境要求

3.2 安装 Python 依赖

3.3 安装 FFmpeg 音频处理工具

4. Web 服务实现与代码解析

4.1 目录结构规划

4.2 核心代码实现（app.py）

4.3 关键代码解析

5. 快速启动与服务访问

5.1 启动服务命令

5.2 访问 Web 界面

5.3 修改监听端口（可选）

6. 性能优化与常见问题排查

6.1 GPU 显存不足（CUDA OOM）

6.2 FFmpeg 未安装错误

6.3 端口被占用

6.4 模型下载缓慢或失败

7. 维护与监控命令汇总

8. 总结

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具