Whisper 语音识别教程：实现实时麦克风录音转文字

Whisper 语音识别教程：实现实时麦克风录音转文字 | 极客日志

[用户麦克风] ↓ (实时录音) [Gradio Web UI] ↓ (音频上传) [FFmpeg 转码为 16kHz mono WAV] ↓ [Whisper Large-v3 模型 (CUDA)] ↓ (文本输出) [Web 页面展示结果]

组件	版本	作用
Whisper Large-v3	1.5B 参数	主模型，支持 99 种语言识别与翻译
Gradio	4.x	快速构建 Web 界面，支持麦克风输入
PyTorch	2.0+	深度学习框架，用于模型加载与推理
CUDA	12.4	GPU 加速推理，提升处理速度 5-8 倍
FFmpeg	6.1.1	音频格式转换与采样率重采样

资源	推荐规格
GPU	NVIDIA RTX 4090 D（23GB 显存）或同等 A100 级别
内存	≥16GB DDR4
存储空间	≥10GB（含模型缓存）
操作系统	Ubuntu 24.04 LTS

mkdir /root/Whisper-large-v3 && cd /root/Whisper-large-v3
python3 -m venv venv
source venv/bin/activate

# requirements.txt
whisper==1.1.10
gradio==4.27.0
torch==2.3.0+cu121
torchaudio==2.3.0+cu121
ffmpeg-python==0.2.0

pip install -r requirements.txt

apt-get update && apt-get install -y ffmpeg

ffmpeg -version

import whisper
import torch

# 判断是否有可用 GPU
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

# 加载 large-v3 模型
model = whisper.load_model("large-v3", device=device)

def transcribe_audio(audio_path, task="transcribe"):
    """
    执行语音转录或翻译
    :param audio_path: 临时音频文件路径
    :param task: 'transcribe' 或 'translate'
    :return: 转录文本
    """
    # 使用模型进行推理
    result = model.transcribe(
        audio_path,
        task=task,
        language=None,  # 自动检测语言
        fp16=True if device == "cuda" else False  # GPU 启用半精度
    )
    return result["text"]

import gradio as gr

with gr.Blocks() as demo:
    gr.Markdown("# Whisper Large-v3 多语言语音识别")
    with gr.Row():
        mic_input = gr.Microphone(type="filepath", label="点击录制")
        file_input = gr.File(label="上传音频文件")
    with gr.Row():
        mode = gr.Radio(["transcribe", "translate"], label="模式", value="transcribe")
        output_text = gr.Textbox(label="转录结果")
    
    # 绑定事件
    mic_input.change(fn=transcribe_audio, inputs=[mic_input, mode], outputs=output_text)
    file_input.upload(fn=transcribe_audio, inputs=[file_input, mode], outputs=output_text)
    
    # 启动服务
    demo.launch(server_name="0.0.0.0", server_port=7860)

import ffmpeg

def preprocess_audio(input_path):
    """标准化音频格式"""
    output_path = "/tmp/processed_audio.wav"
    (ffmpeg.input(input_path)
     .output(output_path, ac=1, ar="16k", format='wav')
     .overwrite_output()
     .run(quiet=True, capture_stdout=True, capture_stderr=True))
    return output_path

模型	参数量	显存占用	推理速度
tiny	39M	<1GB	极快
base	74M	~1.2GB	很快
small	244M	~2.1GB	快
medium	769M	~5.1GB	中等
large-v3	1.5B	~9.7GB	较慢

model = whisper.load_model("large-v3", device="cuda")  # 内部自动使用半精度（如果 GPU 支持）

demo.queue().launch(server_name="0.0.0.0", server_port=7860)

问题现象	原因分析	解决方法
`ffmpeg not found`	系统未安装 FFmpeg	`apt-get install -y ffmpeg`
CUDA out of memory	显存不足	更换 medium/small 模型或启用 fp16
端口被占用	7860 已被其他进程使用	修改 `server_port=7861`
麦克风无响应	浏览器权限未开启	检查 Chrome/Firefox 麦克风授权
模型下载失败	网络连接异常	配置代理或手动下载 `large-v3.pt`

# 查看服务进程
ps aux | grep app.py

# 监控 GPU 状态
nvidia-smi

# 检查端口占用情况
netstat -tlnp | grep 7860

# 停止服务（替换<PID>为实际进程号）
kill 89190

# 查看日志输出（建议重定向到文件）
python3 app.py > logs.txt 2>&1 &

/root/.cache/whisper/large-v3.pt

# 清理缓存
rm -rf /root/.cache/whisper/*

# 创建软链接指向外部存储
ln -s /mnt/ssd/whisper_cache /root/.cache/whisper

Whisper 语音识别教程：实现实时麦克风录音转文字

Whisper 语音识别教程：实现实时麦克风录音转文字

1. 引言

2. 技术架构与核心组件

2.1 整体架构设计

2.2 核心技术栈解析

3. 环境准备与依赖安装

3.1 硬件与系统要求

3.2 安装依赖包

3.3 安装 FFmpeg

4. 核心功能实现详解

4.1 模型加载与 GPU 加速

4.2 实现麦克风实时录音与转录

关键点说明：

4.3 音频预处理机制

5. 性能优化与工程实践

5.1 显存优化策略

5.2 延迟与响应时间优化

5.3 多语言识别表现分析

6. 故障排查与维护指南

6.1 常见问题与解决方案

6.2 日常维护命令

6.3 模型缓存管理

7. 总结

7.1 核心价值回顾

7.2 最佳实践建议

更多推荐文章

相关免费在线工具

Whisper 语音识别教程：实现实时麦克风录音转文字

Whisper 语音识别教程：实现实时麦克风录音转文字

1. 引言

2. 技术架构与核心组件

2.1 整体架构设计

2.2 核心技术栈解析

3. 环境准备与依赖安装

3.1 硬件与系统要求

3.2 安装依赖包

3.3 安装 FFmpeg

4. 核心功能实现详解

4.1 模型加载与 GPU 加速

4.2 实现麦克风实时录音与转录

关键点说明：

4.3 音频预处理机制

5. 性能优化与工程实践

5.1 显存优化策略

5.2 延迟与响应时间优化

5.3 多语言识别表现分析

6. 故障排查与维护指南

6.1 常见问题与解决方案

6.2 日常维护命令

6.3 模型缓存管理

7. 总结

7.1 核心价值回顾

7.2 最佳实践建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具