手把手教你使用 Faster-Whisper 实时语音输入转文本，本地部署教程

优质文章学习记录

05 Apr 2026 — 6 min read

文章目录

前言
一、安装环境
二、使用步骤
总结

前言

要想实现像豆包、微信等一样的语音输入功能，通常有两种主流方案：云端 API（轻量、准确度极高）和本地模型（免费、隐私、无需联网）。由于目前开发的系统需要添加一个语音识别功能，刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址

复现成功如下图所示，请看下文教程就能部署本地实时语音输入转文本模型：

电脑有显卡的话可以参考下面这篇文章安装 cuda 和 cudnn

cuda和cudnn的安装教程: cuda和cudnn的安装教程(全网最详细保姆级教程)

一、安装环境

在你的虚拟环境安装 faster-whisper，命令如下：

pip install faster-whisper

安装录音库

pip install pyaudiowpatch

二、使用步骤

1.下载模型

手动下载（离线使用）
如果你的服务器无法联网，或者你想把模型放在指定文件夹，可以手动下载。根据需求点击链接下载：

Tiny (最小/最快):Systran/faster-whisper-tiny
Base:Systran/faster-whisper-base
Small:Systran/faster-whisper-small
Medium:Systran/faster-whisper-medium
Large-v2:Systran/faster-whisper-large-v2
Large-v3 (效果最好):Systran/faster-whisper-large-v3
Distil-Large-v3 (蒸馏版/速度快):Systran/faster-distil-whisper-large-v3

在 Hugging Face 的 “Files and versions” 页面中，下载以下几个关键文件（放入同一个文件夹）：

config.json
model.bin
tokenizer.json
vocabulary.json
preprocessor_config.json

我是下载 faster-whisper-large-v3 的模型下载链接： faster-whisper-large-v3 模型下载地址

把下载的模型文件放到一个文件夹内：

2.实时录音转文本脚本

代码如下（示例）：

# -*- coding: utf-8 -*-""" @Auth ：落花不写码 @File ：mian.py @IDE ：PyCharm @Motto :学习新思想，争做新青年 """import os import sys import time import wave import tempfile import threading import torch import pyaudiowpatch as pyaudio from faster_whisper import WhisperModel # 录音切片时长（秒） AUDIO_BUFFER =5defrecord_audio(p, device):# 创建临时文件with tempfile.NamedTemporaryFile(suffix=".wav", delete=False)as f: filename = f.name wave_file = wave.open(filename,"wb") wave_file.setnchannels(int(device["maxInputChannels"])) wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wave_file.setframerate(int(device["defaultSampleRate"]))defcallback(in_data, frame_count, time_info, status):"""写入音频帧""" wave_file.writeframes(in_data)return(in_data, pyaudio.paContinue)try: stream = p.open(format=pyaudio.paInt16, channels=int(device["maxInputChannels"]), rate=int(device["defaultSampleRate"]), frames_per_buffer=1024,input=True, input_device_index=device["index"], stream_callback=callback,) time.sleep(AUDIO_BUFFER)# 阻塞主线程进行录音except Exception as e:print(f"录音出错: {e}")finally:if'stream'inlocals(): stream.stop_stream() stream.close() wave_file.close()return filename defwhisper_audio(filename, model):""" 调用模型进行转录 """try:# vad_filter=True 可以去掉没说话的静音片段 segments, info = model.transcribe( filename, beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500))for segment in segments:print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))except Exception as e:print(f"转录出错: {e}")finally:# 转录完成后删除临时文件if os.path.exists(filename): os.remove(filename)defmain():print("正在加载 Whisper 模型...")# 检查 GPUif torch.cuda.is_available(): device ="cuda" compute_type ="float16"# 或者 "int8_float16"print("使用 GPU (CUDA) 进行推理")else: device ="cpu" compute_type ="int8"# CPU 上推荐用 int8print("使用 CPU 进行推理")# 模型路径 model_path ="large-v3"try: model = WhisperModel(model_path, device=device, compute_type=compute_type,local_files_only=True)print("模型加载成功！")except Exception as e:print(f"模型加载失败: {e}")returnwith pyaudio.PyAudio()as p:try: default_mic = p.get_default_input_device_info()print(f"\n当前使用的麦克风: {default_mic['name']} (Index: {default_mic['index']})")print(f"采样率: {default_mic['defaultSampleRate']}, 通道数: {default_mic['maxInputChannels']}")print("-"*50)print("开始持续录音 (按 Ctrl+C 停止)...")whileTrue: filename = record_audio(p, default_mic) thread = threading.Thread(target=whisper_audio, args=(filename, model)) thread.start()except OSError:print("未找到默认麦克风，请检查系统声音设置。")except KeyboardInterrupt:print("\n停止录音，程序退出。")except Exception as e:print(f"\n发生未知错误: {e}")if __name__ =='__main__': main()

3.报错解决方法

报错：

Could not locate cudnn_ops64_9.dll. Please make sure it is in your library path!
Invalid handle. Cannot load symbol cudnnCreateTensorDescriptor

Faster-Whisper 所依赖的 CTranslate2 引擎是基于 cuDNN 9.x 版本编译的，我电脑上没有找到 cuDNN v9，看了一下官网的解释如下：

安装旧版本：

pip install --force-reinstall ctranslate2==4.4.0

还是报错：

找到你的 CUDA 安装在其他位置，我的在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin

找到 cublas64_11.dll，复制出来，改成 cublas64_12.dll

当我换了一个虚拟环境，使用 CUDA11.8 时候，虚拟环境已经安装了 CUDA11.8，报错：cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

这是因为调用虚拟环境的 CUDA 11.8 ，PyTorch 安装的是 2.2.2+ cu118（自带 CUDA 11.8）如下图

报错因为你虚拟环境没有 cublas64_12.dll ，那么跟之前的操作一样，找到你的虚拟环境 cublas64_11.dll 所在的位置，我的在 D:\1-Python\ProgramFiles\Miniconda\envs\paddle_torch\Lib\site-packages\torch\lib

把 cublas64_11.dll 复制一份，改成 cublas64_12.dll

报错：Applying the VAD filter requires the onnxruntime package
把 onnxruntime 库版本降低就行，我安装 1.19.2

pip install onnxruntime==1.19.2

参考文章：
报错RuntimeError: Library cublas64_12.dll is not found or cannot be loaded

最后成功了

总结

对你有帮助请帮我一键三连。

AiOnly大模型深度测评：调用GPT-5 API+RAG知识库，快速构建智能客服机器人

声明：本测试报告系作者基于个人兴趣及使用场景开展的非专业测评，测试过程中所涉及的方法、数据及结论均为个人观点，不代表任何官方立场或行业标准。引言 AI 技术加速渗透各行各业的今天，你是否也面临这样的困境：想调用 GPT-5、Claude4.5等顶尖模型却被海外注册、跨平台适配搞得焦头烂额？想快速搭建智能客服、内容生成工具，却因模型接口差异、成本不可控而望而却步？或是作为中小团队，既想享受 AI 红利，又受限于技术门槛和预算压力？ AiOnly平台的出现，正是为了打破这些壁垒。本文将从实战角度出发，带你全方位解锁这个「全球顶尖大模型 MaaS 平台」：从 5 分钟完成注册到 API 密钥创建，从单模型调用到融合 RAG 知识库的智能体开发，然后手把手教你在 Windows 环境部署一个日均成本不足 0.5 元的电商客服机器人。无论你是 AI 开发者、企业运营者，还是想低成本尝试 AI

【前端进阶之旅】项目实战：使用 three.js+vue3+ts 完成 VR 全景看房应用

文章目录 * 前言 * 一、项目概述与技术栈选择 * 1. 项目需求 * 2. 技术栈选择 * 二、项目核心实现步骤 * 1. 基础环境搭建（Vue3 + Three.js 初始化） * 2. 全景房间模型实现（Room 类） * 3. 房间切换交互（PositionSprite 类） * 4. 物品信息提示（TooltipSprite + 悬浮交互） * 4.1 提示点精灵（TooltipSprite） * 4.2 悬浮显示 Tooltip * 5. 交互体验优化 * 5.1 鼠标拖拽旋转视角 * 5.2 窗口自适应 * 三、功能扩展与优化方向 * 四、总结前言在房地产、

Microi吾码：开源低代码，微服务开发的利器

前言在微服务架构的应用中，服务的灵活性和可扩展性至关重要。Microi吾码作为一个高效的微服务框架，凭借其轻量级、可插拔的特性，已经成为开发者构建分布式应用的首选工具。除了基础的微服务开发功能外，Microi吾码还提供了丰富的扩展功能，其中表单引擎是一个重要亮点。本篇博客将详细介绍Microi吾码的特点，以及如何使用其表单引擎和其他实用功能。一. Microi吾码简介 Microi吾码是一个基于Spring Boot构建的微服务框架，致力于为开发者提供简单、灵活的解决方案，帮助他们高效构建分布式应用。它整合了常用的微服务功能，如服务注册与发现、负载均衡、熔断器、API网关、配置中心等，使得开发者无需从零开始构建基础设施，从而专注于业务逻辑。 1.1 核心特点 Microi吾码的核心特点： * 轻量级：基于Spring Boot，极大地简化了项目配置和开发流程。 * 高度可扩展：提供丰富的插件支持，可以根据需要定制功能。 * 开箱即用：内置常见的微服务功能，减少了开发者的重复工作。 * 开发友好：支持热部署和自动化构建，提升开发效率。 1.2 功能介绍

把 AI 小助手接入企业微信：用一个回调接口做群聊机器人实战篇

你也许已经有了一个「看起来还挺像样」的 AI 小助手服务，比如： * 有 HTTP 接口 /v1/chat； * 能识别不同 Skill（待办、日报、FAQ 等）； * 甚至已经有网页版前端。但现实是：同事们每天真正打开的是企业微信，很少会专门去打开一个新网页跟机器人聊天。这篇文章就做一件很实用的小事：在不动你现有 AI 服务核心逻辑的前提下，用一个企业微信“回调接口”，把它变成「群聊里的 @ 机器人」。一、整体思路：后端不重写，只加一层「翻译器」假设你现在的 AI 服务长这样： * 接口：POST /v1/chat 返回： { "answer": "上午开会，下午写代码……"