手把手教你使用 Faster-Whisper 实时语音输入转文本，本地部署教程

优质文章学习记录

05 Apr 2026 — 6 min read

文章目录

前言
一、安装环境
二、使用步骤
总结

前言

要想实现像豆包、微信等一样的语音输入功能，通常有两种主流方案：云端 API（轻量、准确度极高）和本地模型（免费、隐私、无需联网）。由于目前开发的系统需要添加一个语音识别功能，刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址

复现成功如下图所示，请看下文教程就能部署本地实时语音输入转文本模型：

电脑有显卡的话可以参考下面这篇文章安装 cuda 和 cudnn

cuda和cudnn的安装教程: cuda和cudnn的安装教程(全网最详细保姆级教程)

一、安装环境

在你的虚拟环境安装 faster-whisper，命令如下：

pip install faster-whisper

安装录音库

pip install pyaudiowpatch

二、使用步骤

1.下载模型

手动下载（离线使用）
如果你的服务器无法联网，或者你想把模型放在指定文件夹，可以手动下载。根据需求点击链接下载：

Tiny (最小/最快):Systran/faster-whisper-tiny
Base:Systran/faster-whisper-base
Small:Systran/faster-whisper-small
Medium:Systran/faster-whisper-medium
Large-v2:Systran/faster-whisper-large-v2
Large-v3 (效果最好):Systran/faster-whisper-large-v3
Distil-Large-v3 (蒸馏版/速度快):Systran/faster-distil-whisper-large-v3

在 Hugging Face 的 “Files and versions” 页面中，下载以下几个关键文件（放入同一个文件夹）：

config.json
model.bin
tokenizer.json
vocabulary.json
preprocessor_config.json

我是下载 faster-whisper-large-v3 的模型下载链接： faster-whisper-large-v3 模型下载地址

把下载的模型文件放到一个文件夹内：

2.实时录音转文本脚本

代码如下（示例）：

# -*- coding: utf-8 -*-""" @Auth ：落花不写码 @File ：mian.py @IDE ：PyCharm @Motto :学习新思想，争做新青年 """import os import sys import time import wave import tempfile import threading import torch import pyaudiowpatch as pyaudio from faster_whisper import WhisperModel # 录音切片时长（秒） AUDIO_BUFFER =5defrecord_audio(p, device):# 创建临时文件with tempfile.NamedTemporaryFile(suffix=".wav", delete=False)as f: filename = f.name wave_file = wave.open(filename,"wb") wave_file.setnchannels(int(device["maxInputChannels"])) wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wave_file.setframerate(int(device["defaultSampleRate"]))defcallback(in_data, frame_count, time_info, status):"""写入音频帧""" wave_file.writeframes(in_data)return(in_data, pyaudio.paContinue)try: stream = p.open(format=pyaudio.paInt16, channels=int(device["maxInputChannels"]), rate=int(device["defaultSampleRate"]), frames_per_buffer=1024,input=True, input_device_index=device["index"], stream_callback=callback,) time.sleep(AUDIO_BUFFER)# 阻塞主线程进行录音except Exception as e:print(f"录音出错: {e}")finally:if'stream'inlocals(): stream.stop_stream() stream.close() wave_file.close()return filename defwhisper_audio(filename, model):""" 调用模型进行转录 """try:# vad_filter=True 可以去掉没说话的静音片段 segments, info = model.transcribe( filename, beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500))for segment in segments:print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))except Exception as e:print(f"转录出错: {e}")finally:# 转录完成后删除临时文件if os.path.exists(filename): os.remove(filename)defmain():print("正在加载 Whisper 模型...")# 检查 GPUif torch.cuda.is_available(): device ="cuda" compute_type ="float16"# 或者 "int8_float16"print("使用 GPU (CUDA) 进行推理")else: device ="cpu" compute_type ="int8"# CPU 上推荐用 int8print("使用 CPU 进行推理")# 模型路径 model_path ="large-v3"try: model = WhisperModel(model_path, device=device, compute_type=compute_type,local_files_only=True)print("模型加载成功！")except Exception as e:print(f"模型加载失败: {e}")returnwith pyaudio.PyAudio()as p:try: default_mic = p.get_default_input_device_info()print(f"\n当前使用的麦克风: {default_mic['name']} (Index: {default_mic['index']})")print(f"采样率: {default_mic['defaultSampleRate']}, 通道数: {default_mic['maxInputChannels']}")print("-"*50)print("开始持续录音 (按 Ctrl+C 停止)...")whileTrue: filename = record_audio(p, default_mic) thread = threading.Thread(target=whisper_audio, args=(filename, model)) thread.start()except OSError:print("未找到默认麦克风，请检查系统声音设置。")except KeyboardInterrupt:print("\n停止录音，程序退出。")except Exception as e:print(f"\n发生未知错误: {e}")if __name__ =='__main__': main()

3.报错解决方法

报错：

Could not locate cudnn_ops64_9.dll. Please make sure it is in your library path!
Invalid handle. Cannot load symbol cudnnCreateTensorDescriptor

Faster-Whisper 所依赖的 CTranslate2 引擎是基于 cuDNN 9.x 版本编译的，我电脑上没有找到 cuDNN v9，看了一下官网的解释如下：

安装旧版本：

pip install --force-reinstall ctranslate2==4.4.0

还是报错：

找到你的 CUDA 安装在其他位置，我的在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin

找到 cublas64_11.dll，复制出来，改成 cublas64_12.dll

当我换了一个虚拟环境，使用 CUDA11.8 时候，虚拟环境已经安装了 CUDA11.8，报错：cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

这是因为调用虚拟环境的 CUDA 11.8 ，PyTorch 安装的是 2.2.2+ cu118（自带 CUDA 11.8）如下图

报错因为你虚拟环境没有 cublas64_12.dll ，那么跟之前的操作一样，找到你的虚拟环境 cublas64_11.dll 所在的位置，我的在 D:\1-Python\ProgramFiles\Miniconda\envs\paddle_torch\Lib\site-packages\torch\lib

把 cublas64_11.dll 复制一份，改成 cublas64_12.dll

报错：Applying the VAD filter requires the onnxruntime package
把 onnxruntime 库版本降低就行，我安装 1.19.2

pip install onnxruntime==1.19.2

参考文章：
报错RuntimeError: Library cublas64_12.dll is not found or cannot be loaded

最后成功了

总结

对你有帮助请帮我一键三连。

Ubuntu/Debian VPS 上 Apache Web 服务器的完整配置教程

Apache 是互联网上最流行的 Web 服务器之一，用于托管超过半数活跃网站。尽管市面上存在许多可用的 Web 服务器，但由于 Apache 的普遍性，了解其工作原理仍然具有重要意义。本文将分享 Apache 的通用配置文件及其可配置选项。文中将以 Ubuntu/Debian 系统的 Apache 文件布局为例进行说明，这种布局方式与其他 Linux 发行版的配置层级结构有所不同。版本兼容性说明：本教程已在 Ubuntu 22.04 LTS、Ubuntu 24.04 LTS、Ubuntu 25.04 以及 Debian 11、Debian 12 系统上通过验证测试。所有展示的命令和配置均兼容上述版本，且 Apache 配置结构与命令（如 a2ensite、

前端存储三剑客：localStorage、sessionStorage、cookie 超详细对比

在前端开发中，数据本地存储是提升用户体验、优化性能、实现持久化状态的核心技术。我们最常用的就是 localStorage、sessionStorage 和 cookie 这三种方案，但很多开发者容易混淆它们的用法、存储特性和适用场景。这篇博客就用最清晰、最实用的方式，一次性讲透三者的区别、用法和最佳实践。一、先搞懂核心概念 * cookie：最早的客户端存储方案，会随 HTTP 请求自动发送到服务器，主要用于身份验证、会话保持。 * localStorage：HTML5 新增的本地存储，持久化存储，手动清除才会消失，不参与网络请求。 * sessionStorage：HTML5 新增的会话存储，页面会话期间有效，关闭标签页 / 浏览器就清空。二、核心区别一张表看懂表格特性localStoragesessionStoragecookie生命周期永久有效，手动清除仅当前会话（关闭标签 / 浏览器失效）可设置过期时间，默认会话级存储容量约 5MB约 5MB很小，仅 4KB与服务端通信不参与不参与自动携带在

我用 Vibe Code 做出了漂亮的 Web 应用，但 AI 依然无法为 Google Search 自动生成一个简单的 Sitemap

我用 Vibe Code 做出了漂亮的 Web 应用，但 AI 依然无法为 Google Search 自动生成一个简单的 Sitemap 在最近一段时间里，我看到很多开发者和创业者开始用 AI 工具做网站、Web 应用这些东西，比如所谓的 vibe coding 平台：快速生成页面、美观的前端、自动部署等等。乍一看体验很棒，但当你开始关注 SEO 和搜索引擎索引时，这一切就变得很不那么简单了。我自己做过很多网站的 SEO，这本应该是个“十分钟搞定”的事儿 —— “生成 sitemap.xml，提交到 Google Search Console，搞定。” 但是在实际操作中，问题远比想象复杂。项目背景我做的第一个项目是一个在线餐厅目录：收集了所有提供食物过敏菜单的餐厅信息，供过敏患者快速查询。

Qwen3-1.7B支持流式响应？实战验证与前端集成教程

Qwen3-1.7B支持流式响应？实战验证与前端集成教程最近在折腾大模型应用开发，特别是想给前端加个实时聊天的效果，就一直在找支持流式输出的轻量级模型。Qwen3系列开源后，我第一时间注意到了1.7B这个版本——参数小，部署快，但官方文档里关于流式响应的说明不太详细。所以，我决定自己动手验证一下：Qwen3-1.7B到底支不支持流式响应？如果支持，怎么在前端项目里用起来？这篇文章就是我的实战记录，从环境搭建、接口测试到前端集成，一步步带你走通整个流程。 1. 环境准备与快速启动要在本地或者云端快速体验Qwen3-1.7B，最省事的方法就是直接用现成的Docker镜像。这里我以ZEEKLOG星图平台的镜像为例，带你快速启动一个可用的环境。 1.1 启动Jupyter Notebook环境 1. 找到Qwen3-1.7B的镜像并启动。平台通常会提供一个预装好所有依赖的容器。 2. 容器启动后，直接打开提供的Jupyter Notebook链接。你会看到一个熟悉的网页界面，里面已经配置好了Python环境和必要的库。这样，我们就不用操心安装PyTorch、Tran