手把手教你使用 Faster-Whisper 实时语音输入转文本，本地部署教程

优质文章学习记录

06 Apr 2026 — 6 min read

文章目录

前言
一、安装环境
二、使用步骤
总结

前言

要想实现像豆包、微信等一样的语音输入功能，通常有两种主流方案：云端 API（轻量、准确度极高）和本地模型（免费、隐私、无需联网）。由于目前开发的系统需要添加一个语音识别功能，刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址

复现成功如下图所示，请看下文教程就能部署本地实时语音输入转文本模型：

电脑有显卡的话可以参考下面这篇文章安装 cuda 和 cudnn

cuda和cudnn的安装教程: cuda和cudnn的安装教程(全网最详细保姆级教程)

一、安装环境

在你的虚拟环境安装 faster-whisper，命令如下：

pip install faster-whisper

安装录音库

pip install pyaudiowpatch

二、使用步骤

1.下载模型

手动下载（离线使用）
如果你的服务器无法联网，或者你想把模型放在指定文件夹，可以手动下载。根据需求点击链接下载：

Tiny (最小/最快):Systran/faster-whisper-tiny
Base:Systran/faster-whisper-base
Small:Systran/faster-whisper-small
Medium:Systran/faster-whisper-medium
Large-v2:Systran/faster-whisper-large-v2
Large-v3 (效果最好):Systran/faster-whisper-large-v3
Distil-Large-v3 (蒸馏版/速度快):Systran/faster-distil-whisper-large-v3

在 Hugging Face 的 “Files and versions” 页面中，下载以下几个关键文件（放入同一个文件夹）：

config.json
model.bin
tokenizer.json
vocabulary.json
preprocessor_config.json

我是下载 faster-whisper-large-v3 的模型下载链接： faster-whisper-large-v3 模型下载地址

把下载的模型文件放到一个文件夹内：

2.实时录音转文本脚本

代码如下（示例）：

# -*- coding: utf-8 -*-""" @Auth ：落花不写码 @File ：mian.py @IDE ：PyCharm @Motto :学习新思想，争做新青年 """import os import sys import time import wave import tempfile import threading import torch import pyaudiowpatch as pyaudio from faster_whisper import WhisperModel # 录音切片时长（秒） AUDIO_BUFFER =5defrecord_audio(p, device):# 创建临时文件with tempfile.NamedTemporaryFile(suffix=".wav", delete=False)as f: filename = f.name wave_file = wave.open(filename,"wb") wave_file.setnchannels(int(device["maxInputChannels"])) wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wave_file.setframerate(int(device["defaultSampleRate"]))defcallback(in_data, frame_count, time_info, status):"""写入音频帧""" wave_file.writeframes(in_data)return(in_data, pyaudio.paContinue)try: stream = p.open(format=pyaudio.paInt16, channels=int(device["maxInputChannels"]), rate=int(device["defaultSampleRate"]), frames_per_buffer=1024,input=True, input_device_index=device["index"], stream_callback=callback,) time.sleep(AUDIO_BUFFER)# 阻塞主线程进行录音except Exception as e:print(f"录音出错: {e}")finally:if'stream'inlocals(): stream.stop_stream() stream.close() wave_file.close()return filename defwhisper_audio(filename, model):""" 调用模型进行转录 """try:# vad_filter=True 可以去掉没说话的静音片段 segments, info = model.transcribe( filename, beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500))for segment in segments:print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))except Exception as e:print(f"转录出错: {e}")finally:# 转录完成后删除临时文件if os.path.exists(filename): os.remove(filename)defmain():print("正在加载 Whisper 模型...")# 检查 GPUif torch.cuda.is_available(): device ="cuda" compute_type ="float16"# 或者 "int8_float16"print("使用 GPU (CUDA) 进行推理")else: device ="cpu" compute_type ="int8"# CPU 上推荐用 int8print("使用 CPU 进行推理")# 模型路径 model_path ="large-v3"try: model = WhisperModel(model_path, device=device, compute_type=compute_type,local_files_only=True)print("模型加载成功！")except Exception as e:print(f"模型加载失败: {e}")returnwith pyaudio.PyAudio()as p:try: default_mic = p.get_default_input_device_info()print(f"\n当前使用的麦克风: {default_mic['name']} (Index: {default_mic['index']})")print(f"采样率: {default_mic['defaultSampleRate']}, 通道数: {default_mic['maxInputChannels']}")print("-"*50)print("开始持续录音 (按 Ctrl+C 停止)...")whileTrue: filename = record_audio(p, default_mic) thread = threading.Thread(target=whisper_audio, args=(filename, model)) thread.start()except OSError:print("未找到默认麦克风，请检查系统声音设置。")except KeyboardInterrupt:print("\n停止录音，程序退出。")except Exception as e:print(f"\n发生未知错误: {e}")if __name__ =='__main__': main()

3.报错解决方法

报错：

Could not locate cudnn_ops64_9.dll. Please make sure it is in your library path!
Invalid handle. Cannot load symbol cudnnCreateTensorDescriptor

Faster-Whisper 所依赖的 CTranslate2 引擎是基于 cuDNN 9.x 版本编译的，我电脑上没有找到 cuDNN v9，看了一下官网的解释如下：

安装旧版本：

pip install --force-reinstall ctranslate2==4.4.0

还是报错：

找到你的 CUDA 安装在其他位置，我的在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin

找到 cublas64_11.dll，复制出来，改成 cublas64_12.dll

当我换了一个虚拟环境，使用 CUDA11.8 时候，虚拟环境已经安装了 CUDA11.8，报错：cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

这是因为调用虚拟环境的 CUDA 11.8 ，PyTorch 安装的是 2.2.2+ cu118（自带 CUDA 11.8）如下图

报错因为你虚拟环境没有 cublas64_12.dll ，那么跟之前的操作一样，找到你的虚拟环境 cublas64_11.dll 所在的位置，我的在 D:\1-Python\ProgramFiles\Miniconda\envs\paddle_torch\Lib\site-packages\torch\lib

把 cublas64_11.dll 复制一份，改成 cublas64_12.dll

报错：Applying the VAD filter requires the onnxruntime package
把 onnxruntime 库版本降低就行，我安装 1.19.2

pip install onnxruntime==1.19.2

参考文章：
报错RuntimeError: Library cublas64_12.dll is not found or cannot be loaded

最后成功了

总结

对你有帮助请帮我一键三连。

【Js逆向 python】Web JS 逆向全体系详细解释

Web JS 逆向全体系内容互联网技术安全提示与职业操守做渗透测试，必须严格遵守以下原则： 1. 合法授权：仅在书面授权的范围内使用逆向技术，禁止未授权测试； 2. 最小影响：避免使用高风险参数（如sqlmap工具的 --risk=3、--os-shell），防止目标服务崩溃； 3. 数据保护：枚举到的敏感数据（如用户密码）需严格保密，测试后立即删除； 4. 留痕清理：测试结束后，协助目标清除测试留下的日志、文件等痕迹。免责声明 1. 本文所述所有渗透测试技术、工具、命令及实战案例，仅适用于已获得目标系统 / 网络所有者书面授权的测试场景（如企业内部安全评估、甲方委托的红队测试、个人合法拥有的实验环境）。 2. 任何组织或个人若未取得明确书面授权，擅自将本文内容用于对第三方系统 / 网络的扫描、探测、攻击等行为，均属于非法网络活动，涉嫌违反《中华人民共和国网络安全法》《中华人民共和国刑法》（第

Springboot 4.0十字路口：虚拟线程时代，WebFlux与WebMVC的终极选择

🧑 博主简介：ZEEKLOG博客专家，历代文学网（PC端可以访问：https://literature.sinhy.com/#/?__c=1000，移动端可关注公众号 “ 心海云图 ” 微信小程序搜索“历代文学”）总架构师，16年工作经验，精通Java编程，高并发设计，分布式系统架构设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于分享所学，希望通过我的实践经历和见解，启发他人的创新思维。在这里，我希望能与志同道合的朋友交流探讨，共同进步，一起在技术的世界里不断学习成长。 🤝商务合作：请搜索或扫码关注微信公众号 “ 心海云图 ” Springboot 4.0十字路口：虚拟线程时代，WebFlux与WebMVC的终极选择当虚拟线程以革命性的姿态降临Java世界，一场关于并发编程范式的静默变革正在发生。Spring开发者站在了选择的十字路口。 2023年，Java 21将虚拟线程从预览特性转为正式功能，这一变化看似只是JVM内部的优化，实则撼动了整个

墨语灵犀镜像部署教程：免编译、免依赖，开箱即用的古风AI翻译系统

墨语灵犀镜像部署教程：免编译、免依赖，开箱即用的古风AI翻译系统 1. 引言：当AI翻译遇见东方美学你是否曾为翻译软件的冰冷界面和生硬译文感到乏味？是否希望翻译工具不仅能准确传达意思，更能保留一丝文字的温度与美感？今天，我要向你介绍一个特别的工具——「墨语灵犀」。它不仅仅是一个翻译器，更像是一位精通33国语言、深谙东方美学的数字书童。最棒的是，通过ZEEKLOG星图镜像，你可以像打开一个应用一样，快速拥有它，无需处理任何复杂的编译和依赖问题。这篇文章，我将手把手带你完成墨语灵犀的镜像部署。整个过程非常简单，你不需要懂代码，也不需要配置复杂的开发环境。我们唯一的目标，就是让你在十分钟内，体验到这个将前沿AI技术与古典美学完美融合的翻译工具。 2. 认识墨语灵犀：不止于翻译在开始动手之前，我们先简单了解一下墨语灵犀到底是什么，以及它为何值得一试。 2.1 核心特色：技术内核与美学外衣墨语灵犀的独特之处在于它的“双重身份”： * 强大的技术内核：它的翻译能力基于腾讯混元大模型。这意味着它的翻译不是简单的单词替换，而是能理解上下文、把握语境的“深度翻译”。无论

Claude Code 背后的秘密：这套免费课程让我看懂了 AI Agent

大家好，我是悟鸣。（微信公众号：悟鸣AI）很多朋友都在问两个问题： 1. 想系统学习 Agent 原理，但不知道从哪里开始。 2. 已经在用 Claude Code，但想搞清楚它背后的机制。今天这篇就推荐一个很适合入门到进阶的开源项目：learn-claude-code。这个项目解决了什么问题？它把“会用工具”和“理解原理”之间的鸿沟补上了： * 不只讲概念，而是从最小可运行循环开始。 * 每一课只增加一个机制，学习路径清晰。 * 代码能跑、过程可观察、原理可追踪。 GitHub 仓库地址：https://github.com/shareAI-lab/learn-claude-code 先看最小循环：Agent 是怎么“动起来”的这是 AI Coding Agent 的最小循环。生产级 Agent 会在此基础上叠加策略、