手把手教你使用 Faster-Whisper 实时语音输入转文本，本地部署教程

优质文章学习记录

11 Apr 2026 — 6 min read

文章目录

前言
一、安装环境
二、使用步骤
总结

前言

要想实现像豆包、微信等一样的语音输入功能，通常有两种主流方案：云端 API（轻量、准确度极高）和本地模型（免费、隐私、无需联网）。由于目前开发的系统需要添加一个语音识别功能，刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址

复现成功如下图所示，请看下文教程就能部署本地实时语音输入转文本模型：

电脑有显卡的话可以参考下面这篇文章安装 cuda 和 cudnn

cuda和cudnn的安装教程: cuda和cudnn的安装教程(全网最详细保姆级教程)

一、安装环境

在你的虚拟环境安装 faster-whisper，命令如下：

pip install faster-whisper

安装录音库

pip install pyaudiowpatch

二、使用步骤

1.下载模型

手动下载（离线使用）
如果你的服务器无法联网，或者你想把模型放在指定文件夹，可以手动下载。根据需求点击链接下载：

Tiny (最小/最快):Systran/faster-whisper-tiny
Base:Systran/faster-whisper-base
Small:Systran/faster-whisper-small
Medium:Systran/faster-whisper-medium
Large-v2:Systran/faster-whisper-large-v2
Large-v3 (效果最好):Systran/faster-whisper-large-v3
Distil-Large-v3 (蒸馏版/速度快):Systran/faster-distil-whisper-large-v3

在 Hugging Face 的 “Files and versions” 页面中，下载以下几个关键文件（放入同一个文件夹）：

config.json
model.bin
tokenizer.json
vocabulary.json
preprocessor_config.json

我是下载 faster-whisper-large-v3 的模型下载链接： faster-whisper-large-v3 模型下载地址

把下载的模型文件放到一个文件夹内：

2.实时录音转文本脚本

代码如下（示例）：

# -*- coding: utf-8 -*-""" @Auth ：落花不写码 @File ：mian.py @IDE ：PyCharm @Motto :学习新思想，争做新青年 """import os import sys import time import wave import tempfile import threading import torch import pyaudiowpatch as pyaudio from faster_whisper import WhisperModel # 录音切片时长（秒） AUDIO_BUFFER =5defrecord_audio(p, device):# 创建临时文件with tempfile.NamedTemporaryFile(suffix=".wav", delete=False)as f: filename = f.name wave_file = wave.open(filename,"wb") wave_file.setnchannels(int(device["maxInputChannels"])) wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wave_file.setframerate(int(device["defaultSampleRate"]))defcallback(in_data, frame_count, time_info, status):"""写入音频帧""" wave_file.writeframes(in_data)return(in_data, pyaudio.paContinue)try: stream = p.open(format=pyaudio.paInt16, channels=int(device["maxInputChannels"]), rate=int(device["defaultSampleRate"]), frames_per_buffer=1024,input=True, input_device_index=device["index"], stream_callback=callback,) time.sleep(AUDIO_BUFFER)# 阻塞主线程进行录音except Exception as e:print(f"录音出错: {e}")finally:if'stream'inlocals(): stream.stop_stream() stream.close() wave_file.close()return filename defwhisper_audio(filename, model):""" 调用模型进行转录 """try:# vad_filter=True 可以去掉没说话的静音片段 segments, info = model.transcribe( filename, beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500))for segment in segments:print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))except Exception as e:print(f"转录出错: {e}")finally:# 转录完成后删除临时文件if os.path.exists(filename): os.remove(filename)defmain():print("正在加载 Whisper 模型...")# 检查 GPUif torch.cuda.is_available(): device ="cuda" compute_type ="float16"# 或者 "int8_float16"print("使用 GPU (CUDA) 进行推理")else: device ="cpu" compute_type ="int8"# CPU 上推荐用 int8print("使用 CPU 进行推理")# 模型路径 model_path ="large-v3"try: model = WhisperModel(model_path, device=device, compute_type=compute_type,local_files_only=True)print("模型加载成功！")except Exception as e:print(f"模型加载失败: {e}")returnwith pyaudio.PyAudio()as p:try: default_mic = p.get_default_input_device_info()print(f"\n当前使用的麦克风: {default_mic['name']} (Index: {default_mic['index']})")print(f"采样率: {default_mic['defaultSampleRate']}, 通道数: {default_mic['maxInputChannels']}")print("-"*50)print("开始持续录音 (按 Ctrl+C 停止)...")whileTrue: filename = record_audio(p, default_mic) thread = threading.Thread(target=whisper_audio, args=(filename, model)) thread.start()except OSError:print("未找到默认麦克风，请检查系统声音设置。")except KeyboardInterrupt:print("\n停止录音，程序退出。")except Exception as e:print(f"\n发生未知错误: {e}")if __name__ =='__main__': main()

3.报错解决方法

报错：

Could not locate cudnn_ops64_9.dll. Please make sure it is in your library path!
Invalid handle. Cannot load symbol cudnnCreateTensorDescriptor

Faster-Whisper 所依赖的 CTranslate2 引擎是基于 cuDNN 9.x 版本编译的，我电脑上没有找到 cuDNN v9，看了一下官网的解释如下：

安装旧版本：

pip install --force-reinstall ctranslate2==4.4.0

还是报错：

找到你的 CUDA 安装在其他位置，我的在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin

找到 cublas64_11.dll，复制出来，改成 cublas64_12.dll

当我换了一个虚拟环境，使用 CUDA11.8 时候，虚拟环境已经安装了 CUDA11.8，报错：cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

这是因为调用虚拟环境的 CUDA 11.8 ，PyTorch 安装的是 2.2.2+ cu118（自带 CUDA 11.8）如下图

报错因为你虚拟环境没有 cublas64_12.dll ，那么跟之前的操作一样，找到你的虚拟环境 cublas64_11.dll 所在的位置，我的在 D:\1-Python\ProgramFiles\Miniconda\envs\paddle_torch\Lib\site-packages\torch\lib

把 cublas64_11.dll 复制一份，改成 cublas64_12.dll

报错：Applying the VAD filter requires the onnxruntime package
把 onnxruntime 库版本降低就行，我安装 1.19.2

pip install onnxruntime==1.19.2

参考文章：
报错RuntimeError: Library cublas64_12.dll is not found or cannot be loaded

最后成功了

总结

对你有帮助请帮我一键三连。

FPGA 50 ，Xilinx Vivado 2020 版本安装流程，以及常见问题解析，附中文翻译（ Vivado 2020 版本安装教程）

前言 Xilinx 统一安装程序（Unified Installer）是进行 FPGA 与异构计算平台开发的重要基础工具，集成了 Vivado、Vitis 以及相关文档与设备支持组件。正确完成安装是后续进行硬件设计、软件开发与系统验证的前提。本文以 Xilinx 统一安装程序 2020.1 为例，结合实际安装过程，对安装步骤进行逐步说明，并对关键选项的含义进行必要解释。同时，针对安装过程中可能出现的常见错误（如归档文件无法打开、安装中断等问题），给出原因分析与解决建议，帮助用户快速定位并解决问题。需要注意的是，安装文件的完整性与安装环境的稳定性对安装成功率影响较大。若安装过程中出现异常，建议优先检查安装包是否完整、磁盘空间是否充足以及系统权限与安全软件设置是否合理。希望本文能够为初次接触 Xilinx 工具或在安装过程中遇到问题的用户提供参考和帮助。

PyBullet实战：用AABB碰撞检测让R2D2机器人避开障碍物（附完整代码）

从碰撞检测到智能避障：用PyBullet为R2D2机器人注入“触觉” 如果你曾经尝试过在虚拟世界里让一个机器人动起来，大概率会遇到一个令人头疼的问题：它要么像个醉汉一样横冲直撞，要么对眼前的障碍物视而不见，一头撞上去。几年前，我第一次用PyBullet做机器人仿真时，就遇到了这个尴尬。我让一个R2D2模型在场景里跑，结果它径直冲向一个立方体，然后……穿过去了。那一刻我意识到，让机器人“动起来”只是第一步，让它“感知”并“避开”环境中的物体，才是仿真从玩具走向实用的关键。 PyBullet作为一款强大的物理仿真引擎，其真正的价值不仅在于能模拟重力、关节运动这些基础物理现象，更在于它提供了丰富的环境交互能力，其中碰撞检测就是实现智能避障的基石。而AABB（轴对齐包围盒）作为一种高效、实用的碰撞检测方法，是我们在仿真中为机器人赋予“触觉”的首选工具。这篇文章，我将带你深入PyBullet的碰撞检测世界，手把手教你如何为经典的R2D2机器人实现一套实时、可靠的动态避障系统。我们不止步于让轮子转起来，更要让机器人学会“看路”。 1. 理解PyBullet中的碰撞检测：不止于AABB

OpenClaw配置Bot接入飞书机器人+Kimi2.5

上一篇文章写了Ubuntu_24.04下安装OpenClaw的过程，这篇文档记录一下接入飞书机器+Kimi2.5。准备工作飞书创建飞书机器人访问飞书开放平台：https://open.feishu.cn/app，点击创建应用：填写应用名称和描述后就直接创建：复制App ID 和 App Secret 创建成功后，在“凭证与基础信息”中找到 App ID 和 App Secret，把这2个信息复制记录下来，后面需要配置到openclaw中配置权限点击【权限管理】→【开通权限】或使用【批量导入/导出权限】，选择导入，输入以下内容，如下图点击【下一步，确认新增权限】即可开通所需要的权限。配置事件与回调说明：这一步的配置需要先讲AppId和AppSecret配置到openclaw成功之后再设置订阅方式，

带可二次开发的管理配置端 + 非低代码 + 原生支持标准化 Skill框架选择

「带可二次开发的管理配置端 + 非低代码 + 原生支持标准化 Skill」的开源 Agent 框架，筛选 3款完全匹配的框架（均为代码级可扩展、自带 Skill 管理后台、支持 SKILL.md/MCP 标准），附核心特性、二次开发要点和部署步骤，都是企业级/开发者友好的选型：一、首选：LangGraph + LangServe（LangChain 官方生态，Python 栈，极致可扩展）核心定位 LangChain 官方推出的「Agent 编排 + 服务化」框架，自带可二次开发的 Skill/Tool 管理后台（LangServe Dashboard），纯代码开发、无低代码封装，是 Python 生态的最佳选择。关键特性