手把手教你使用 Faster-Whisper 实时语音输入转文本,本地部署教程

手把手教你使用 Faster-Whisper 实时语音输入转文本,本地部署教程

文章目录


前言

要想实现像豆包、微信等一样的语音输入功能,通常有两种主流方案:云端 API(轻量、准确度极高)和 本地模型(免费、隐私、无需联网)。由于目前开发的系统需要添加一个语音识别功能,刚好记录一下使用 Faster-Whisper 实时语音输入转文本。Faster-Whisper官网地址链接: Faster-Whisper官网地址

复现成功如下图所示,请看下文教程就能部署本地实时语音输入转文本模型:

在这里插入图片描述

电脑有显卡的话可以参考下面这篇文章安装 cuda 和 cudnn

cuda和cudnn的安装教程: cuda和cudnn的安装教程(全网最详细保姆级教程)


一、安装环境

在你的虚拟环境安装 faster-whisper,命令如下:

pip install faster-whisper 
在这里插入图片描述


安装录音库

pip install pyaudiowpatch 
在这里插入图片描述

二、使用步骤

1.下载模型

手动下载(离线使用)
如果你的服务器无法联网,或者你想把模型放在指定文件夹,可以手动下载。根据需求点击链接下载:

在 Hugging Face 的 “Files and versions” 页面中,下载以下几个关键文件(放入同一个文件夹):

  • config.json
  • model.bin
  • tokenizer.json
  • vocabulary.json
  • preprocessor_config.json

我是下载 faster-whisper-large-v3 的模型下载链接: faster-whisper-large-v3 模型下载地址

在这里插入图片描述

把下载的模型文件放到一个文件夹内:

在这里插入图片描述

2.实时录音转文本脚本

代码如下(示例):

# -*- coding: utf-8 -*-""" @Auth :落花不写码 @File :mian.py @IDE :PyCharm @Motto :学习新思想,争做新青年 """import os import sys import time import wave import tempfile import threading import torch import pyaudiowpatch as pyaudio from faster_whisper import WhisperModel # 录音切片时长(秒) AUDIO_BUFFER =5defrecord_audio(p, device):# 创建临时文件with tempfile.NamedTemporaryFile(suffix=".wav", delete=False)as f: filename = f.name wave_file = wave.open(filename,"wb") wave_file.setnchannels(int(device["maxInputChannels"])) wave_file.setsampwidth(p.get_sample_size(pyaudio.paInt16)) wave_file.setframerate(int(device["defaultSampleRate"]))defcallback(in_data, frame_count, time_info, status):"""写入音频帧""" wave_file.writeframes(in_data)return(in_data, pyaudio.paContinue)try: stream = p.open(format=pyaudio.paInt16, channels=int(device["maxInputChannels"]), rate=int(device["defaultSampleRate"]), frames_per_buffer=1024,input=True, input_device_index=device["index"], stream_callback=callback,) time.sleep(AUDIO_BUFFER)# 阻塞主线程进行录音except Exception as e:print(f"录音出错: {e}")finally:if'stream'inlocals(): stream.stop_stream() stream.close() wave_file.close()return filename defwhisper_audio(filename, model):""" 调用模型进行转录 """try:# vad_filter=True 可以去掉没说话的静音片段 segments, info = model.transcribe( filename, beam_size=5, language="zh", vad_filter=True, vad_parameters=dict(min_silence_duration_ms=500))for segment in segments:print("[%.2fs -> %.2fs] %s"%(segment.start, segment.end, segment.text))except Exception as e:print(f"转录出错: {e}")finally:# 转录完成后删除临时文件if os.path.exists(filename): os.remove(filename)defmain():print("正在加载 Whisper 模型...")# 检查 GPUif torch.cuda.is_available(): device ="cuda" compute_type ="float16"# 或者 "int8_float16"print("使用 GPU (CUDA) 进行推理")else: device ="cpu" compute_type ="int8"# CPU 上推荐用 int8print("使用 CPU 进行推理")# 模型路径 model_path ="large-v3"try: model = WhisperModel(model_path, device=device, compute_type=compute_type,local_files_only=True)print("模型加载成功!")except Exception as e:print(f"模型加载失败: {e}")returnwith pyaudio.PyAudio()as p:try: default_mic = p.get_default_input_device_info()print(f"\n当前使用的麦克风: {default_mic['name']} (Index: {default_mic['index']})")print(f"采样率: {default_mic['defaultSampleRate']}, 通道数: {default_mic['maxInputChannels']}")print("-"*50)print("开始持续录音 (按 Ctrl+C 停止)...")whileTrue: filename = record_audio(p, default_mic) thread = threading.Thread(target=whisper_audio, args=(filename, model)) thread.start()except OSError:print("未找到默认麦克风,请检查系统声音设置。")except KeyboardInterrupt:print("\n停止录音,程序退出。")except Exception as e:print(f"\n发生未知错误: {e}")if __name__ =='__main__': main()

3.报错解决方法

报错:

Could not locate cudnn_ops64_9.dll. Please make sure it is in your library path!
Invalid handle. Cannot load symbol cudnnCreateTensorDescriptor

在这里插入图片描述


Faster-Whisper 所依赖的 CTranslate2 引擎是基于 cuDNN 9.x 版本编译的,我电脑上没有找到 cuDNN v9,看了一下官网的解释如下:

在这里插入图片描述


安装旧版本:

pip install --force-reinstall ctranslate2==4.4.0
在这里插入图片描述

还是报错:

在这里插入图片描述


找到你的 CUDA 安装在其他位置,我的在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.3\bin

找到 cublas64_11.dll,复制出来,改成 cublas64_12.dll

在这里插入图片描述


当我换了一个虚拟环境,使用 CUDA11.8 时候,虚拟环境已经安装了 CUDA11.8,报错:cuBLAS failed with status CUBLAS_STATUS_NOT_SUPPORTED

在这里插入图片描述


这是因为调用虚拟环境的 CUDA 11.8 ,PyTorch 安装的是 2.2.2+ cu118(自带 CUDA 11.8)如下图

在这里插入图片描述


报错因为你虚拟环境没有 cublas64_12.dll ,那么跟之前的操作一样,找到你的虚拟环境 cublas64_11.dll 所在的位置,我的在 D:\1-Python\ProgramFiles\Miniconda\envs\paddle_torch\Lib\site-packages\torch\lib

把 cublas64_11.dll 复制一份,改成 cublas64_12.dll

在这里插入图片描述

报错 :Applying the VAD filter requires the onnxruntime package
把 onnxruntime 库版本降低就行,我安装 1.19.2

pip install onnxruntime==1.19.2

参考文章:
报错RuntimeError: Library cublas64_12.dll is not found or cannot be loaded

最后成功了

在这里插入图片描述

总结

对你有帮助请帮我一键三连。

Read more

比迪丽AI绘画模型Python爬虫实战:自动化采集艺术素材

比迪丽AI绘画模型Python爬虫实战:自动化采集艺术素材 艺术创作需要灵感,也需要素材。但手动收集图片素材耗时耗力,如何高效获取优质艺术素材并快速进行风格转换?本文将展示如何用Python爬虫结合比迪丽AI绘画模型,搭建一套自动化艺术素材采集与处理流水线。 1. 项目背景与价值 艺术创作过程中,寻找合适的参考素材往往需要花费大量时间。无论是插画师、设计师还是艺术爱好者,都需要不断收集各类图像素材来激发灵感。传统的手动搜索和保存方式效率低下,且难以系统化管理。 比迪丽AI绘画模型的出现为艺术创作带来了新可能,但如何为其提供高质量、多样化的输入素材仍是一个实际问题。通过Python爬虫技术,我们可以自动化地从多个来源采集艺术素材,再结合比迪丽的风格转换能力,快速生成符合需求的艺术图像。 这套方案特别适合需要大量素材的内容创作者、设计团队和教育机构,能够将素材收集时间从几小时缩短到几分钟,让创作者更专注于创作本身而非素材准备。 2. 整体方案设计 我们的自动化艺术素材采集系统包含三个核心模块:爬虫采集模块、数据处理模块和AI风格转换模块。 爬虫模块负责从目标网站获取原始

告别 GitHub Copilot?Roo Code 深度上手指南:从API配置到实战,打造你的 AI 编程私有云

告别 GitHub Copilot?Roo Code 深度上手指南:从API配置到实战,打造你的 AI 编程私有云

前言:除了 Copilot,我们还能期待什么? 作为一名在代码世界摸爬滚打多年的开发者,你是否感觉到 IDE 的进化似乎到了一个瓶颈? 过去的十年,我们见证了从“记事本”到“智能感知 (IntelliSense)”,再到 GitHub Copilot 的“智能补全”。但说实话,现在的 AI 编程助手大多还停留在“副驾驶”的位置——你需要时刻盯着它,光标移到哪,它补到哪。一旦逻辑复杂一点,它就只能给你生成一堆看似通顺实则跑不通的“幻觉代码”。 如果 AI 不再只是“补全代码”,而是像一个真正的初级工程师那样,能理解你的需求、自己规划任务、跑测试、修 Bug 呢? 这就是我们将要讨论的主角:Roo Code。它代表了软件工程的第四阶段——自主智能代理 (Autonomous Agents)。在这个阶段,

AI写作大师Qwen3-4B实战:技术博客自动写作系统

AI写作大师Qwen3-4B实战:技术博客自动写作系统 1. 引言 1.1 业务场景描述 在内容创作领域,尤其是技术类博客的撰写过程中,作者常常面临选题困难、结构混乱、表达不精准等问题。高质量的技术文章不仅要求逻辑严密、术语准确,还需具备良好的可读性和实用性。传统人工写作方式耗时耗力,难以满足高频输出需求。 随着大语言模型(LLM)的发展,AI辅助写作已成为提升内容生产效率的重要手段。然而,许多轻量级模型在复杂任务上表现乏力,无法胜任长篇幅、高逻辑性的技术文章生成任务。如何构建一个既能保证输出质量,又能在普通硬件环境下稳定运行的AI写作系统,成为实际落地的关键挑战。 1.2 痛点分析 当前主流的AI写作工具普遍存在以下问题: * 模型能力不足:参数量较小的模型(如0.5B级别)在理解复杂指令和生成连贯长文本方面表现不佳。 * 依赖GPU资源:多数高性能模型需要GPU支持,限制了其在个人电脑或低成本服务器上的部署。 * 交互体验差:缺乏友好的用户界面,导致非技术人员难以使用。 * 输出格式不规范:生成内容常缺少结构化排版,难以直接发布。 1.3 方案预告 本文

打造专属模型!使用LLaMA-Factory进行微调,非常详细收藏这一篇就够了

打造专属模型!使用LLaMA-Factory进行微调,非常详细收藏这一篇就够了

一、安装Pytorch 1. 检查GPU计算能力 在开始微调之前,首先需要确认GPU的计算能力,因为不同架构的GPU对PyTorch版本有不同要求。计算能力是NVIDIA GPU的一个重要指标,它决定了GPU支持的CUDA功能和性能特性。 nvidia-smi --query-gpu=compute_cap --format=csv 第一行命令直接查询GPU的计算能力版本,而Python代码则通过PyTorch库来检测CUDA的可用性、版本信息以及具体的GPU设备能力。这些信息对于后续选择合适版本的PyTorch至关重要。 2. 匹配PyTorch版本 根据GPU计算能力选择合适的PyTorch版本是非常重要的,因为不匹配的版本可能导致性能下降甚至无法正常运行。不同的GPU架构有着不同的计算能力要求,下面根据GPU计算能力选择合适的PyTorch版本: 计算能力 < 7.0 (如 Maxwell架构):使用较老版本 计算能力 7.x (Volta/Turing):PyTorch 1.8+ 计算能力 8.x (Ampere):PyTorch 1.10+ 计算能力 9