【安装日记】Whisper-OpenAI 开源语音识别工具

文章目录

关于 Whisper(OpenAI 开源语音识别工具)的详细安装与使用指南,涵盖技术细节、参数解释、优化技巧和常见问题解决方案。


1. 安装 Whisper

1.1 系统依赖
  • 必须安装 FFmpeg:处理音频/视频编解码。
    • Windows:
      • 安装后需将 ffmpeg 添加到系统环境变量 PATH

推荐通过 官方二进制包 安装,或使用 Chocolatey:

choco install ffmpeg 

macOS:

# 使用 Homebrew brew install ffmpeg 

Linux:

# Debian/Ubuntusudoapt update &&sudoaptinstall ffmpeg # CentOS/RHELsudo yum install ffmpeg ffmpeg-devel 
1.2 安装 Whisper
    • Python 版本要求:建议 Python 3.9 或更高版本。
    • 依赖项:自动安装 torch, numpy, tqdm, more_itertools 等。

验证安装

whisper --version# 输出 Whisper 版本

通过 pip 安装

pip install-U openai-whisper 
1.3 GPU 加速(可选)
  • NVIDIA GPU 用户
    1. 安装 CUDA Toolkit 11.7+ 和 cuDNN。
  • Apple Silicon (M1/M2) 用户

运行命令时添加 --device mps

whisper audio.mp3 --device mps 

使用 Metal Performance Shaders (MPS) 加速:

pip install torch torchaudio -U--pre --extra-index-url https://download.pytorch.org/whl/nightly/cpu 

验证 GPU 是否启用:

import torch print(torch.cuda.is_available())# 输出应为 True

安装 PyTorch 的 CUDA 版本:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 

2. 模型详解

2.1 模型类型

Whisper 提供 5 种预训练模型,按精度和速度排序(从低到高):

模型名称参数量内存占用适合场景
tiny39M~1 GB快速转录,低精度
base74M~1.5 GB平衡速度与精度
small244M~2.5 GB中等精度,多语言支持
medium769M~5 GB高精度,复杂音频
large1550M~10 GB最高精度,专业场景
  • 多语言支持large 模型支持 99 种语言,其他模型支持主要语言(如中、英、日、西等)。
2.2 模型下载
  • 自动下载:首次运行时会自动下载模型到 ~/.cache/whisper/
  • 手动下载(解决网络问题):
    1. 从 Hugging Face 仓库下载模型文件(如 medium.pt)。
    2. 将文件放入 ~/.cache/whisper/(Linux/macOS)或 C:\Users\<用户名>\.cache\whisper\(Windows)。

3. 命令行使用

3.1 基础命令
whisper [音频文件路径]--model[模型名]--language[语言代码]

示例

# 使用中等模型转录英文音频,生成 TXT 和 SRT 文件 whisper lecture.mp3 --model medium --language en --output_format txt,srt 
3.2 核心参数
参数说明
--model指定模型(默认 small
--language指定语言(如 zh, en, ja),若未指定会自动检测
--tasktranscribe(转录)或 translate(翻译为英文)
--output_format输出格式:txt, srt, vtt, tsv, json(默认全部生成)
--output_dir指定输出目录(默认当前目录)
--fp16使用 FP16 精度加速推理(需 GPU 支持)
--device指定计算设备:cpu, cuda, mps(Apple Silicon)
--temperature控制生成随机性(0-1,0 表示确定性输出)
--best_of束搜索候选数(影响精度与速度)
--beam_size束搜索宽度(与 best_of 配合使用)
--word_timestamps为每个单词生成时间戳(适用于 jsonsrt 格式)
3.3 高级用法

自定义提示词(提升准确性):

whisper audio.mp3 --initial_prompt"以下是关于量子力学的讲座。"# 提供上下文提示

仅生成字幕文件

whisper audio.mp4 --task translate --output_format srt # 翻译为英文字幕

处理长音频(自动分割):

whisper long_audio.wav --model large --language en --split_duration300# 每 300 秒分割一次

4. Python API 使用

通过 Python 脚本灵活调用 Whisper:

import whisper # 加载模型 model = whisper.load_model("medium")# 转录音频 result = model.transcribe("audio.mp3", language="zh", fp16=False)# 输出结果print(result["text"])# 完整文本for segment in result["segments"]:print(f"[{segment['start']}-{segment['end']}s] {segment['text']}")
API 参数

transcribe() 方法支持所有命令行参数:

result = model.transcribe("audio.wav", language="en", temperature=0.2, beam_size=5, word_timestamps=True, initial_prompt="This is a podcast about climate change.")

5. 性能优化

5.1 加速技巧
  • GPU 加速:确保安装 CUDA 版本的 PyTorch。

批处理(同时处理多个文件):

whisper audio1.mp3 audio2.wav --model small --output_dir ./outputs/ 

量化模型(降低内存占用):

model = whisper.load_model("medium", device="cuda", in_memory=True)
5.2 内存不足处理
  • 使用更小的模型(如 basetiny)。
  • 添加 --split_duration 参数分割长音频。

6. 常见问题解决

6.1 错误:FileNotFoundError: [Errno 2] No such file or directory: 'ffmpeg'
  • 原因:FFmpeg 未正确安装或未添加到 PATH
  • 解决
    • 重新安装 FFmpeg 并确认命令行中 ffmpeg -version 可执行。
    • Windows 用户需手动添加 FFmpeg 到环境变量。
6.2 错误:ERROR: Could not find model file
  • 原因:模型下载失败或路径错误。
  • 解决
    • 手动下载模型并放入 ~/.cache/whisper/

指定模型路径:

whisper audio.mp3 --model /path/to/custom_model.pt 
6.3 识别结果不准确
  • 优化方法
    • 使用更大的模型(如 mediumlarge)。
    • 添加 --initial_prompt 提供上下文关键词。
    • 清理音频背景噪音(使用 Audacity 等工具预处理)。

7. 扩展应用

7.1 实时语音识别

结合麦克风输入库(如 pyaudio)实现实时转录:

import whisper import pyaudio import wave # 录制音频并保存为文件 CHUNK =1024 FORMAT = pyaudio.paInt16 CHANNELS =1 RATE =16000 RECORD_SECONDS =5 p = pyaudio.PyAudio() stream = p.open(format=FORMAT, channels=CHANNELS, rate=RATE,input=True, frames_per_buffer=CHUNK) frames =[]print("Recording...")for _ inrange(0,int(RATE / CHUNK * RECORD_SECONDS)): data = stream.read(CHUNK) frames.append(data) stream.stop_stream() stream.close() p.terminate()# 保存为 WAV 文件with wave.open("temp.wav",'wb')as wf: wf.setnchannels(CHANNELS) wf.setsampwidth(p.get_sample_size(FORMAT)) wf.setframerate(RATE) wf.writeframes(b''.join(frames))# 使用 Whisper 转录 model = whisper.load_model("base") result = model.transcribe("temp.wav")print(result["text"])
7.2 集成到其他工具
  • 生成字幕文件:将 SRT 文件导入视频剪辑软件(如 Premiere、DaVinci Resolve)。

批量处理脚本

# 遍历目录下所有 MP3 文件forfilein *.mp3;do whisper "$file"--model small --output_dir ./transcripts/ done

8. 注意事项

  • 音频格式:支持 MP3、WAV、OGG、FLAC 等格式,建议使用 16kHz 单声道音频。
  • 硬件要求
    • large 模型需至少 10GB 内存(GPU 推荐 16GB+ VRAM)。
    • 长音频处理可能需要更多内存。
  • 隐私保护:离线运行,无需联网(模型下载后数据不上传)。

通过上述指南,你可以充分利用 Whisper 实现高精度语音识别。如需进一步定制(如微调模型),可参考 官方 GitHub 仓库 和开发者文档。

Read more

copilot学生认证2026-github copilot学生认证(手把手教会)

copilot学生认证2026-github copilot学生认证(手把手教会)

1.前言 博主在24年的时候发过一篇copilot认证成功的帖子,当时也是领到了一年的pro 文章链接:github copilot学生认证(手把手一小时成功)-ZEEKLOG博客 如今26年了,copilot的申请增加了一年的时间,博主也进入了研究生生涯,前段时间也是再次进行了申请,现在已经用上了,Pro 版直接解锁无限制基础功能 + 海量高级模型,我的感受是:真香!:   既然官方的申请有变化,咱们教程也得与时俱进,下面就开始手把手教大家如何进行申请copilot学生会员。 2.完善 GitHub 账号基础配置 在Emails里面加入你对应学校的教育邮箱(以edu.cn结尾),打开教育邮箱点击GitHub发送的验证邮件链接,即可完成邮箱认证 3.Github学生认证 完成上述步骤后,打开学生认证申请链接,依旧还是在设置里面,这里也可以用手机操作,因为上传证明材料用手机拍照更方便: 选择身份为学生,下滑填写学校信息,输入学校的英文,最后选择自己的学校教育邮箱,点击continue(还得分享位置) 接下来就是上传证明材料: * 可以使用手机摄像头拍摄,证件

【Coze-AI智能体平台】解锁 Coze 工作流:逻辑控制・数据处理・AIGC 多媒体全场景实战

【Coze-AI智能体平台】解锁 Coze 工作流:逻辑控制・数据处理・AIGC 多媒体全场景实战

🔥小龙报:个人主页 🎬作者简介:C++研发,嵌入式,机器人方向学习者 ❄️个人专栏:《coze智能体开发平台》 ✨ 永远相信美好的事情即将发生 文章目录 * 前言 * 一、业务逻辑节点 * 1.1 选择器节点 * 1.2 意图识别节点 * 1.3 循环节点 * 1.4 批处理节点 * 1.5 变量聚合节点 * 1.6 代码节点 * 1.6.1 JSON? * 1.6.2 python异步编程 * 1.7 数据库节点 * 1.7.1 新增数据节点 * 1.7.2

通义万相 2.1 与蓝耘智算平台的深度协同,挖掘 AIGC 无限潜力并释放巨大未来价值

通义万相 2.1 与蓝耘智算平台的深度协同,挖掘 AIGC 无限潜力并释放巨大未来价值

我的个人主页我的专栏:人工智能领域、java-数据结构、Javase、C语言,希望能帮助到大家!!!点赞👍收藏❤ 引言:AIGC 浪潮下的新机遇 在当今数字化飞速发展的时代,人工智能生成内容(AIGC)已成为推动各行业变革的关键力量。从创意内容的快速产出到复杂场景的智能模拟,AIGC 正以前所未有的速度改变着我们的生活和工作方式。通义万相 2.1 作为多模态 AI 生成领域的佼佼者,与蓝耘智算平台这一强大的算力支撑平台深度协同,犹如一颗耀眼的新星,在 AIGC 的浩瀚星空中熠熠生辉,为挖掘 AIGC的无限潜力和释放巨大未来价值提供了坚实的基础和广阔的空间。 一:通义万相 2.1:多模态 AI 生成的卓越典范 ***通义万相 2.1 是阿里巴巴达摩院精心打造的多模态 AI 生成模型,在图像、视频等内容生成方面展现出了令人瞩目的实力。*** 1.1 创新架构引领技术突破 1.

5分钟精通llama-cpp-python:从安装到AI应用实战全解析

5分钟精通llama-cpp-python:从安装到AI应用实战全解析 【免费下载链接】llama-cpp-pythonPython bindings for llama.cpp 项目地址: https://gitcode.com/gh_mirrors/ll/llama-cpp-python 想要在个人电脑上轻松运行大语言模型?llama-cpp-python作为专为开发者设计的Python绑定库,为您提供了一条快速接入llama.cpp推理引擎的便捷通道。本指南将带您深入掌握这个强大的AI工具包,从基础安装到高级功能应用,一站式解决所有技术难题!🚀 🎯 环境准备与系统兼容性 在开始安装llama-cpp-python之前,请确保您的环境满足以下要求: 基础环境配置: * Python 3.8或更高版本 * C编译器(Linux:gcc/clang,Windows:Visual Studio/Mingw,MacOS:Xcode) * 充足的内存和存储空间 平台特定注意事项: * Windows用户:建议使用Visual Studio构建工具 * MacO