1.2 Whisper的安装与配置 | 《Whisper语音识别实战专栏》

引言

在前一篇文章中,我们了解了Whisper的基本概念、发展背景和主要特点。现在,我们将介绍Whisper的安装与配置方法,帮助您快速上手使用Whisper。

Whisper的安装相对简单,主要包括Python环境配置、Whisper库安装和FFmpeg配置三个步骤。在本文章中,我们将详细介绍每个步骤的具体操作方法,并提供常见问题的解决方案。

系统要求

在安装Whisper之前,您需要确保您的系统满足以下要求:

  • 操作系统:Windows、macOS或Linux
  • Python版本:3.8-3.11
  • PyTorch版本:支持最新版本的PyTorch
  • 硬件要求
    • CPU:支持x86_64架构的处理器
    • GPU(可选):支持CUDA的NVIDIA GPU(用于加速模型推理)
    • 内存:至少4GB RAM,推荐8GB以上

安装步骤

1. 配置Python环境

首先,您需要安装Python环境。如果您已经安装了Python 3.8-3.11,可以跳过这一步。

1.1 下载Python

访问Python官方网站,下载适合您操作系统的Python安装包。推荐下载Python 3.10或3.11版本,因为它们与Whisper的兼容性较好。

1.2 安装Python
  • Windows:运行下载的安装程序,勾选"Add Python to PATH"选项,然后点击"Install Now"。
  • macOS:运行下载的.pkg安装包,按照提示完成安装。

Linux:使用系统包管理器安装Python,例如:

# Ubuntu/Debiansudoapt update &&sudoaptinstall python3 python3-pip # CentOS/RHELsudo yum install python3 python3-pip 
1.3 验证Python安装

安装完成后,打开命令行工具,输入以下命令验证Python是否安装成功:

python --version pip --version 

如果输出Python和pip的版本信息,则说明安装成功。

2. 安装PyTorch

Whisper依赖于PyTorch框架,因此您需要安装PyTorch。访问PyTorch官方网站,根据您的操作系统和硬件配置选择合适的安装命令。

2.1 安装CPU版本的PyTorch

如果您没有GPU,或者不想使用GPU加速,可以安装CPU版本的PyTorch:

pip3 install torch torchvision torchaudio 
2.2 安装GPU版本的PyTorch

如果您有支持CUDA的NVIDIA GPU,可以安装GPU版本的PyTorch以获得更好的性能:

# CUDA 12.1 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # CUDA 11.8 pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 
2.3 验证PyTorch安装

安装完成后,打开Python交互式环境,输入以下命令验证PyTorch是否安装成功:

import torch print(torch.__version__)# 检查是否支持CUDAprint(torch.cuda.is_available())

如果输出PyTorch的版本信息,并且torch.cuda.is_available()返回True(如果使用GPU版本),则说明安装成功。

3. 安装Whisper

现在,您可以安装Whisper库了。Whisper提供了多种安装方式,您可以选择其中一种适合您的方式。

3.1 使用pip安装(推荐)

最简单的安装方式是使用pip安装Whisper的最新稳定版本:

pip install -U openai-whisper 
3.2 从GitHub仓库安装

如果您想安装最新的开发版本,可以从GitHub仓库直接安装:

pip install git+https://github.com/openai/whisper.git 
3.3 更新Whisper

如果您已经安装了Whisper,想要更新到最新版本,可以使用以下命令:

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git 

4. 配置FFmpeg

Whisper需要使用FFmpeg来处理音频文件,因此您需要安装FFmpeg并将其添加到系统PATH中。

4.1 下载FFmpeg

访问FFmpeg官方网站,下载适合您操作系统的FFmpeg安装包。

4.2 安装FFmpeg
  • Windows
    1. 下载FFmpeg的Windows构建版本(推荐从gyan.dev下载)
    2. 解压下载的zip文件到一个目录,例如C:\ffmpeg
    3. 将FFmpeg的bin目录(例如C:\ffmpeg\bin)添加到系统PATH环境变量中

Linux
使用系统包管理器安装FFmpeg:

# Ubuntu/Debiansudoapt update &&sudoaptinstall ffmpeg # CentOS/RHELsudo yum install ffmpeg # Arch Linuxsudo pacman -S ffmpeg 

macOS
使用Homebrew安装FFmpeg:

brew install ffmpeg 
4.3 验证FFmpeg安装

安装完成后,打开命令行工具,输入以下命令验证FFmpeg是否安装成功:

ffmpeg -version 

如果输出FFmpeg的版本信息,则说明安装成功。

5. 安装其他依赖(可选)

在某些情况下,您可能需要安装额外的依赖项:

5.1 Rust(可选)

如果您在安装Whisper时遇到关于tiktoken的错误,可能需要安装Rust开发环境:

  1. 访问Rust官方网站,按照提示安装Rust
  2. 重新安装Whisper

安装完成后,将Rust添加到系统PATH中:

# Linux/macOSexportPATH="$HOME/.cargo/bin:$PATH"
5.2 setuptools_rust(可选)

如果您遇到No module named 'setuptools_rust'错误,可以安装setuptools_rust

pip install setuptools-rust 

验证安装

安装完成后,您可以使用以下方法验证Whisper是否安装成功:

1. 使用命令行工具

打开命令行工具,输入以下命令:

whisper --help 

如果输出Whisper的帮助信息,则说明命令行工具安装成功。

2. 使用Python API

创建一个Python脚本,例如test_whisper.py,内容如下:

import whisper # 加载tiny模型try: model = whisper.load_model("tiny")print("模型加载成功!")# 查看可用模型print("可用模型:", whisper.available_models())print("Whisper安装成功!")except Exception as e:print(f"安装失败:{e}")

运行脚本:

python test_whisper.py 

如果输出"Whisper安装成功!",则说明Python API安装成功。

常见问题解决方案

1. 安装Whisper时遇到权限问题

解决方案:使用管理员权限运行命令行工具,或者使用--user选项安装:

pip install -U openai-whisper --user 

2. 模型下载失败

解决方案

  • 检查网络连接是否正常
  • 使用代理服务器下载
  • 手动下载模型文件并放置到默认缓存目录(~/.cache/whisper

3. FFmpeg未找到

解决方案

  • 检查FFmpeg是否正确安装
  • 确保FFmpeg的bin目录已添加到系统PATH中
  • 重新启动命令行工具或计算机

4. CUDA相关错误

解决方案

  • 确保安装了与PyTorch版本匹配的CUDA驱动
  • 检查GPU是否支持CUDA
  • 尝试使用CPU版本的PyTorch

5. Python版本不兼容

解决方案

  • 安装Python 3.8-3.11版本
  • 使用虚拟环境隔离不同版本的Python

最佳实践

1. 使用虚拟环境

为了避免依赖冲突,推荐使用虚拟环境安装Whisper:

# 创建虚拟环境 python -m venv whisper-env # 激活虚拟环境# Windows whisper-env\Scripts\activate # Linux/macOSsource whisper-env/bin/activate # 在虚拟环境中安装Whisper pip install -U openai-whisper 

2. 选择合适的模型

根据您的硬件配置和需求选择合适的模型:

  • 如果您的设备内存较小(<4GB),推荐使用tinybase模型
  • 如果您需要更好的识别准确率,推荐使用mediumlarge模型
  • 如果您需要更快的转录速度,推荐使用turbo模型

3. 定期更新Whisper

Whisper的开发者会定期更新模型和代码,修复bug并添加新功能。建议您定期更新Whisper:

pip install -U openai-whisper 

总结

在本文章中,我们详细介绍了Whisper的安装与配置方法,包括:

  1. 配置Python环境
  2. 安装PyTorch
  3. 安装Whisper库
  4. 配置FFmpeg
  5. 安装其他依赖(可选)
  6. 验证安装

我们还提供了常见问题的解决方案和最佳实践建议,帮助您顺利安装和使用Whisper。

在下一篇文章中,我们将介绍Whisper的基本使用方法,包括命令行工具和Python API的使用,帮助您快速上手Whisper语音识别。


思考问题

  1. 为什么推荐使用虚拟环境安装Whisper?
  2. 如何根据自己的硬件配置选择合适的Whisper模型?
  3. 如果遇到模型下载失败,应该如何解决?

扩展阅读

Read more

OpenClaw 是一个开源的、面向具身智能(Embodied AI)与机器人操作研究的多模态大模型框架

OpenClaw 是一个开源的、面向具身智能(Embodied AI)与机器人操作研究的多模态大模型框架

OpenClaw 是一个开源的、面向具身智能(Embodied AI)与机器人操作研究的多模态大模型框架,由上海人工智能实验室(Shanghai AI Lab)联合多家机构于2024年发布。它聚焦于“视觉-语言-动作”(Vision-Language-Action, VLA)联合建模,旨在让AI不仅能理解环境和指令,还能生成可执行的、细粒度的机器人控制动作序列(如关节扭矩、末端位姿、抓取姿态等),支持真实/仿真双环境部署。 核心特点包括: * ✅ 多模态对齐:统一编码图像、语言指令、机器人本体状态(如关节角度、力觉反馈); * ✅ 动作生成范式:采用“tokenized action”设计,将连续动作离散化为可学习的action tokens,便于大模型端到端生成; * ✅ 开源生态:提供预训练模型权重、仿真环境(基于ManiSkill2)、真实机械臂适配接口(如UR5e + Robotiq 2F-85)、数据集(OpenClaw-Bench)及训练/

Neo4j(一) - Neo4j安装教程(Windows)

Neo4j(一) - Neo4j安装教程(Windows)

文章目录 * 前言 * 一、JDK与Neo4j版本对应关系 * 二、JDK11安装及配置 * 1. JDK11下载 * 2. 解压 * 3. 配置环境变量 * 3.1 打开系统属性设置 * 3.2 新建系统环境变量 * 3.3 编辑 PATH 环境变量 * 3.4 验证环境变量是否配置成功 * 三、Neo4j安装(Windows) * 1. 下载并解压Neo4j安装包 * 1.1 下载 * 1.2 解压 * 2. 配置环境变量 * 2.1 打开系统属性设置 * 2.2 编辑 PATH 环境变量 * 2.3 验证环境变量是否配置成功

【论文翻译】YOLO26: KEY ARCHITECTURAL ENHANCEMENTS AND PERFORMANCE BENCHMARKING FOR REAL-TIME OBJECT DETEC

【论文翻译】YOLO26: KEY ARCHITECTURAL ENHANCEMENTS AND PERFORMANCE BENCHMARKING FOR REAL-TIME OBJECT DETEC

YOLO26:实时目标检测的关键架构改进与性能基准测试 摘要 本研究对Ultralytics YOLO26进行了全面分析,重点阐述了其在实时边缘目标检测领域的关键架构改进与性能基准测试结果。YOLO26于2025年9月发布,是YOLO系列中最新、最先进的模型,专为在边缘设备和低功耗设备上实现高效能、高精度和部署就绪性而设计。论文依次详细介绍了YOLO26的架构创新,包括移除分布焦点损失(DFL)、采用端到端无非极大值抑制(NMS)推理、集成渐进式损失(ProgLoss)和小目标感知标签分配(STAL),以及引入MuSGD优化器以实现稳定收敛。除架构外,该研究将YOLO26定位为多任务框架,支持目标检测、实例分割、姿态/关键点估计、旋转检测和分类任务。我们在NVIDIA Jetson Nano和Orin等边缘设备上对YOLO26进行了性能基准测试,并将其结果与YOLOv8、YOLOv11、YOLOv12、YOLOv13以及基于Transformer的检测器进行了对比。论文进一步探讨了实时部署路径、灵活的导出选项(ONNX、TensorRT、CoreML、TFLite)以及INT8/

宇树科技Go2机器人强化学习(RL)开发实操指南

宇树科技Go2机器人强化学习(RL)开发实操指南

在Go2机器人的RL开发中,环境配置、模型训练、效果验证与策略部署的实操步骤是核心环节。本文基于宇树科技官方文档及开源资源,以Isaac Gym和Isaac Lab两大主流仿真平台为核心,提供从环境搭建到实物部署的全流程操作步骤,覆盖关键命令与参数配置,帮助开发者快速落地RL开发。 一、基础准备:硬件与系统要求 在开始操作前,需确保硬件与系统满足RL开发的基础需求,避免后续因配置不足导致训练中断或性能瓶颈。 类别具体要求说明显卡NVIDIA RTX系列(显存≥8GB)需支持CUDA加速,Isaac Gym/Isaac Lab均依赖GPU进行仿真与训练操作系统Ubuntu 18.04/20.04/22.04推荐20.04版本,兼容性最佳,避免使用Windows系统(部分依赖不支持)显卡驱动525版本及以上需与CUDA版本匹配(如CUDA 11.3对应驱动≥465.19.01,CUDA 11.8对应驱动≥520.61.05)软件依赖Conda(