whisper.cpp - 高性能Whisper语音识别推理

文章目录


一、关于 whisper.cpp

1、项目概览

whisper.cpp 是 OpenAI Whisper 自动语音识别(ASR)模型的高性能推理实现,具有以下技术特性:

  • 纯C/C++实现,无外部依赖
  • 针对Apple Silicon优化(ARM NEON/Accelerate/Metal/Core ML)
  • 支持x86架构的AVX指令集
  • 支持POWER架构的VSX指令集
  • 混合F16/F32精度
  • 支持整数量化
  • 运行时零内存分配
  • 支持Vulkan/NVIDIA GPU加速
  • 支持CPU-only推理
  • 提供C风格API
  • 支持语音活动检测(VAD)

2、相关链接资源


3、功能特性

  1. 多平台支持
    • Mac OS (Intel/Apple Silicon)
    • iOS/Android
    • Linux/Windows/FreeBSD
    • WebAssembly/Raspberry Pi
  2. 硬件加速支持
    • Apple Neural Engine (Core ML)
    • NVIDIA CUDA
    • Vulkan跨平台GPU加速
    • OpenBLAS CPU加速
    • Ascend NPU支持
  3. 高级功能
    • 实时音频输入处理
    • 置信度颜色标注
    • 词级时间戳
    • 说话人分离
    • 卡拉OK式视频生成

二、安装配置

git clone https://github.com/ggml-org/whisper.cpp.git cd whisper.cpp sh ./models/download-ggml-model.sh base.en cmake -B build cmake --build build --config Release 

三、使用示例

1、基础转录

./build/bin/whisper-cli -f samples/jfk.wav 

2、实时音频处理

./build/bin/whisper-stream -m ./models/ggml-base.en.bin -t 8 --step 500 --length 5000

3、量化模型使用

./build/bin/quantize models/ggml-base.en.bin models/ggml-base.en-q5_0.bin q5_0 ./build/bin/whisper-cli -m models/ggml-base.en-q5_0.bin ./samples/gb0.wav 

四、高级功能

1、Core ML加速(Mac)

./models/generate-coreml-model.sh base.en cmake -B build -DWHISPER_COREML=1 cmake --build build -j --config Release 

2、OpenVINO加速

python convert-whisper-to-openvino.py --model base.en cmake -B build -DWHISPER_OPENVINO=1 cmake --build build -j --config Release 

3、NVIDIA CUDA加速

cmake -B build -DGGML_CUDA=1 cmake --build build -j --config Release 

五、性能参考

模型磁盘占用内存占用
tiny75 MiB~273 MB
base142 MiB~388 MB
large2.9 GiB~3.9 GB

六、扩展支持

1、Docker使用

docker run -it --rm \ -v path/to/models:/models \ whisper.cpp:main "whisper-cli -m /models/ggml-base.bin -f ./samples/jfk.wav"

2、语言绑定

  • Python/Rust/Go/Java/Ruby/.NET等
  • iOS(Swift)/Android(Java)移动端支持

七、注意事项

  1. 当前仅支持16-bit WAV音频输入
  2. 首次运行Core ML/OpenVINO需要编译时间
  3. 实时处理需要SDL2库支持

伊织 xAI 2025-05-18(日)

Read more

快速上手指南:5分钟掌握whisper.cpp语音识别

快速上手指南:5分钟掌握whisper.cpp语音识别 【免费下载链接】whisper.cpp 项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/whisper.cpp 想要体验离线语音识别的强大功能吗?whisper.cpp就是你的最佳选择!这个基于OpenAI Whisper模型的开源工具,能够在没有网络连接的情况下将语音转换为文字,支持多种语言和输出格式。无论你是想为视频添加字幕,还是需要整理会议记录,whisper.cpp都能轻松胜任。 🎯 项目亮点速览 whisper.cpp作为语音识别领域的明星项目,具备以下核心优势: * 完全离线运行:无需网络连接,保护隐私安全 * 多语言支持:中文、英文、日文等主流语言一网打尽 * 多种模型选择:从轻量级到高精度,满足不同场景需求 * 跨平台兼容:Windows、macOS、Linux全支持 🚀 快速入门指南 第一步:获取项目代码 首先需要下载项目源码到本地: git

SmolVLA高算力适配:TensorRT加速可行性分析与ONNX导出实操

SmolVLA高算力适配:TensorRT加速可行性分析与ONNX导出实操 1. 项目背景与核心价值 SmolVLA作为一款专为经济实惠机器人技术设计的紧凑型视觉-语言-动作模型,在资源受限环境下展现出了令人印象深刻的性能。这个约5亿参数的模型能够同时处理视觉输入、语言指令和动作输出,为机器人控制提供了端到端的解决方案。 在实际部署中,我们经常面临一个关键挑战:如何在保持模型精度的同时,进一步提升推理速度以满足实时控制需求?这就是TensorRT加速技术发挥作用的地方。通过将SmolVLA模型转换为TensorRT引擎,我们有望获得显著的性能提升,特别是在NVIDIA GPU硬件上。 本文将带你深入了解SmolVLA模型的TensorRT加速可行性,并提供详细的ONNX导出实操指南,帮助你在自己的机器人项目中实现更高效的推理性能。 2. TensorRT加速技术解析 2.1 TensorRT的核心优势 TensorRT是NVIDIA推出的高性能深度学习推理优化器和运行时库,它通过多种技术手段提升模型推理效率: * 图层融合:将多个连续的操作层合并为单个内核,减少内

Meta-Llama-3-8B-Instruct避坑指南:从部署到对话全流程解析

Meta-Llama-3-8B-Instruct避坑指南:从部署到对话全流程解析 1. 引言 随着大模型技术的快速发展,Meta于2024年4月发布了Llama 3系列中的中等规模版本——Meta-Llama-3-8B-Instruct。该模型在指令遵循、多任务处理和对话能力方面表现出色,尤其适合单卡部署场景。得益于其GPTQ-INT4量化版本仅需约4GB显存,RTX 3060及以上消费级GPU即可流畅运行,成为个人开发者与中小企业构建AI对话应用的理想选择。 本文基于vllm + open-webui技术栈,结合实际部署经验,系统梳理从环境配置、模型加载到Web界面集成的完整流程,并重点剖析常见问题及其解决方案,帮助读者高效搭建稳定可用的本地化对话系统。 2. 技术选型与核心优势 2.1 模型特性概览 Meta-Llama-3-8B-Instruct 是一个经过指令微调的80亿参数密集模型,具备以下关键优势: * 高性能低门槛:FP16精度下占用约16GB显存,GPTQ-INT4量化后可压缩至4GB以内,支持RTX 3060/4060等主流消费级显卡。 * 长上

一键部署DeepSeek-R1-Distill-Llama-8B:小白也能玩转AI推理

一键部署DeepSeek-R1-Distill-Llama-8B:小白也能玩转AI推理 你是不是也遇到过这些情况? 想试试最近很火的DeepSeek-R1系列模型,但看到“强化学习蒸馏”“冷启动数据”“RL前SFT”这些词就头皮发麻; 下载完模型文件,面对一堆.bin和.safetensors不知从哪下手; 查了十几篇教程,有的要编译CUDA、有的要改配置、有的连环境都装不起来……最后关掉终端,默默刷起了短视频。 别急——这次真不一样。 本文带你用一行命令、三步操作、零代码基础,把DeepSeek-R1-Distill-Llama-8B这个在数学、代码、复杂推理上媲美o1-mini的8B级蒸馏模型,稳稳跑在你本地电脑上。不需要GPU服务器,不用配conda环境,甚至不用打开终端输入超过5个单词。 它不是“理论上能跑”,而是我昨天刚在一台16GB内存的MacBook Pro上实测通过的完整流程。 下面开始,咱们直接上手。 1. 为什么是DeepSeek-R1-Distill-Llama-8B?它到底强在哪 先说结论:这是目前开源社区里,推理能力最强、部署门槛最低、中文理解最稳