whisper.cpp - 高性能Whisper语音识别推理

优质文章学习记录

09 Apr 2026 — 3 min read

文章目录

一、关于 whisper.cpp
二、安装配置
三、使用示例
四、高级功能
五、性能参考
六、扩展支持
- 1、Docker使用
- 2、语言绑定
七、注意事项

一、关于 whisper.cpp

1、项目概览

whisper.cpp 是 OpenAI Whisper 自动语音识别(ASR)模型的高性能推理实现，具有以下技术特性：

纯C/C++实现，无外部依赖
针对Apple Silicon优化（ARM NEON/Accelerate/Metal/Core ML）
支持x86架构的AVX指令集
支持POWER架构的VSX指令集
混合F16/F32精度
支持整数量化
运行时零内存分配
支持Vulkan/NVIDIA GPU加速
支持CPU-only推理
提供C风格API
支持语音活动检测(VAD)

2、相关链接资源

GitHub仓库：https://github.com/ggml-org/whisper.cpp
官方文档：https://github.com/ggml-org/whisper.cpp/blob/master/README.md
模型下载：https://huggingface.co/ggerganov/whisper.cpp
演示视频：
- iPhone运行示例：https://user-images.githubusercontent.com/1991296/197385372-962a6dea-bca1-4d50-bf96-1d8c27b98c81.mp4
- 语音助手示例：https://user-images.githubusercontent.com/1991296/204038393-2f846eae-c255-4099-a76d-5735c25c49da.mp4
许可证：MIT

3、功能特性

多平台支持
- Mac OS (Intel/Apple Silicon)
- iOS/Android
- Linux/Windows/FreeBSD
- WebAssembly/Raspberry Pi
硬件加速支持
- Apple Neural Engine (Core ML)
- NVIDIA CUDA
- Vulkan跨平台GPU加速
- OpenBLAS CPU加速
- Ascend NPU支持
高级功能
- 实时音频输入处理
- 置信度颜色标注
- 词级时间戳
- 说话人分离
- 卡拉OK式视频生成

二、安装配置

git clone https://github.com/ggml-org/whisper.cpp.git cd whisper.cpp sh ./models/download-ggml-model.sh base.en cmake -B build cmake --build build --config Release

三、使用示例

1、基础转录

./build/bin/whisper-cli -f samples/jfk.wav

2、实时音频处理

./build/bin/whisper-stream -m ./models/ggml-base.en.bin -t 8 --step 500 --length 5000

3、量化模型使用

./build/bin/quantize models/ggml-base.en.bin models/ggml-base.en-q5_0.bin q5_0 ./build/bin/whisper-cli -m models/ggml-base.en-q5_0.bin ./samples/gb0.wav

四、高级功能

1、Core ML加速(Mac)

./models/generate-coreml-model.sh base.en cmake -B build -DWHISPER_COREML=1 cmake --build build -j --config Release

2、OpenVINO加速

python convert-whisper-to-openvino.py --model base.en cmake -B build -DWHISPER_OPENVINO=1 cmake --build build -j --config Release

3、NVIDIA CUDA加速

cmake -B build -DGGML_CUDA=1 cmake --build build -j --config Release

五、性能参考

模型	磁盘占用	内存占用
tiny	75 MiB	~273 MB
base	142 MiB	~388 MB
large	2.9 GiB	~3.9 GB

六、扩展支持

1、Docker使用

docker run -it --rm \ -v path/to/models:/models \ whisper.cpp:main "whisper-cli -m /models/ggml-base.bin -f ./samples/jfk.wav"

2、语言绑定

Python/Rust/Go/Java/Ruby/.NET等
iOS(Swift)/Android(Java)移动端支持

七、注意事项

当前仅支持16-bit WAV音频输入
首次运行Core ML/OpenVINO需要编译时间
实时处理需要SDL2库支持

伊织 xAI 2025-05-18（日）

【保姆级教程】告别命令行！ClawX：首款 OpenClaw 可视化桌面客户端，零门槛玩转 AI 智能体！

目录 1、为什么选择 ClawX？（核心亮点） 🎯 零配置门槛 (Zero Configuration) 💬 现代化的聊天体验 ⏰ 可视化的自动化任务 (Cron Automation) 🧩 技能插件市场 (Skill System) 2、技术揭秘：它是如何工作的？ 3、快速上手指南 4、注册并获取高性能 API 5、在 ClawX 中接入 API 6、验证连接与初次体验 🚀 结语：这只是冰山一角在这个“万物皆可 Agent”的时代，我们见证了 OpenClaw 这样优秀的开源项目如何重新定义了 AI 任务编排。它强大、灵活，能帮我们串联起各种复杂的 AI 工作流。但是，你是否也曾有过这样的困扰？ * 想要体验最新的 AI

Trae AI 保姆级教程：从安装到调试全流程指南

Trae AI 保姆级教程：从安装到调试全流程指南 Trae AI 是字节跳动推出的一款 AI 原生集成开发环境(IDE)，专为中文开发者设计，集成了 Claude 3.5 和 GPT-4o 等先进 AI 模型，支持通过自然语言交互实现代码生成、项目构建与调试。本教程将详细介绍 Trae AI 的安装、配置、使用和调试全流程，帮助您快速上手这款强大的开发工具。一、Trae AI 安装指南 1. 系统要求在安装 Trae AI 前，请确保您的系统满足以下最低配置要求： * 操作系统：macOS 10.15+ 或 Windows 10/11（Linux 版本暂未推出）

新手必看！用Python手把手教你写第一个AI小工具

欢迎文末添加好友交流，共同进步！ “ 俺はモンキー・D・ルフィ。海贼王になる男だ！” * 📖 写在前面 * 🎯 项目简介：智能PDF文档助手 * 功能特性 * 项目亮点 * 🛠️ 环境准备 * 2.1 Python环境检查 * 2.2 安装依赖库 * 2.3 获取OpenAI API Key * 📝 项目结构设计 * 💻 核心代码实现 * 3.1 配置文件 (config.py) * 3.2 PDF读取模块 (pdf_reader.py) * 3.3 AI客户端模块 (ai_client.py) * 3.4 主程序入口 (main.py) * 📊 项目功能流程图 * 🎯 使用示例 * 4.

AI 大模型落地系列｜Eino 组件核心篇：用 Retriever 敲开RAG的大门

声明：本文数据源于官方文档与官方实现，重点参考 Retriever 使用说明、components/retriever/interface.go、components/retriever/option.go 为什么很多人会用 Retriever，却没真正看懂 Retrieve * 1. Retriever 真正解决的，不只是“搜一下” * 2. Retrieve 动作的核心 * 3. 不要对公共 Option 理解，局限于几个小参数 * 3.1 `Index` * 3.2 `SubIndex` * 3.3 `TopK` * 3.4 `ScoreThreshold` * 3.5 `Embedding` * 3.6 不止公共 option，具体实现还能继续扩展