打造智能语音识别API:Whisper ASR Box一站式解决方案
打造智能语音识别API:Whisper ASR Box一站式解决方案
Whisper ASR Webservice是一款基于OpenAI Whisper的语音识别API服务,提供简单高效的语音转文字功能,支持多语言识别与实时转录,是开发者构建语音应用的理想选择。通过Docker容器化部署,让你轻松拥有企业级语音识别能力,无需复杂配置即可快速接入。
🚀 为什么选择Whisper ASR Webservice?
核心优势一览
- 多引擎支持:兼容OpenAI Whisper与Faster Whisper引擎,兼顾识别 accuracy 与速度
- 即开即用:Docker一键部署,3分钟启动生产级API服务
- 丰富功能:支持语音转录、语言检测、多格式输出(TXT/VTT/SRT/TSV/JSON)
- 灵活配置:可通过环境变量自定义模型大小、识别语言等参数
技术架构解析
项目采用FastAPI构建高性能Web服务,通过工厂模式设计支持多引擎扩展:
- 核心引擎实现:app/asr_models/
- API服务入口:app/webservice.py
- 配置管理:app/config.py
🔧 3步快速部署指南
准备工作
确保已安装Docker环境,支持Linux、macOS和Windows系统。
1. 拉取镜像
根据硬件环境选择合适的镜像版本:
# CPU版本 docker pull onerahmet/openai-whisper-asr-webservice:latest # GPU加速版本(需NVIDIA Docker支持) docker pull onerahmet/openai-whisper-asr-webservice:latest-gpu 2. 启动服务
# CPU启动(默认模型:base) docker run -d -p 9000:9000 \ -e ASR_MODEL=base \ -e ASR_ENGINE=openai_whisper \ onerahmet/openai-whisper-asr-webservice:latest # GPU加速启动 docker run -d --gpus all -p 9000:9000 \ -e ASR_MODEL=medium \ -e ASR_ENGINE=faster_whisper \ onerahmet/openai-whisper-asr-webservice:latest-gpu 3. 访问API文档
服务启动后,访问 http://localhost:9000/docs 即可使用交互式API界面。
图:Swagger UI提供直观的API测试界面,支持语音文件上传与参数配置
⚙️ 高级配置选项
模型选择
通过ASR_MODEL环境变量选择不同大小的模型(tiny/base/small/medium/large):
docker run -d -p 9000:9000 \ -e ASR_MODEL=large \ onerahmet/openai-whisper-asr-webservice:latest 持久化模型缓存
避免重复下载模型,提升启动速度:
docker run -d -p 9000:9000 \ -v $PWD/cache:/root/.cache \ onerahmet/openai-whisper-asr-webservice:latest 支持的环境变量
完整配置说明参见 docs/environmental-variables.md:
ASR_MODEL:模型大小选择ASR_ENGINE:引擎类型(openai_whisper/faster_whisper)ASR_MODEL_PATH:自定义模型存储路径
📚 实用API示例
语音转录接口
POST /asr Content-Type: multipart/form-data audio_file=@your_audio.wav task=transcribe language=en output=json 语言检测接口
POST /detect-language Content-Type: multipart/form-data audio_file=@unknown_language.wav 📝 项目资源
- 完整文档:docs/
- 变更记录:CHANGELOG.md
- 许可证信息:LICENCE
通过Whisper ASR Webservice,开发者可以快速集成专业级语音识别功能到各类应用中,从会议记录到语音助手,从客服系统到教育工具,为产品增添强大的语音交互能力。立即部署体验,开启语音识别新可能!