WhisperLiveKit 实时语音识别指南：从安装到生产部署

WhisperLiveKit 实时语音识别指南：从安装到生产部署 | 极客日志

pip install whisperlivekit

cd WhisperLiveKit
pip install -e .

whisperlivekit-server --model base --language en

模型	速度	精度	多语言支持	翻译功能	最佳使用场景
tiny(.en)	最快	基础	是/否	是/否	实时性优先，资源受限环境
base(.en)	快	良好	是/否	是/否	平衡性能与资源占用
small(.en)	中等	较好	是/否	是/否	有限硬件上的高质量需求
medium(.en)	慢	高	是/否	是/否	高质量需求，中等资源
large-v2	最慢	优秀	是	是	最佳综合质量
large-v3	最慢	卓越	是	是	最高精度需求
large-v3-turbo	快	卓越	是	否	快速高精度转录

whisperlivekit-server --model large-v3 --disable-fast-encoder False

pip install mlx-whisper whisperlivekit-server --model medium --backend simulstreaming

whisperlivekit-server --model small --backend whisperstreaming --confidence-validation True

# 法语实时转录并翻译成丹麦语
whisperlivekit-server --model large-v3 --language fr --target-language da

# 安装依赖
pip install git+https://github.com/NVIDIA/NeMo.git@main#egg=nemo_toolkit[asr]
# 启动带说话人分离的服务
whisperlivekit-server --model medium --diarization --diarization-backend sortformer

pip install uvicorn gunicorn
gunicorn -k uvicorn.workers.UvicornWorker -w 4 'whisperlivekit.basic_server:app'

whisperlivekit-server --model medium --preload-model-count 4

server {
    listen 443 ssl;
    server_name your-domain.com;
    ssl_certificate /path/to/cert.pem;
    ssl_certificate_key /path/to/key.pem;
    location / {
        proxy_pass http://localhost:8000;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection "upgrade";
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

docker build -t whisperlivekit .
docker run --gpus all -p 8000:8000 whisperlivekit --model medium

docker build -f Dockerfile.cpu -t whisperlivekit-cpu .
docker run -p 8000:8000 whisperlivekit-cpu --model small

docker build --build-arg HF_PRECACHE_DIR="./.cache/" -t whisperlivekit .

docker build --build-arg HF_TKN_FILE="./token" -t whisperlivekit .

docker build --build-arg EXTRAS="whisper-timestamped,diart" -t whisperlivekit .

# 平衡速度与精度的推荐配置
whisperlivekit-server --model medium --beams 2 --frame-threshold 25 --audio-max-len 20

WhisperLiveKit 实时语音识别指南：从安装到生产部署

WhisperLiveKit 实时语音识别指南：从安装到生产部署

为什么选择 WhisperLiveKit？

快速安装与基础配置

环境准备

启动服务与 Web 界面

模型选择与硬件优化

模型对比与选择指南

硬件加速配置

高级功能与场景应用

多语言支持与实时翻译

说话人分离功能

Chrome 扩展应用

生产环境部署

服务器配置优化

Nginx 反向代理配置

Docker 容器化部署

基础容器部署

高级容器配置

问题排查与性能优化

常见问题解决

性能监控与调优

总结与未来展望

更多推荐文章

相关免费在线工具

WhisperLiveKit 实时语音识别指南：从安装到生产部署

WhisperLiveKit 实时语音识别指南：从安装到生产部署

为什么选择 WhisperLiveKit？

快速安装与基础配置

环境准备

启动服务与 Web 界面

模型选择与硬件优化

模型对比与选择指南

硬件加速配置

高级功能与场景应用

多语言支持与实时翻译

说话人分离功能

Chrome 扩展应用

生产环境部署

服务器配置优化

Nginx 反向代理配置

Docker 容器化部署

基础容器部署

高级容器配置

问题排查与性能优化

常见问题解决

性能监控与调优

总结与未来展望

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具