快速开始体验
安装 WhisperLive 非常简单,只需几个步骤即可开始您的实时语音转文本之旅:
# 安装必要的依赖
bash scripts/setup.sh
# 通过 pip 安装 WhisperLive
pip install whisper-live
WhisperLive 是基于 OpenAI Whisper 模型的实时语音转文本工具,支持麦克风、音频文件及流媒体输入。它提供 Faster Whisper、TensorRT 和 OpenVINO 多种后端引擎以适应不同硬件环境。通过 pip 安装或 Docker 部署即可快速启动服务,支持多语言识别与翻译。适用于会议记录、教育字幕生成及媒体内容制作等场景,具备跨平台扩展能力。
安装 WhisperLive 非常简单,只需几个步骤即可开始您的实时语音转文本之旅:
# 安装必要的依赖
bash scripts/setup.sh
# 通过 pip 安装 WhisperLive
pip install whisper-live
WhisperLive 支持三种高性能后端引擎,满足不同硬件环境需求:
启动 WhisperLive 服务器非常简单,根据您的硬件配置选择合适后端:
# 使用 Faster Whisper 后端(CPU 优化)
python3 run_server.py --port 9090 --backend faster_whisper
# 使用 TensorRT 后端(GPU 加速)
python3 run_server.py -p 9090 -b tensorrt -trt /path/to/TensorRT-engine
WhisperLive 提供了简洁易用的客户端 API:
from whisper_live.client import TranscriptionClient
# 创建客户端实例
client = TranscriptionClient("localhost", 9090, lang="zh", model="small")
# 转录音频文件
client("assets/jfk.flac")
# 实时麦克风转录
client()
WhisperLive 采用模块化设计,核心组件包括:
whisper_live/backend/ 多种推理后端支持whisper_live/transcriber/ 音频处理流水线whisper_live/client.py 用户交互接口WhisperLive 提供完整的 Docker 支持,简化部署流程:
# GPU 版本部署
docker run -it --gpus all -p 9090:9090 whisperlive-gpu
# CPU 版本部署
docker run -it -p 9090:9090 whisperlive-cpu
WhisperLive 能够实时转录会议内容,生成准确的文字记录,支持多语言场景。
在线教育平台可利用 WhisperLive 为视频课程自动生成字幕,提升学习体验。
媒体工作者可以快速将采访录音转换为文字稿,大幅提高内容生产效率。
研究人员能够利用 WhisperLive 进行大规模的语音数据分析和处理。
WhisperLive 持续演进,未来将重点发展:
WhisperLive 通过强大的技术架构和易用的接口设计,让实时语音转文本变得前所未有的简单高效。无论您是开发者还是终端用户,都能轻松享受到最先进的语音识别技术带来的便利。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online