快速部署语音识别WebUI｜FunASR + speech_ngram_lm_zh-cn 镜像详解

优质文章学习记录

07 Apr 2026 — 11 min read

快速部署语音识别WebUI｜FunASR + speech_ngram_lm_zh-cn 镜像详解

1. 引言：为什么你需要一个本地语音识别系统？

你有没有遇到过这样的场景：会议录音要整理成文字、视频内容需要生成字幕、采访素材得快速转写？靠人工听写不仅费时费力，还容易出错。这时候，一个高效、准确的语音识别工具就显得尤为重要。

今天我们要介绍的，是一个开箱即用的中文语音识别 WebUI 系统——基于 FunASR 和 speech_ngram_lm_zh-cn 模型构建的本地化语音识别镜像。它由开发者“科哥”二次开发并开源，支持多种音频格式上传、浏览器实时录音、自动标点恢复、时间戳输出，并能一键导出文本、JSON 和 SRT 字幕文件。

最重要的是：无需复杂配置，一键启动，永久免费使用。

无论你是内容创作者、教育工作者、会议记录员，还是 AI 技术爱好者，这套系统都能帮你把“声音”高效转化为“文字”，真正实现“说即所得”。

2. 镜像简介与核心能力

2.1 镜像基本信息

镜像名称：FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥
核心技术：FunASR + Paraformer/SenseVoice 模型 + N-gram 语言模型（speech_ngram_lm_zh-cn）
部署方式：Docker 容器化部署（支持 GPU/CPU）
访问方式：Web 浏览器界面操作，无需编程基础
适用人群：零代码用户、开发者、企业应用集成者

2.2 核心功能亮点

功能	说明
🎤 多种输入方式	支持上传音频文件 + 浏览器实时录音
🔊 多格式支持	WAV、MP3、M4A、FLAC、OGG、PCM 等主流格式
🧠 高精度识别	基于 Paraformer-Large 模型，中文识别准确率高
⚡ 快速响应	可选 SenseVoice-Small 模型，适合低延迟场景
✍ 自动加标点	启用 PUNC 模块后，结果自带句号、逗号等
🕒 输出时间戳	支持按词或句子输出起止时间，便于后期编辑
多格式导出	TXT、JSON、SRT 三种结果格式一键下载
本地运行	数据不出内网，隐私安全有保障

这个镜像最大的优势在于：集成了完整的语音识别流水线，包括 VAD（语音活动检测）、ASR（语音转文字）、PUNC（标点恢复）和语言模型优化，所有模块都已预装、预配置，省去了繁琐的环境搭建过程。

3. 快速部署指南

3.1 环境准备

在开始之前，请确保你的设备满足以下条件：

操作系统：Linux / Windows（WSL2）/ macOS
Python 版本：3.8 或以上（建议使用 Conda 管理环境）
Docker：已安装 Docker 和 Docker Compose
GPU 支持（可选）：
- NVIDIA 显卡
- 已安装 CUDA 驱动
- 安装 nvidia-docker2

如果没有 GPU，也可以使用 CPU 模式运行，只是识别速度会慢一些。

3.2 部署步骤（Docker 方式）

步骤 1：拉取镜像

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-gpu-0.4.6

如果你使用的是 CPU 版本：

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.6

步骤 2：创建模型存储目录

mkdir -p ./funasr-runtime-resources/models

该目录将用于缓存下载的模型文件，避免重复下载。

步骤 3：启动容器

docker run -p 7860:7860 -it --privileged=true \ -v $PWD/funasr-runtime-resources/models:/workspace/models \ registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-gpu-0.4.6 \ bash -c "cd /workspace && python app.main.py"

注意：端口映射为 7860，这是 WebUI 的默认访问端口。

步骤 4：等待服务启动

首次运行时，系统会自动下载所需模型（如 Paraformer-Large、PUNC、VAD、N-gram LM），耗时约 5–10 分钟（取决于网络速度）。完成后你会看到类似提示：

Running on local URL: http://localhost:7860

此时服务已就绪！

4. WebUI 使用全流程详解

4.1 访问地址

服务启动后，在浏览器中打开：

http://localhost:7860

如果你是从远程服务器部署的，替换 localhost 为实际 IP 地址：

http://<你的服务器IP>:7860

页面加载成功后，你会看到一个简洁美观的紫蓝渐变主题界面。

4.2 界面功能分区解析

整个 WebUI 分为两个主要区域：左侧控制面板和右侧识别区域。

左侧控制面板

模型选择

Paraformer-Large：大模型，识别精度更高，适合对准确性要求高的场景。
SenseVoice-Small：小模型，响应更快，适合实时交互或资源受限环境。

推荐日常使用 Paraformer-Large；若追求速度可切换至 Small。

设备选择

CUDA：启用 GPU 加速（推荐有显卡时使用）
CPU：纯 CPU 运行（无显卡可用）

系统通常会自动检测是否有可用 GPU 并默认选中 CUDA。

功能开关

启用标点恢复 (PUNC)：开启后自动为识别结果添加句号、逗号等标点符号。
启用语音活动检测 (VAD)：自动切分长音频中的有效语音段，跳过静音部分。
输出时间戳：在结果中显示每个句子的时间范围，方便定位。

操作按钮

加载模型：手动触发模型加载或重新加载。
刷新：更新当前状态信息。

4.3 使用方式一：上传音频文件识别

这是最常用的使用方式，适用于已有录音文件的场景。

步骤 1：上传音频

点击 “ASR 语音识别” 区域的 “上传音频” 按钮，选择本地音频文件。

支持格式包括：

.wav（推荐，16kHz 采样率最佳）
.mp3
.m4a
.flac
.ogg
.pcm

建议音频采样率为 16kHz，单声道，这样识别效果最好。

步骤 2：设置识别参数

批量大小（秒）：默认 300 秒（5 分钟），最大支持 600 秒（10 分钟）。对于更长音频建议分段处理。
识别语言：
- auto：自动检测（推荐）
- zh：强制中文识别
- en：英文
- yue：粤语
- ja：日语
- ko：韩语

中文为主的内容建议选择 zh 或 auto。

步骤 3：开始识别

点击 “开始识别” 按钮，系统将自动进行语音检测、分割、识别和标点恢复。

识别进度会在页面下方实时显示，完成后出现三个标签页结果：

文本结果：纯净的文字内容，可直接复制粘贴使用。
详细信息：JSON 格式完整数据，包含置信度、时间戳等元信息。
时间戳：列出每句话的开始/结束时间，格式为 [序号] 开始时间 - 结束时间 (时长)。

4.4 使用方式二：浏览器实时录音

适合现场发言、即兴演讲、访谈等需要即时转写的场景。

步骤 1：授权麦克风权限

点击 “麦克风录音” 按钮，浏览器会弹出权限请求，点击 “允许”。

请确保系统麦克风正常工作，且未被其他程序占用。

步骤 2：开始录音

点击后进入录音状态，对着麦克风说话即可。再次点击 “停止录音” 结束录制。

录音结束后，音频会自动上传至服务端。

步骤 3：开始识别

与上传文件流程一致，点击 “开始识别” 即可获取结果。

5. 结果导出与文件管理

识别完成后，你可以将结果以多种格式保存到本地。

5.1 导出按钮说明

按钮	文件格式	用途
下载文本	`.txt`	纯文本，适合复制粘贴、导入文档
下载 JSON	`.json`	结构化数据，可用于程序解析
下载 SRT	`.srt`	视频字幕文件，兼容大多数播放器

5.2 文件存储路径

所有输出文件统一保存在容器内的：

outputs/outputs_YYYYMMDDHHMMSS/

例如：

outputs/outputs_20260104123456/ ├── audio_001.wav ├── result_001.json ├── text_001.txt └── subtitle_001.srt

每次识别都会创建一个带时间戳的新目录，防止文件覆盖。

若需持久化保存，建议将 outputs 目录也挂载到宿主机。

6. 实际效果展示与案例分析

6.1 纯文本输出示例

输入语音：“你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。”

输出结果：

你好，欢迎使用语音识别系统。这是一个基于 FunASR 的中文语音识别 WebUI。

自动添加了句号
语义连贯，无错别字
专业术语识别准确

6.2 SRT 字幕输出示例

1 00:00:00,000 --> 00:00:02,500 你好 2 00:00:02,500 --> 00:00:05,000 欢迎使用语音识别系统

这种格式可以直接拖入剪映、Premiere、Final Cut Pro 等视频编辑软件，自动生成字幕轨道，极大提升剪辑效率。

6.3 时间戳信息示例

[001] 0.000s - 0.500s (时长: 0.500s) [002] 0.500s - 2.500s (时长: 2.000s) [003] 2.500s - 5.000s (时长: 2.500s)

可用于精准定位某句话出现在音频中的位置，特别适合做课程笔记、会议纪要重点标注。

7. 常见问题与解决方案

7.1 识别结果不准确怎么办？

可能原因：

音频质量差（背景噪音大、人声模糊）
语言设置错误（如英文内容误设为中文）
模型未完全加载

解决方法：

尽量使用清晰录音，提前做降噪处理；
正确选择识别语言，混合语言可尝试 auto；
点击“加载模型”重新初始化模型。

7.2 识别速度太慢？

常见原因：

使用了 CPU 模式而非 GPU
音频过长导致处理时间增加
模型较大（如 Paraformer-Large）

优化建议：

确保使用 CUDA 模式运行；
将长音频拆分为 5 分钟以内片段；
切换为 SenseVoice-Small 模型测试速度差异。

7.3 无法上传音频文件？

检查项：

文件是否超过 100MB？
是否为受支持格式（优先使用 MP3/WAV）？
浏览器是否阻止了文件上传？

提示：某些老旧浏览器可能存在兼容性问题，建议使用 Chrome 或 Edge。

7.4 录音没有声音？

排查步骤：

浏览器是否授予麦克风权限？
系统设置中麦克风是否启用？
麦克风硬件是否正常？

可在系统自带录音工具中先测试录音功能。

7.5 如何提高识别准确率？

实用技巧汇总：

使用 16kHz 采样率的音频
减少背景噪音（可用 Audacity 等工具降噪）
发音清晰，避免过快语速
在安静环境中录音
启用 VAD 和 PUNC 模块
选择合适的语言模式

8. 总结：打造属于你的私人语音助手

通过本文介绍的 FunASR + speech_ngram_lm_zh-cn 镜像，你已经可以轻松搭建一个功能完整、操作简单的本地语音识别系统。它不仅具备高精度的中文识别能力，还提供了友好的 Web 界面、多格式导出、实时录音等实用功能，真正做到了“零门槛上手”。

更重要的是，所有数据都在本地处理，不经过任何第三方服务器，彻底解决了隐私泄露的风险。无论是个人知识管理、教学辅助，还是企业内部会议记录，这套方案都非常适合作为基础组件嵌入日常工作流。

未来你还可以进一步扩展它的能力：

接入 Fay 数字人，实现语音对话闭环
与 Notion、Obsidian 联动，自动生成会议纪要
集成到视频剪辑流程中，一键生成双语字幕

技术的价值在于解放人力。现在，只需一次部署，就能让你从枯燥的听写工作中解脱出来，把更多精力投入到创造性思考中去。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。