SenseVoice Small 语音情感识别：WebUI 使用与二次开发

SenseVoice Small 语音情感识别：WebUI 使用与二次开发 | 极客日志

指标	SenseVoice Small	FastWhisper Small	优势说明
中文 ASR 字错率（CER）	4.2%	5.8%	更强的中文音素建模能力
情感识别准确率	78.3%	—	FastWhisper 无此能力
事件识别 F1 值	69.1%	—	独有声学事件理解能力
10 秒音频处理耗时（CPU）	0.72s	1.45s	推理优化更彻底，延迟降低 50%+
内存占用（加载后）	~1.8GB	~2.3GB	更精简的模型结构

# 若 WebUI 未自动启动，或需重启服务
/bin/bash /root/run.sh

http://localhost:7860

音频时长	典型耗时（CPU）	典型耗时（GPU）
5 秒	0.3–0.5 秒	0.1–0.2 秒
30 秒	1.2–1.8 秒	0.4–0.6 秒
2 分钟	4.5–6.0 秒	1.5–2.0 秒

情感类别	准确率	典型成功案例	易混淆场景
😊 HAPPY	82.1%	'太棒了！这个方案完美！' → 😊	语速快 + 高音调时易误判为😰
😡 ANGRY	75.4%	'这根本不行！立刻重做！' → 😡	强烈质疑语气可能被标为😰
😔 SAD	71.8%	'我…真的尽力了。' → 😔	低语速 + 气声易判为 NEUTRAL
🤢 DISGUSTED	63.2%	'这味道…呕…' → 🤢	单字呕吐声识别率高，复合句偏低
NEUTRAL	89.6%	'会议时间是周三下午两点。' → （无 emoji）	最稳定类别，适合作为基线

测试样本	auto 模式识别	手动指定语言	说明
广州粤语新闻	yue →	yue →	两者一致
上海口音普通话	zh → （字错率 5.1%）	zh → （字错率 4.3%）	手动略优，但 auto 足够用
中英混杂演讲	auto → （中英切换准确）	zh/en → ❌（强制切分错误）	auto 自动分段更合理
台湾腔闽南语混合	auto → ❌（标为 zh，但错字多）	—	超出当前支持范围

# 启动 API 服务（监听所有 IP，端口 8666）
cd /root/SenseVoice
python api.py

# 发送测试请求（以 zh.mp3 为例）
curl -X POST "http://localhost:8666/api/v1/asr" \
-F "files=@/root/SenseVoice/examples/zh.mp3" \
-F "lang=auto"

{
  "code": 0,
  "msg": "success",
  "result": [
    {
      "text": "开放时间早上 9 点至下午 5 点。",
      "raw_text": "<NEUTRAL><HAPPY>",
      "emo": "HAPPY",
      "event": []
    }
  ]
}

# sensevoice_client.py
import requests
import json
from pathlib import Path

class SenseVoiceClient:
    def __init__(self, base_url="http://localhost:8666"):
        self.base_url = base_url.rstrip("/")

    def asr(self, audio_path, lang="auto", use_itn=True):
        """语音识别主接口"""
        files = {"files": open(audio_path, "rb")}
        data = {"lang": lang, "use_itn": str(use_itn).lower()}
        try:
            resp = requests.post(
                f"{self.base_url}/api/v1/asr", files=files, data=data, timeout=30
            )
            resp.raise_for_status()
            return resp.json()
        except Exception as e:
            return {"code": -1, "msg": f"请求失败：{str(e)}"}

    def parse_result(self, result_json):
        """解析 API 返回，生成易读结果"""
        if result_json.get("code") != 0:
            return f"错误：{result_json.get('msg', '未知')}"
        item = result_json["result"][0]
        text = item.get("text", "")
        emo = item.get("emo", "NEUTRAL")
        event = item.get("event", [])

        # 映射 emoji
        emo_map = {
            "HAPPY": "😊",
            "ANGRY": "😡",
            "SAD": "😔",
            "FEARFUL": "😰",
            "DISGUSTED": "🤢",
            "SURPRISED": "😮",
            "NEUTRAL": ""
        }
        event_map = {
            "BGM": "🎼",
            "Applause": "",
            "Laughter": "😀",
            "Cry": "😭",
            "Cough/Sneeze": "🤧",
            "Phone": "📞",
            "Engine": "🚗",
            "Footstep": "🚶",
            "Door": "🚪",
            "Alarm": "🚨",
            "Keyboard": "⌨",
            "Mouse": "🖱"
        }

        # 构建结果
        event_str = "".join([event_map.get(e, "") for e in event])
        emo_str = emo_map.get(emo, "")
        return f"{event_str}{text}{emo_str}"

# 使用示例
if __name__ == "__main__":
    client = SenseVoiceClient()
    result = client.asr("/root/SenseVoice/examples/emo_1.wav")
    print(client.parse_result(result))

# stream_asr.py
import pyaudio
import numpy as np
import wave
import threading
import time
from sensevoice_client import SenseVoiceClient

class StreamASR:
    def __init__(self, chunk=1024, rate=16000, channels=1):
        self.chunk = chunk
        self.rate = rate
        self.channels = channels
        self.client = SenseVoiceClient()
        self.is_recording = False
        self.audio_buffer = b""

    def start_recording(self):
        self.is_recording = True
        p = pyaudio.PyAudio()
        stream = p.open(
            format=pyaudio.paInt16,
            channels=self.channels,
            rate=self.rate,
            input=True,
            frames_per_buffer=self.chunk
        )
        print("开始录音（按 Ctrl+C 停止）...")
        try:
            while self.is_recording:
                data = stream.read(self.chunk)
                self.audio_buffer += data
                # 每 3 秒触发一次识别（可调）
                if len(self.audio_buffer) > self.rate * 3 * 2: # 16bit=2bytes
                    self._process_segment()
                    self.audio_buffer = b"" # 清空缓冲区
        except KeyboardInterrupt:
            print("\n录音结束")
        finally:
            stream.stop_stream()
            stream.close()
            p.terminate()

    def _process_segment(self):
        # 保存为临时 WAV
        temp_wav = "/tmp/temp_segment.wav"
        with wave.open(temp_wav, 'wb') as wf:
            wf.setnchannels(self.channels)
            wf.setsampwidth(2)
            wf.setframerate(self.rate)
            wf.writeframes(self.audio_buffer)
        # 调用 API
        result = self.client.asr(temp_wav)
        text = self.client.parse_result(result)
        print(f"[{time.strftime('%H:%M:%S')}] {text}")

# 启动实时识别
if __name__ == "__main__":
    asr = StreamASR()
    asr.start_recording()

# 1. 准备数据（JSONL 格式）
cat > customer_service.jsonl << 'EOF'
{"audio": "/data/audio/call1.wav", "text": "您好，这里是 XX 银行客服，请问有什么可以帮您？", "emo": "NEUTRAL", "event": ["BGM"]}
{"audio": "/data/audio/call2.wav", "text": "我的卡被锁了，快帮我解冻！", "emo": "ANGRY", "event": []}
EOF

# 2. 启动微调（镜像已预装 train.py）
cd /root/SenseVoice
python train.py \
--data_path customer_service.jsonl \
--model_name iic/SenseVoiceSmall \
--output_dir ./finetuned_cs \
--lora_rank 8 \
--num_train_epochs 3

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

1. 为什么选择 SenseVoice Small 而非传统 ASR 模型

1.1 四维一体的音频理解能力

1.2 小身材，大能量：性能实测对比

1.3 开箱即用的工程友好性

2. WebUI 全流程使用指南：3 分钟上手语音情感分析

2.1 启动与访问

2.2 界面详解：每个按钮都值得细看

2.3 四步完成一次完整识别

步骤 1：准备音频（两种方式任选）

步骤 2：设置语言策略

步骤 3：启动识别

步骤 4：解读结果（重点！）

2.4 进阶技巧：提升日常使用体验

3. 从使用到掌控：深度解析模型能力边界

3.1 情感识别的可靠性评估

3.2 声学事件识别的实用价值

3.3 语言与口音适应性实测

4. 二次开发实战：构建你自己的语音情感分析服务

4.1 API 服务启动与验证

4.2 Python SDK 封装：一行代码接入

4.3 麦克风实时流式识别（生产级方案）

4.4 模型定制化：微调适配垂直场景

5. 总结：让语音理解真正服务于业务

更多推荐文章

相关免费在线工具

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

SenseVoice Small 语音情感识别：WebUI 使用与二次开发

1. 为什么选择 SenseVoice Small 而非传统 ASR 模型

1.1 四维一体的音频理解能力

1.2 小身材，大能量：性能实测对比

1.3 开箱即用的工程友好性

2. WebUI 全流程使用指南：3 分钟上手语音情感分析

2.1 启动与访问

2.2 界面详解：每个按钮都值得细看

2.3 四步完成一次完整识别

步骤 1：准备音频（两种方式任选）

步骤 2：设置语言策略

步骤 3：启动识别

步骤 4：解读结果（重点！）

2.4 进阶技巧：提升日常使用体验

3. 从使用到掌控：深度解析模型能力边界

3.1 情感识别的可靠性评估

3.2 声学事件识别的实用价值

3.3 语言与口音适应性实测

4. 二次开发实战：构建你自己的语音情感分析服务

4.1 API 服务启动与验证

4.2 Python SDK 封装：一行代码接入

4.3 麦克风实时流式识别（生产级方案）

4.4 模型定制化：微调适配垂直场景

5. 总结：让语音理解真正服务于业务

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具