Python 调用 Sambert API：语音合成函数封装最佳实践

Python 调用 Sambert API：语音合成函数封装最佳实践 | 极客日志

[用户] ↓ (HTTP) [Flask Web Server] ├─→ [WebUI 页面] ← 浏览器交互 └─→ [Sambert-Hifigan 推理引擎] ← 模型推理

方案	优点	缺点	适用场景
直接使用 `requests.post()`	快速上手，适合测试	重复代码多，难以维护	临时调试
函数封装（本文推荐）	可复用、参数校验、错误重试	需前期设计	生产环境
类封装（高级）	支持状态管理、批量任务	复杂度高	大规模调度

{
  "text": "今天天气真好",
  "voice": "zh-cn",
  "emotion": "happy",
  "speed": 1.0,
  "pitch": 1.0
}

{
  "status": "success",
  "audio_url": "/static/audio/xxx.wav"
}

import requests
import time
import os
from pathlib import Path
from typing import Literal, Optional

# -----------------------------
# 核心封装函数
# -----------------------------
def text_to_speech(
    text: str,
    output_path: str,
    server_url: str = "http://localhost:8080/tts",
    emotion: Literal["neutral", "happy", "sad", "angry", "surprised"] = "neutral",
    speed: float = 1.0,
    pitch: float = 1.0,
    voice: str = "zh-cn",
    timeout: int = 30,
    max_retries: int = 3,
    retry_delay: float = 1.0
) -> bool:
    """
    调用本地 Sambert-Hifigan 服务生成中文语音
    Args:
        text (str): 输入文本（建议≤500 字，超长自动分段）
        output_path (str): 输出 wav 文件路径
        server_url (str): TTS 服务 API 地址
        emotion (str): 情感类型，支持：neutral, happy, sad, angry, surprised
        speed (float): 语速比例，0.5~2.0
        pitch (float): 音调比例，0.5~2.0
        voice (str): 语音角色，固定为 zh-cn
        timeout (int): 请求超时时间（秒）
        max_retries (int): 最大重试次数
        retry_delay (float): 重试间隔（秒）
    Returns:
        bool: 成功返回 True，失败返回 False
    """
    # 参数合法性校验
    if not text.strip():
        print("❌ 错误：输入文本不能为空")
        return False
    if speed < 0.5 or speed > 2.0:
        print("⚠️ 警告：语速超出推荐范围 [0.5, 2.0]，已自动截断")
        speed = max(0.5, min(2.0, speed))
    if pitch < 0.5 or pitch > 2.0:
        print("⚠️ 警告：音调超出推荐范围 [0.5, 2.0]，已自动截断")
        pitch = max(0.5, min(2.0, pitch))

    # 构造请求数据
    payload = {
        "text": text.strip(),
        "voice": voice,
        "emotion": emotion,
        "speed": float(speed),
        "pitch": float(pitch)
    }
    headers = {"Content-Type": "application/json"}

    # 重试机制
    for attempt in range(max_retries):
        try:
            response = requests.post(
                server_url, json=payload, headers=headers, timeout=timeout
            )
            if response.status_code == 200:
                result = response.json()
                if result.get("status") == "success":
                    audio_url = result.get("audio_url")
                    if not audio_url:
                        print("❌ 响应缺少 audio_url 字段")
                        continue
                    # 拼接完整音频 URL
                    base_url = server_url.rsplit('/', 1)[0]
                    full_audio_url = f"{base_url}{audio_url}"
                    # 下载音频文件
                    return _download_audio(full_audio_url, output_path)
                else:
                    error_msg = result.get("message", "未知错误")
                    print(f"❌ 合成失败：{error_msg}")
            else:
                print(f"❌ HTTP {response.status_code}: {response.text}")
        except requests.exceptions.RequestException as e:
            print(f"🔁 第 {attempt + 1} 次请求失败：{e}")
            if attempt < max_retries - 1:
                time.sleep(retry_delay)
            else:
                print("❌ 所有重试均已失败")
                return False

# -----------------------------
# 辅助函数：下载音频
# -----------------------------
def _download_audio(audio_url: str, save_path: str) -> bool:
    """下载音频文件并保存"""
    try:
        response = requests.get(audio_url, timeout=15)
        if response.status_code == 200:
            Path(save_path).parent.mkdir(parents=True, exist_ok=True)
            with open(save_path, 'wb') as f:
                f.write(response.content)
            print(f"✅ 音频已保存至：{save_path}")
            return True
        else:
            print(f"❌ 下载失败，HTTP {response.status_code}")
            return False
    except Exception as e:
        print(f"❌ 下载异常：{e}")
        return False

# 示例 1：基本调用
text_to_speech(
    text="欢迎使用 Sambert 语音合成服务，祝您工作愉快！",
    output_path="./output/greeting_happy.wav",
    emotion="happy",
    speed=1.1
)

# 示例 2：悲伤语境播报新闻
text_to_speech(
    text="昨日发生一起交通事故，造成三人受伤。",
    output_path="./output/news_sad.wav",
    emotion="sad",
    speed=0.9
)

✅ 音频已保存至：./output/greeting_happy.wav

import re
from pydub import AudioSegment

def split_chinese_text(text: str, max_len: int = 400) -> list:
    """按语义切分中文长文本"""
    sentences = re.split(r'[。！？；]', text)
    chunks = []
    current_chunk = ""
    for sent in sentences:
        sent = sent.strip()
        if not sent:
            continue
        if len(current_chunk + sent) <= max_len:
            current_chunk += sent + "。"
        else:
            if current_chunk:
                chunks.append(current_chunk)
            current_chunk = sent + "。"
    if current_chunk:
        chunks.append(current_chunk)
    return chunks

def long_text_to_speech(
    text: str,
    output_path: str,
    chunk_params: Optional[dict] = None
) -> bool:
    """
    支持长文本的语音合成（自动分段 + 拼接）
    需安装：pip install pydub
    """
    if chunk_params is None:
        chunk_params = {}
    chunks = split_chinese_text(text, max_len=400)
    temp_dir = Path("./temp_audio")
    temp_dir.mkdir(exist_ok=True)
    audio_segments = []
    for i, chunk in enumerate(chunks):
        temp_wav = temp_dir / f"part_{i:03d}.wav"
        success = text_to_speech(chunk, str(temp_wav), **chunk_params)
        if not success:
            print(f"❌ 第 {i+1} 段合成失败，终止处理")
            return False
        segment = AudioSegment.from_wav(str(temp_wav))
        audio_segments.append(segment)
    # 拼接所有音频
    final_audio = sum(audio_segments)
    final_audio.export(output_path, format="wav")
    print(f"✅ 长文本合成完成，总段数：{len(chunks)}，已保存至：{output_path}")
    # 清理临时文件（可选）
    # for p in temp_dir.glob("*.wav"): os.remove(p)
    return True

long_text_to_speech(
    text="这是一段非常长的文字内容……（省略 500+ 字）",
    output_path="./output/long_story.wav",
    chunk_params={
        "emotion": "neutral",
        "speed": 1.0
    }
)

问题现象	可能原因	解决方法
返回 400 错误	文本含特殊字符或过长	过滤非法字符，启用分段合成
音频播放无声	模型未正确加载 Hifigan	检查服务日志是否报错
CPU 占用过高	并发请求过多	添加限流队列或异步处理
emotion 不生效	前端未传递参数	确认 payload 字段名正确

Python 调用 Sambert API：语音合成函数封装最佳实践

Python 调用 Sambert API：语音合成函数封装最佳实践

引言：为什么需要标准化的语音合成接口封装？

核心技术背景：Sambert-Hifigan 模型与服务架构

1. Sambert-Hifigan 是什么？

2. 服务运行模式解析

实践应用：Python 客户端封装设计

1. 技术选型对比：直接请求 vs 封装类

2. 核心 API 接口分析

3. 完整封装函数实现

4. 使用示例：一键生成带情感的语音

进阶技巧：长文本分段合成与音频合并

分段逻辑设计

调用方式

实践问题与优化建议

常见问题及解决方案

性能优化建议

总结：构建可落地的语音合成模块

下一步学习建议

更多推荐文章

相关免费在线工具

Python 调用 Sambert API：语音合成函数封装最佳实践

Python 调用 Sambert API：语音合成函数封装最佳实践

引言：为什么需要标准化的语音合成接口封装？

核心技术背景：Sambert-Hifigan 模型与服务架构

1. Sambert-Hifigan 是什么？

2. 服务运行模式解析

实践应用：Python 客户端封装设计

1. 技术选型对比：直接请求 vs 封装类

2. 核心 API 接口分析

3. 完整封装函数实现

4. 使用示例：一键生成带情感的语音

进阶技巧：长文本分段合成与音频合并

分段逻辑设计

调用方式

实践问题与优化建议

常见问题及解决方案

性能优化建议

总结：构建可落地的语音合成模块

下一步学习建议

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具