Dify 工作流集成语音合成：调用 Sambert-Hifigan API 实现对话机器人

Dify 工作流集成语音合成：调用 Sambert-Hifigan API 实现对话机器人 | 极客日志

特性	说明
WebUI 集成	内置 Flask + Vue 前端界面，支持在线试听与下载
API 服务暴露	提供标准 RESTful 接口 `/tts`，便于外部调用
依赖冲突修复	已解决 `datasets==2.13.0`, `numpy==1.23.5`, `scipy<1.13` 等版本兼容问题
启动即用	容器启动后无需额外配置，直接访问即可使用

docker run -p 8080:8080 your-sambert-hifigan-image

属性	值
请求方法	`POST`
路径	`/tts`
Content-Type	`application/json`

{ "text": "今天是个好日子", "emotion": "happy" }

字段	类型	可选值	说明
`text`	string	-	待合成的中文文本（建议不超过 200 字）
`emotion`	string	`neutral`, `happy`, `sad`, `angry`, `fear`, `surprise`	情感类型，默认为 `neutral`

{ "status": "success", "audio_base64": "UklGRiQAAABXQVZFZm...AAA==", "format": "wav", "sample_rate": 16000 }

{ "status": "error", "message": "Text is required" }

用户输入 ↓ LLM 对话节点（如通义千问） ↓ HTTP 请求节点 → 调用 Sambert-Hifigan TTS API ↓ 返回语音 Base64 → 前端播放

字段	值
名称	`Text to Speech`
方法	`POST`
URL	`http://your-tts-service-domain:8080/tts` （替换为实际地址）
Headers	`Content-Type: application/json`
Body（JSON）

{ "text": "{{llm_output}}", "emotion": "happy" }

{ "text": "{{llm_output}}", "audio": "data:audio/wav;base64,{{http_response.audio_base64}}" }

import requests
import base64
import json

def text_to_speech(text: str, emotion: str = "neutral"):
    # 替换为你的服务地址
    url = "http://localhost:8080/tts"
    payload = {
        "text": text,
        "emotion": emotion
    }
    headers = {
        "Content-Type": "application/json"
    }
    try:
        response = requests.post(url, data=json.dumps(payload), headers=headers, timeout=30)
        if response.status_code == 200:
            result = response.json()
            if result["status"] == "success":
                # 解码 Base64 音频
                audio_data = base64.b64decode(result["audio_base64"])
                # 保存为文件
                with open("output.wav", "wb") as f:
                    f.write(audio_data)
                print("✅ 语音已保存为 output.wav")
                return "output.wav"
            else:
                print(f"❌ 合成失败：{result['message']}")
        else:
            print(f"❌ HTTP 错误：{response.status_code}, {response.text}")
    except Exception as e:
        print(f"🚨 请求异常：{str(e)}")

# 使用示例
if __name__ == "__main__":
    text_to_speech("欢迎使用语音合成服务，这是来自 AI 的问候！", "happy")

问题	原因分析	解决方案
`ModuleNotFoundError: No module named 'datasets'`	Python 依赖未正确安装	使用预修复镜像或手动降级 `scipy<1.13`
合成速度慢（>10s）	CPU 性能不足或长文本	限制输入长度在 150 字以内；考虑 GPU 加速
情感参数无效	模型未加载对应权重	确认镜像包含多情感分支；检查 emotion 字段拼写
Base64 音频无法播放	编码不完整或格式错误	检查返回 JSON 结构；确保前端正确拼接 `data:audio/wav;base64,...`
Dify 中 HTTP 节点超时	服务响应过慢	在 Dify 节点设置中增加超时时间至 30 秒以上

Dify 工作流集成语音合成：调用 Sambert-Hifigan API 实现对话机器人

Dify 工作流集成语音合成：调用 Sambert-Hifigan API 实现对话机器人

引言：让 AI 对话'开口说话'

技术选型与环境准备

为什么选择 Sambert-Hifigan？

部署镜像特性说明

部署与验证语音合成服务

步骤一：启动服务容器

步骤二：访问 WebUI 进行功能验证

接口解析：Sambert-Hifigan 的 API 设计

API 端点信息

请求体格式（JSON）

返回结果

在 Dify 工作流中集成 TTS 服务

架构设计概览

步骤一：创建 Dify 应用并添加 LLM 节点

步骤二：添加 HTTP 请求节点调用 TTS

配置请求参数

步骤三：处理返回结果并输出语音

输出变量映射

完整 Python 示例：模拟外部调用 TTS 服务

实际测试案例：打造'天气播报机器人'

场景描述

Dify 工作流配置

测试结果

常见问题与解决方案

总结：构建有'温度'的 AI 对话系统

更多推荐文章

相关免费在线工具

Dify 工作流集成语音合成：调用 Sambert-Hifigan API 实现对话机器人

Dify 工作流集成语音合成：调用 Sambert-Hifigan API 实现对话机器人

引言：让 AI 对话'开口说话'

技术选型与环境准备

为什么选择 Sambert-Hifigan？

部署镜像特性说明

部署与验证语音合成服务

步骤一：启动服务容器

步骤二：访问 WebUI 进行功能验证

接口解析：Sambert-Hifigan 的 API 设计

API 端点信息

请求体格式（JSON）

返回结果

在 Dify 工作流中集成 TTS 服务

架构设计概览

步骤一：创建 Dify 应用并添加 LLM 节点

步骤二：添加 HTTP 请求节点调用 TTS

配置请求参数

步骤三：处理返回结果并输出语音

输出变量映射

完整 Python 示例：模拟外部调用 TTS 服务

实际测试案例：打造'天气播报机器人'

场景描述

Dify 工作流配置

测试结果

常见问题与解决方案

总结：构建有'温度'的 AI 对话系统

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具