Fish-Speech 1.5 零基础教程：5分钟搭建语音合成WebUI

Ne0inhk

26 Mar 2026 — 14 min read

Fish-Speech 1.5 零基础教程：5分钟搭建语音合成WebUI

想不想拥有一个自己的“AI配音师”？不用下载软件，不用配置复杂环境，5分钟就能在浏览器里生成各种声音。今天，我就带你从零开始，用最简单的方式搭建Fish-Speech 1.5的语音合成WebUI。

Fish-Speech 1.5是个很厉害的语音合成模型，它最大的特点就是“聪明”。传统的语音合成需要依赖复杂的音素规则库，而这个模型能直接理解文本，就像人一样，看到文字就能读出来。它采用了一种创新的双自回归Transformer架构，计算效率高，生成的声音质量也好。

最棒的是，现在有现成的镜像可以直接用，省去了所有安装配置的麻烦。下面我就手把手教你，怎么在5分钟内把它跑起来。

1. 准备工作：理解我们要做什么

在开始之前，我们先简单了解一下这个项目。Fish-Speech 1.5提供了两种使用方式：

WebUI（网页界面）：这是最推荐的方式。打开浏览器，输入文字，点一下按钮，就能听到生成的声音。界面是中文的，操作起来非常直观，适合大多数人使用。

API接口：如果你想把语音合成功能集成到自己的程序里，比如做个自动播报系统，那就用API。通过发送HTTP请求，就能获得语音文件。

这个镜像已经把两种方式都部署好了，我们主要用WebUI。服务启动后，会占用两个端口：

7860端口：WebUI的访问入口
8080端口：API的访问入口

所有服务都由Supervisor管理，这意味着它们会开机自动启动，如果意外崩溃也会自动重启，非常稳定。

2. 快速启动：5分钟搞定所有步骤

2.1 第一步：获取并启动镜像

如果你是在支持镜像部署的环境里（比如一些云平台或本地容器环境），直接找到“fish-speech - 1.5 开源文本转语音（TTS）模型Webui”这个镜像，点击部署就行。

镜像启动后，系统会自动完成所有配置，包括：

安装Python环境和依赖包
下载Fish-Speech 1.5模型文件
配置中文界面
启动WebUI和API服务

整个过程完全自动化，你不需要输入任何命令。

2.2 第二步：访问WebUI界面

服务启动需要一点时间，通常1-2分钟。怎么知道它启动好了呢？可以查看服务日志，或者等一会儿直接尝试访问。

打开你的浏览器，在地址栏输入：

http://你的服务器IP:7860

把“你的服务器IP”换成实际的服务地址。如果是在本地运行，可能就是http://localhost:7860或http://127.0.0.1:7860。

看到类似下面的界面，就说明成功了：

界面是中文的，左侧是输入区域，右侧是控制区域，中间是生成结果。布局很清晰，一看就知道怎么用。

2.3 第三步：第一次语音合成体验

现在我们来生成第一段语音，感受一下这个工具的能力。

输入文本：在左侧的“输入文本”框中，输入你想让AI读出来的文字。比如：“你好，欢迎使用Fish-Speech语音合成系统。”
重要提示：输入文字后，务必等待实时规范化文本同步完成。你会看到输入框下方有个提示，等它显示“同步完成”或类似状态后，再点击生成按钮。这是为了确保文本被正确预处理。
生成音频：点击右侧的“🎧 生成”按钮（虽然我们文章里不能用emoji，但界面上有这个图标）。
等待结果：系统开始处理你的请求。根据文本长度，通常几秒到十几秒就能完成。
播放和下载：生成完成后，页面会显示一个音频播放器，点击播放按钮就能听到AI生成的声音。如果满意，可以点击下载按钮保存到本地。

第一次使用建议用短文本测试，比如10-20个字，这样生成速度快，能快速看到效果。

3. 核心功能详解：不只是基础合成

Fish-Speech 1.5的功能比看起来更强大，下面我详细介绍一下它的几个核心特性。

3.1 声音克隆：让AI模仿特定音色

这是最有趣的功能之一。你可以上传一段参考音频（比如你自己的声音，或者某个你喜欢的主播声音），然后让AI用这个音色来读其他文字。

具体操作步骤：

准备参考音频：找一段5-10秒的清晰人声录音。背景噪音要小，吐字要清晰。支持常见的音频格式，如wav、mp3等。
上传参考音频：在WebUI中找到“参考音频”相关区域，点击上传按钮选择你的音频文件。
填写参考文本：这是关键一步！你需要输入参考音频对应的准确文字内容。比如你上传的音频说的是“今天天气真好”，那就在这里输入“今天天气真好”。这能帮助AI更好地理解音频内容。
生成新语音：现在输入你想让AI说的新文本，点击生成。AI会尽量模仿参考音频的音色、语调和说话风格。

使用技巧：

参考音频不要太长，5-10秒效果最好
确保参考文本准确无误，标点符号也要一致
同一个音色可以重复使用，系统会缓存处理结果

3.2 参数调整：控制语音的“性格”

如果你对生成效果有特定要求，可以调整这些参数：

基础参数：

文本：要合成的文字内容
输出格式：可以选择wav、mp3或flac格式

高级参数（在“高级设置”中）：

温度：控制语音的随机性和“创造力”。值越低（如0.6），语音越稳定、可预测；值越高（如0.9），语音越有变化、更自然。建议从0.7开始尝试。
Top-P：影响用词的选择范围。默认0.7效果不错，调高到0.8会让语音更流畅。
重复惩罚：避免语音中重复相同的词或短语。如果发现AI老重复某个词，可以把这个值调高到1.3-1.5。
最大新令牌数：控制单次生成的最大长度。对于长文本，系统会自动分段处理，这个参数影响每段的大小。

给新手的建议： 刚开始用默认参数就行，等熟悉了再慢慢调整。如果生成的声音有点机械，可以稍微调高温度（0.75）和Top-P（0.75）。如果声音不稳定、老重复，就调高重复惩罚（1.3）。

3.3 批量处理与长文本支持

虽然WebUI界面一次只能输入一段文本，但你可以通过一些技巧处理长内容：

处理长文本的方法：

分段输入：把长文章分成几个段落，分别生成，然后用音频编辑软件拼接。
使用API：对于真正的批量需求，用API更合适，可以写个脚本循环处理。

性能参考：

生成速度：约每秒18个token（可以理解为每秒18个“语音单元”）
GPU内存占用：约1.84GB
模型大小：约1.4GB

这意味着即使是配置不高的显卡也能流畅运行，生成一段10秒的语音通常只需要几秒钟。

4. 通过API编程调用

如果你是个开发者，想把语音合成集成到自己的应用里，API方式更适合你。镜像已经部署好了API服务，访问地址是：

http://你的服务器IP:8080

4.1 查看API文档

在浏览器中访问上面的地址，你会看到一个Swagger UI界面，里面列出了所有可用的API接口和参数说明。这是最权威的文档，所有参数的含义和取值范围都有详细说明。

4.2 Python调用示例

下面是一个最简单的Python调用示例：

import requests # API地址 url = "http://你的服务器IP:8080/v1/tts" # 请求参数 payload = { "text": "你好，这是一个API测试示例。", "format": "wav" } # 发送请求 response = requests.post(url, json=payload) # 保存音频文件 if response.status_code == 200: with open("output.wav", "wb") as f: f.write(response.content) print("语音生成成功，已保存为output.wav") else: print(f"请求失败，状态码：{response.status_code}") print(f"错误信息：{response.text}")

参数说明：

text：要合成的文本，必填
format：输出格式，可选wav、mp3、flac，默认wav
其他参数如temperature、top_p等都可以按需添加

4.3 更完整的Python示例

如果你需要更多控制，比如使用参考音频，可以这样写：

import requests import base64 # API地址 url = "http://你的服务器IP:8080/v1/tts" # 读取参考音频文件并编码为base64 with open("reference.wav", "rb") as audio_file: audio_base64 = base64.b64encode(audio_file.read()).decode('utf-8') # 请求参数 payload = { "text": "用参考音频的音色说这句话。", "references": [ { "audio": audio_base64, "text": "这是参考音频的原文内容" } ], "temperature": 0.7, "top_p": 0.7, "repetition_penalty": 1.2, "format": "mp3" } # 发送请求 response = requests.post(url, json=payload) if response.status_code == 200: with open("output_with_reference.mp3", "wb") as f: f.write(response.content) print("带参考音频的语音生成成功") else: print(f"错误：{response.status_code}, {response.text}")

4.4 使用cURL命令行调用

如果你习惯用命令行，也可以用cURL直接调用：

curl -X POST "http://你的服务器IP:8080/v1/tts" \ -H "Content-Type: application/json" \ -d '{ "text": "这是通过命令行生成的语音。", "temperature": 0.7, "format": "wav" }' \ --output speech.wav

5. 服务管理与故障排查

镜像中的服务由Supervisor管理，下面是一些常用的管理命令。

5.1 服务状态检查

# 查看所有服务状态 supervisorctl status # 预期输出类似： # fish-speech-webui RUNNING pid 12345, uptime 1:23:45 # fish-speech RUNNING pid 12346, uptime 1:23:45

5.2 服务控制命令

# 重启WebUI服务（修改配置后需要） supervisorctl restart fish-speech-webui # 重启API服务 supervisorctl restart fish-speech # 停止服务 supervisorctl stop fish-speech-webui supervisorctl stop fish-speech # 启动服务 supervisorctl start fish-speech-webui supervisorctl start fish-speech

5.3 查看日志

遇到问题时，查看日志是最直接的排查方法：

# 查看WebUI输出日志（最近100行） tail -100 /var/log/fish-speech-webui.out.log # 查看WebUI错误日志 tail -100 /var/log/fish-speech-webui.err.log # 查看API输出日志 tail -100 /var/log/fish-speech.out.log # 查看API错误日志 tail -100 /var/log/fish-speech.err.log # 实时查看日志更新 tail -f /var/log/fish-speech-webui.out.log

5.4 常见问题解决

问题1：无法访问WebUI（端口7860）

可能原因和解决方法：

服务未启动：运行supervisorctl status检查服务状态
端口被占用：运行netstat -tlnp | grep 7860查看端口占用情况
防火墙限制：确保7860端口在防火墙中是开放的

问题2：生成时提示GPU内存不足

解决方法：

在WebUI中减小max_new_tokens参数值
缩短输入文本长度，分段生成
如果实在不行，可以修改配置使用CPU模式（但速度会慢很多）

问题3：生成的声音质量不理想

可以尝试：

调整温度参数（0.6-0.8范围内尝试）
提高重复惩罚值（1.3-1.5）
使用更清晰的参考音频，确保参考文本准确
检查输入文本是否有生僻字或特殊符号

问题4：生成速度慢

正常生成速度是每秒18个token左右，如果明显慢于这个速度：

检查GPU是否正常工作
查看系统资源使用情况
尝试缩短文本长度测试

6. 高级配置与优化

6.1 修改界面语言

系统默认是中文界面，如果你想切换成其他语言，可以修改配置文件：

# 编辑语言配置文件 echo "en_US" > /root/fish-speech-1.5/.locale # 重启WebUI服务使更改生效 supervisorctl restart fish-speech-webui

支持的语言包括：

zh_CN：简体中文（默认）
en_US：英文
ja_JP：日语
ko_KR：韩语

6.2 生产环境部署建议

如果你打算在正式环境中使用，建议做以下配置：

1. 添加反向代理（如Nginx）

# Nginx配置示例 server { listen 80; server_name your-domain.com; location / { proxy_pass http://localhost:7860; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; } }

2. 配置HTTPS 使用Let's Encrypt等工具为域名配置SSL证书，确保通信安全。

3. 添加访问控制

设置API Key认证
限制访问IP范围
配置请求频率限制

4. 监控与告警

监控GPU使用率
设置服务健康检查
配置日志轮转，避免日志文件过大

6.3 性能优化建议

对于高并发场景：

考虑部署多个实例，使用负载均衡
调整Supervisor的进程数配置
使用GPU内存更大的设备

对于长文本处理：

合理设置chunk_length参数
实现客户端的分段请求逻辑
考虑使用流式响应，边生成边返回

7. 总结

通过这个教程，你应该已经掌握了Fish-Speech 1.5语音合成系统的完整使用方法。我们来回顾一下重点：

核心收获：

5分钟快速部署：利用现成镜像，无需复杂配置，快速拥有自己的语音合成服务
两种使用方式：WebUI适合交互式使用，API适合集成到其他应用
强大功能：不仅支持基础文本转语音，还能进行声音克隆，模仿特定音色
易于调整：通过温度、Top-P等参数，可以精细控制生成语音的风格
稳定可靠：服务由Supervisor管理，自动重启，适合长期运行

给新手的建议：

先从WebUI开始，熟悉基本操作
用短文本测试，快速看到效果
尝试声音克隆功能，这是最有意思的部分
遇到问题先查日志，大多数问题都有明确提示

进阶方向：

学习API调用，把语音合成集成到自己的项目中
尝试调整参数，找到最适合你需求的配置
探索批量处理长文本的方法
考虑生产环境的安全和性能优化

Fish-Speech 1.5作为一个开源的语音合成方案，在效果和易用性之间取得了很好的平衡。无论是做内容创作、辅助工具开发，还是学习AI技术，它都是一个很好的起点。

现在，你已经有了一个随时可用的AI配音师。打开浏览器，输入文字，听听AI为你朗读的声音吧。从简单的测试开始，慢慢探索它的所有可能性，你会发现语音合成技术离我们并不遥远。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 ZEEKLOG星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Fish-Speech 1.5 零基础教程：5分钟搭建语音合成WebUI

Ne0inhk