Hunyuan-MT-7B-WEBUI 部署避坑指南与性能优化

Hunyuan-MT-7B-WEBUI 部署避坑指南与性能优化 | 极客日志

nvidia-smi # 查看驱动版本（需≥535.104.05）
nvcc --version # 查看 CUDA 编译器版本（必须为 12.1.x）
python -c "import torch; print(torch.version.cuda)" # 输出应为 12.1

chown -R root:root /models/Hunyuan-MT-7B
chmod -R 755 /models/Hunyuan-MT-7B # 特别注意：config.json 和 pytorch_model.bin 必须有读权限
ls -l /models/Hunyuan-MT-7B/config.json # 正确输出应为：-rwxr-xr-x 1 root root ... config.json

df -h /tmp # 必须显示可用空间≥8GB
# 若不足，执行（需 root 权限）：
mkdir -p /root/tmp && mount --bind /root/tmp /tmp

# 正确写法（已修正）
python -m webui \
  --model-path $MODEL_PATH \
  --host 0.0.0.0 \
  --port $PORT \
  --device cuda \
  --half

推理模式	显存占用	首次响应时间	翻译质量（BLEU）
FP16（`--half`）	14.2GB	1.8s	38.7
FP32（禁用）	OOM 崩溃	—	—

# 在 Jupyter 终端执行（无需重启服务）
cd /root && python -c "
import gradio as gr
gr.themes.Base().set_font('Noto Sans CJK SC', 'Noto Sans CJK JP')
"
# 然后刷新网页即可

# 修改启动脚本，在 python 命令前添加环境变量
echo 'export PYTHONIOENCODING=utf-8' >> /root/1 键启动.sh
sed -i 's/python -m webui/python -u -m webui/' /root/1 键启动.sh # -u 参数强制 Python 使用 UTF-8，-m 确保模块路径正确

curl -X POST "http://localhost:7860/api/predict" \
  -H "Content-Type: application/json" \
  -d '{"data": ["今天天气很好", "en", "zh"]}'

source,target,lang_pair
北京，Beijing,zh-en
乌鲁木齐,Urumqi,zh-en
喀什,Kashgar,zh-en

python -m webui --model-path $MODEL_PATH --term-file /root/terms.csv

# 添加最大输入长度参数（单位：字符）
--max-input-length 2000 \
--max-output-length 3000 \

server {
    listen 80;
    server_name your-domain.com;
    location / {
        auth_basic "Restricted Access";
        auth_basic_user_file /etc/nginx/.htpasswd;
        proxy_pass http://127.0.0.1:7860;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
    }
}

htpasswd -c /etc/nginx/.htpasswd admin # 输入密码后，访问 http://your-domain.com 即需认证

# 修改启动命令，添加日志参数
python -m webui \
  --model-path $MODEL_PATH \
  --host 0.0.0.0 \
  --port 7860 \
  --log-level debug \
  --log-file /var/log/hunyuan-mt.log

# 原命令
# python -m webui ...
# 替换为（需先安装：pip install flash-attn --no-build-isolation）
python -m webui \
  --model-path $MODEL_PATH \
  --flash-attn2 \
  ...

配置	平均延迟	QPS
默认	2.1s	0.48
`--flash-attn2`	1.3s	0.77

# 在启动脚本顶部添加
export BATCH_SIZE=4
export MAX_BATCH_TOKENS=4096

# 启动时添加
--tokenizer-device cpu \
--prefill-device cpu \

Hunyuan-MT-7B-WEBUI 部署避坑指南与性能优化

Hunyuan-MT-7B-WEBUI 部署避坑指南与性能优化

1. 启动前必查：三个隐藏条件决定成败

1.1 GPU 驱动与 CUDA 版本必须严格匹配

1.2 模型路径权限必须为 root 可读可执行

1.3 系统临时目录空间至少预留 8GB

2. 启动脚本执行阶段：两个致命参数不能省略

2.1 `--host 0.0.0.0` 必须显式声明

2.2 `--half` 参数必须保留，禁用将直接 OOM

3. WEBUI 使用阶段：五类高频异常及精准修复方案

3.1 中文输入框无法输入汉字（键盘失灵）

3.2 维吾尔语/藏语等民语种下拉菜单为空

3.3 翻译结果出现乱码或方块字

3.4 批量翻译时第二段开始全部失败

3.5 翻译结果中专有名词错误（如'北京'译成'Pekin'）

4. 生产环境加固：三个必须启用的安全防护

4.1 输入长度硬限制（防 DoS 攻击）

4.2 反向代理 + 基础认证（防未授权访问）

4.3 日志分级与错误捕获

5. 性能调优实战：让 A10G 跑出 V100 级体验

5.1 启用 Flash Attention-2（仅限 A10G/V100）

5.2 批处理尺寸动态调整

5.3 CPU 卸载部分计算（释放 GPU 压力）

6. 总结：一份能真正落地的交付清单

更多推荐文章

相关免费在线工具

Hunyuan-MT-7B-WEBUI 部署避坑指南与性能优化

Hunyuan-MT-7B-WEBUI 部署避坑指南与性能优化

1. 启动前必查：三个隐藏条件决定成败

1.1 GPU 驱动与 CUDA 版本必须严格匹配

1.2 模型路径权限必须为 root 可读可执行

1.3 系统临时目录空间至少预留 8GB

2. 启动脚本执行阶段：两个致命参数不能省略

2.1 --host 0.0.0.0 必须显式声明

2.2 --half 参数必须保留，禁用将直接 OOM

3. WEBUI 使用阶段：五类高频异常及精准修复方案

3.1 中文输入框无法输入汉字（键盘失灵）

3.2 维吾尔语/藏语等民语种下拉菜单为空

3.3 翻译结果出现乱码或方块字

3.4 批量翻译时第二段开始全部失败

3.5 翻译结果中专有名词错误（如'北京'译成'Pekin'）

4. 生产环境加固：三个必须启用的安全防护

4.1 输入长度硬限制（防 DoS 攻击）

4.2 反向代理 + 基础认证（防未授权访问）

4.3 日志分级与错误捕获

5. 性能调优实战：让 A10G 跑出 V100 级体验

5.1 启用 Flash Attention-2（仅限 A10G/V100）

5.2 批处理尺寸动态调整

5.3 CPU 卸载部分计算（释放 GPU 压力）

6. 总结：一份能真正落地的交付清单

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

2.1 `--host 0.0.0.0` 必须显式声明

2.2 `--half` 参数必须保留，禁用将直接 OOM