百川 2-13B-Chat WebUI v1.0 完整部署指南
1. 项目简介:AI 对话助手
这是一个基于百川智能最新 13B 参数对话大模型构建的 Web 界面应用。其核心亮点是采用 4bit 量化技术,将显存占用压缩至约 10GB,支持 RTX 3090、RTX 4090 等消费级显卡运行。
该 WebUI 预装在 /root/baichuan2-13b-webui/ 路径下,开箱即用。支持中英双语对话,适用于代码编写、问答及内容创作,无需复杂命令行操作。
介绍百川 2-13B-Chat WebUI v1.0 的本地部署流程。通过 4bit 量化技术,模型可在约 10GB 显存的消费级显卡上运行。文章涵盖环境检查、服务启动、Web 界面访问、参数调节(Temperature、Top-p、Max Tokens)及日常维护管理。提供了常用 Shell 命令和 Supervisor 配置方法,并总结了代码生成、内容创作等应用场景及安全注意事项。
这是一个基于百川智能最新 13B 参数对话大模型构建的 Web 界面应用。其核心亮点是采用 4bit 量化技术,将显存占用压缩至约 10GB,支持 RTX 3090、RTX 4090 等消费级显卡运行。
该 WebUI 预装在 /root/baichuan2-13b-webui/ 路径下,开箱即用。支持中英双语对话,适用于代码编写、问答及内容创作,无需复杂命令行操作。
打开终端,进入项目目录:
cd /root/baichuan2-13b-webui/
目录下包含必要文件:
check.sh - 状态检查脚本manage.sh - 服务管理脚本logs/ - 日志目录运行以下命令查看状态:
./check.sh
输出示例:
╔══════════════════════════════════════════════════════════════╗ ║ 百川 2-13B-Chat WebUI 状态检查 ║ ╚══════════════════════════════════════════════════════════════╝ 【服务状态】 ✅ 运行中 baichuan-webui RUNNING pid 12345, uptime 1:23:45 【端口监听】 ✅ 7860 端口监听中 tcp 0 0 0.0.0.0:7860 0.0.0.0:* LISTEN 12345/python 【GPU 状态】 型号:NVIDIA GeForce RTX 4090 D 显存:21500 MiB / 24576 MiB (87.5%) 利用率:85% 【WebUI 访问】 ✅ 可访问 URL: http://0.0.0.0:7860 【开机自启】 ✅ 已启用 Supervisor 服务:enabled 项目配置:已安装 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ ✅ 所有检查通过! 项目运行正常,可以正常使用。 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
若显示"✅ 运行中",则服务正常。若停止,需手动启动。
如服务未运行,使用 Supervisor 或自带脚本启动:
# 使用 Supervisor 启动
supervisorctl start baichuan-webui
# 或使用项目脚本
./manage.sh start
首次启动需加载模型至 GPU 显存,耗时约 30 秒至 1 分钟。可通过日志监控进度:
tail -f logs/baichuan-webui.log
出现"Model loaded successfully"即表示加载完成。
服务启动后,在浏览器输入地址:
# 本机访问
http://localhost:7860
http://127.0.0.1:7860
# 远程访问(替换为服务器 IP)
http://你的服务器 IP:7860
界面包含对话历史区、参数设置区和输入区。
在输入框发送问候语:
你好,请介绍一下你自己。
首次响应可能稍慢,后续对话速度会提升。
帮我写一个 Python 函数,计算斐波那契数列的前 n 项。用简单的语言解释一下什么是神经网络。帮我写一段关于春天的散文,100 字左右。把这句话翻译成英文:"人工智能正在改变我们的生活和工作方式。"限制:知识截止 2023 年 7 月,单次对话长度有限,复杂数学计算精度一般。
Web 界面右侧有"高级设置"区域,可调整核心参数。
控制回答随机性,范围 0.1 到 2.0。
| 温度值 | 效果 | 适合场景 |
|---|---|---|
| 0.1-0.3 | 稳定、一致 | 代码生成、数学计算、事实问答 |
| 0.4-0.7 | 平衡稳定与创造 | 日常对话、一般问题解答 |
| 0.8-1.2 | 创造性、多样性 | 创意写作、头脑风暴 |
| 1.3-2.0 | 高度随机 | 实验性用途 |
建议:写代码用 0.2-0.3,聊天用 0.7,创意时调至 1.0 以上。
控制词汇选择范围,范围 0.1 到 1.0。
建议:保持默认 0.9,若回答奇怪可调至 0.7。
控制生成长度,范围 1 到 2048。
| 设置值 | 大概字数 | 适合内容 |
|---|---|---|
| 128 | 约 100 字 | 简短回答 |
| 512 | 约 400 字 | 中等长度(推荐) |
| 1024 | 约 800 字 | 详细解释 |
| 2048 | 约 1600 字 | 长文 |
技巧:日常对话用 512,长文章用 1024 或 2048,过大可能导致生成变慢。
# 检查状态
./check.sh
# 查看日志
./manage.sh logs
# 重启服务
./manage.sh restart
# 停止服务
./manage.sh stop
# 查看帮助
./manage.sh help
nvidia-smi
4bits 版本通常占用 10-12GB 显存。
项目已配置 Supervisor 开机自启。验证方法:
systemctl status supervisor
supervisorctl status baichuan-webui
显示 RUNNING 即正常。
网页打不开:
./check.sh
supervisorctl start baichuan-webui
netstat -tulpn | grep 7860
sudo ufw allow 7860/tcp
回复速度慢:
显存不足:
supervisorctl restart baichuan-webui
nvidia-smi
确保关闭其他 GPU 程序,确认使用 4bits 版本。
用 Python 写一个函数,接收整数列表,返回去重后的新列表 优于 写代码我正在学习机器学习,请用通俗语言解释过拟合 优于 解释一下请用表格对比 Python 和 Java... 优于 比较 Python 和 Java让模型扮演特定角色以获得专业回答:
你是一位经验丰富的软件架构师,请帮我设计微服务架构的用户管理系统。你是一位专业的英语老师,请纠正我这句话的语法错误。复杂任务拆分为步骤:
用 Python 实现一个简单的 Web 爬虫...请逐行解释下面这段代码的作用...用比喻的方式解释数据库索引...给我出 5 道关于 Python 列表操作的练习题...我想在三个月内掌握 Python 数据分析,请制定计划...nvidia-smi 监控对话历史默认不永久保存。重要对话需手动复制保存或修改代码添加保存功能。
定期检查系统资源:
watch -n 1 nvidia-smi
free -h
df -h
tail -f /root/baichuan2-13b-webui/logs/baichuan-webui.log
百川 2-13B-Chat WebUI v1.0 是一个实用的本地大语言模型部署方案。
优点:
适合人群:开发者、程序员、学生研究者、内容创作者及技术爱好者。
快速开始:
./check.sh 检查状态http://你的 IP:7860 打开界面遇到问题先查看日志,check.sh 脚本可辅助诊断。

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
解析常见 curl 参数并生成 fetch、axios、PHP curl 或 Python requests 示例代码。 在线工具,curl 转代码在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online