Moltbot 本地 AI 模型完全独立部署指南
本地部署 DeepSeek 或通义千问等 AI 模型,并配置 Moltbot 实现离线运行。涵盖 Ollama、vLLM、LM Studio 三种方案,提供硬件要求、安装步骤、API 测试及性能优化建议。支持量化、GPU 加速及多模型负载均衡,适合个人及企业构建私有化 AI 助手系统。

本地部署 DeepSeek 或通义千问等 AI 模型,并配置 Moltbot 实现离线运行。涵盖 Ollama、vLLM、LM Studio 三种方案,提供硬件要求、安装步骤、API 测试及性能优化建议。支持量化、GPU 加速及多模型负载均衡,适合个人及企业构建私有化 AI 助手系统。

从零开始搭建本地 DeepSeek/通义千问模型,配置 Moltbot 实现完全离线的 AI 员工系统
注意: Moltbot 是 Clawdbot 的新名称(2026 年 1 月更名)
✅ 完全隐私: 数据不离开本地,100% 掌控 ✅ 零成本: 无 API 调用费用,一次投入长期使用 ✅ 无限制: 无速率限制,想用多少用多少 ✅ 可定制: 可以微调模型适应特定场景 ✅ 离线运行: 不依赖网络,随时可用
| 方案 | 难度 | 性能 | 推荐场景 |
|---|---|---|---|
| Ollama | ⭐ 简单 | ⭐⭐ 中等 | 个人使用、快速上手 |
| vLLM | ⭐⭐⭐ 较难 | ⭐⭐⭐⭐⭐ 优秀 | 生产环境、高并发 |
| LM Studio | ⭐ 最简单 | ⭐⭐ 中等 | 新手、图形界面爱好者 |
┌─────────────────────────────────────────────┐
│ Moltbot Gateway │
│ (消息路由 + 会话管理) │
└──────────────────┬──────────────────────────┘
│
▼
┌─────────────────────┐
│ OpenAI Compatible │
│ API Endpoint │
│ (localhost:11434) │
└──────────┬──────────┘
│
┌──────────▼──────────┐
│ Ollama / vLLM │
│ (模型推理引擎) │
└──────────┬──────────┘
│
┌──────────▼──────────┐
│ DeepSeek / Qwen │
│ (本地模型文件) │
└─────────────────────┘
| 模型参数 | 最小内存 | 推荐 GPU | 推理速度 |
|---|---|---|---|
| 7B | 8GB | 无 (CPU) | 慢 |
| 14B | 16GB | RTX 3060 12GB | 中等 |
| 32B | 32GB | RTX 4090 24GB | 快 |
| 72B | 64GB | A100 80GB | 很快 |
# 使用 Homebrew 安装
brew install ollama
# 或下载安装包
# 访问 https://ollama.ai/download
# 一键安装脚本
curl -fsSL https://ollama.ai/install.sh | sh
# 验证安装
ollama --version
# 下载安装程序
# https://ollama.ai/download/windows
# 或使用 WSL2 + Linux 方法
# 启动 Ollama 服务
ollama serve
# 服务会在 http://localhost:11434 启动
后台运行:
# Linux systemd
sudo systemctl enable ollama
sudo systemctl start ollama
# macOS launchd (自动启动)
# Ollama 会自动配置为开机启动
# 手动后台运行
nohup ollama serve > /tmp/ollama.log 2>&1 &
# DeepSeek-R1:7B (推荐入门)
ollama pull deepseek-r1:7b
# DeepSeek-R1:14B (推荐日常使用)
ollama pull deepseek-r1:14b
# DeepSeek-R1:32B (需要大内存)
ollama pull deepseek-r1:32b
# DeepSeek-R1:70B (完整版,需要强大硬件)
ollama pull deepseek-r1:70b
# DeepSeek-Coder (代码专用)
ollama pull deepseek-coder:6.7b
# Qwen2.5:7B (推荐入门)
ollama pull qwen2.5:7b
# Qwen2.5:14B (推荐日常)
ollama pull qwen2.5:14b
# Qwen2.5:32B (高性能)
ollama pull qwen2.5:32b
# Qwen2.5:72B (完整版)
ollama pull qwen2.5:72b
# Qwen2.5-Coder (代码专用)
ollama pull qwen2.5-coder:7b
# Llama 3.1 (Meta)
ollama pull llama3.1:8b
ollama pull llama3.1:70b
# Mistral (欧洲开源)
ollama pull mistral:7b
# Gemma (Google)
ollama pull gemma2:9b
# 查看已下载模型
ollama list
# 交互式对话测试
ollama run deepseek-r1:7b
# 输入你的问题
>>> 你好,请介绍一下你自己
# 单次请求测试
echo "什么是量子计算?" | ollama run qwen2.5:7b
# 退出交互模式
>>> /bye
# 测试 API 端点
curl http://localhost:11434/api/tags
# 测试生成接口
curl http://localhost:11434/api/generate -d '{ "model": "deepseek-r1:7b", "prompt": "为什么天空是蓝色的?", "stream": false }'
# 测试 OpenAI 兼容接口
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1:7b", "messages": [ {"role": "user", "content": "你好"} ] }'
# 安装 CUDA (如果有 NVIDIA GPU)
# Ubuntu 22.04
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-4
# 验证 CUDA
nvidia-smi
# 创建虚拟环境
python3 -m venv vllm-env
source vllm-env/bin/activate
# 安装 vLLM (需要 Python 3.8+)
pip install vllm
# 或安装最新开发版
pip install git+https://github.com/vllm-project/vllm.git
# 从 HuggingFace 下载 DeepSeek 模型
# 需要先安装 git-lfs
sudo apt install git-lfs
git lfs install
# DeepSeek-R1-7B
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
# 通义千问 Qwen2.5-7B
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct
# 或使用 huggingface_hub
pip install huggingface_hub
python -c "from huggingface_hub import snapshot_download; snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', local_dir='./models/deepseek-r1-7b')"
# 启动 OpenAI 兼容 API 服务器
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--host 0.0.0.0 \
--port 8000 \
--served-model-name deepseek-r1-7b
# GPU 加速启动
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--port 8000
# 多 GPU 并行 (例如 2 张 GPU)
python -m vllm.entrypoints.openai.api_server \
--model ./models/qwen2.5-14b \
--tensor-parallel-size 2 \
--port 8000
创建 vllm_config.yaml:
model: ./models/deepseek-r1-7b
host: 0.0.0.0
port: 8000
served-model-name: deepseek-r1-7b
# GPU 配置
tensor-parallel-size: 1
gpu-memory-utilization: 0.9
# 性能优化
max-num-batched-tokens: 4096
max-num-seqs: 256
# 量化 (减少显存占用)
quantization: awq # 或 gptq
# 其他优化
enable-prefix-caching: true
disable-log-stats: false
启动:
python -m vllm.entrypoints.openai.api_server \
--config vllm_config.yaml
创建 systemd 服务 /etc/systemd/system/vllm.service:
[Unit]
Description=vLLM OpenAI API Server
After=network.target
[Service]
Type=simple
User=your-username
WorkingDirectory=/home/your-username/vllm
Environment="PATH=/home/your-username/vllm-env/bin"
ExecStart=/home/your-username/vllm-env/bin/python -m vllm.entrypoints.openai.api_server --model ./models/deepseek-r1-7b --port 8000
Restart=always
RestartSec=10
[Install]
WantedBy=multi-user.target
启动服务:
sudo systemctl daemon-reload
sudo systemctl enable vllm
sudo systemctl start vllm
sudo systemctl status vllm
访问 LM Studio 官网下载对应平台版本:
deepseek-r1qwen2.5llama-3.1推荐模型:
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B-GGUFQwen/Qwen2.5-7B-Instruct-GGUFhttp://localhost:1234 启动# 测试 API
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1-7b", "messages": [ {"role": "user", "content": "你好"} ] }'
编辑 ~/.clawdbot/moltbot.json:
{
"agent": {
"model": "ollama/deepseek-r1:7b",
"temperature": 0.7,
"maxTokens": 4096
},
"models": {
"ollama": {
"baseURL": "http://localhost:11434/v1",
"apiKey": "ollama",
"timeout": 120000,
"models": {
"deepseek-r1:7b": {"contextWindow": 8192},
"qwen2.5:7b": {"contextWindow": 32768}
}
}
}
}
{
"agent": {
"model": "vllm/deepseek-r1-7b",
"temperature": 0.7,
"maxTokens": 4096
},
"models": {
"vllm": {
"baseURL": "http://localhost:8000/v1",
"apiKey": "vllm-local",
"timeout": 120000,
"models": {
"deepseek-r1-7b": {"contextWindow": 8192}
}
}
}
}
{
"agent": {
"model": "lmstudio/deepseek-r1-7b",
"temperature": 0.7,
"maxTokens": 4096
},
"models": {
"lmstudio": {
"baseURL": "http://localhost:1234/v1",
"apiKey": "lm-studio",
"timeout": 120000
}
}
}
{
"agent": {
"model": "ollama/deepseek-r1:14b",
"temperature": 0.7,
"maxTokens": 4096,
"fallbackModels": ["ollama/qwen2.5:7b", "ollama/llama3.1:8b"],
"workspace": "~/clawd"
},
"models": {
"ollama": {
"baseURL": "http://localhost:11434/v1",
"apiKey": "ollama",
"timeout": 120000,
"retries": 3,
"models": {
"deepseek-r1:7b": {
创建 ~/.clawdbot/.env:
# 本地模型配置
OLLAMA_BASE_URL=http://localhost:11434/v1
VLLM_BASE_URL=http://localhost:8000/v1
LMSTUDIO_BASE_URL=http://localhost:1234/v1
# Telegram (可选)
TELEGRAM_BOT_TOKEN=your-bot-token
# 启动网关
moltbot gateway --port 18789 --verbose
# 测试本地模型
moltbot agent --message "你好,请介绍一下你自己" --model ollama/deepseek-r1:7b
# 使用通义千问
moltbot agent --message "什么是人工智能?" --model ollama/qwen2.5:7b
# 代码生成
moltbot agent --message "写一个 Python 快速排序" --model ollama/deepseek-coder:6.7b
Ollama 自动下载量化版本,可以选择不同精度:
# 4-bit 量化 (最省内存)
ollama pull deepseek-r1:7b-q4_0
# 5-bit 量化 (平衡)
ollama pull deepseek-r1:7b-q5_0
# 8-bit 量化 (高质量)
ollama pull deepseek-r1:7b-q8_0
# 查看可用量化版本
ollama show deepseek-r1:7b --modelfile
# 使用 AWQ 量化
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq \
--port 8000
# 使用 GPTQ 量化
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-GPTQ \
--quantization gptq \
--port 8000
# 自动使用 GPU (如果可用)
ollama run deepseek-r1:7b
# 查看 GPU 使用情况
nvidia-smi
# 设置 GPU 内存限制
export OLLAMA_GPU_MEMORY_FRACTION=0.8
ollama serve
# 使用多 GPU
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-14b \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9
# Pipeline 并行 (超大模型)
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-70b \
--tensor-parallel-size 4 \
--pipeline-parallel-size 2
# Ollama CPU 优化
export OLLAMA_NUM_PARALLEL=4
ollama serve
# 设置线程数
export OLLAMA_NUM_THREADS=16
ollama serve
# 使用 AVX2 优化
export OLLAMA_AVX=2
ollama serve
Clawdbot 配置:
{
"agent": {
"batching": {
"enabled": true,
"maxBatchSize": 8,
"maxWaitTime": 100
}
}
}
# 设置缓存大小
export OLLAMA_MODELS_CACHE_SIZE=10GB
ollama serve
# 预加载模型
ollama run deepseek-r1:7b --keep-alive 24h
# 启用 KV 缓存
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--enable-prefix-caching \
--max-num-batched-tokens 8192
{
"models": {
"ollama": {
"baseURL": "http://localhost:11434/v1",
"timeout": 300000,
"retries": 3,
"retryDelay": 1000,
"keepAlive": true,
"connectionPool": {
"maxConnections": 10,
"keepAliveTimeout": 60000
}
}
}
}
{
"agent": {
"loadBalancing": {
"enabled": true,
"strategy": "round-robin",
"models": ["ollama/deepseek-r1:7b", "ollama/qwen2.5:7b", "ollama/llama3.1:8b"]
}
}
}
{
"agent": {
"modelSelection": {
"enabled": true,
"rules": [
{"condition": "message.length > 1000", "model": "ollama/deepseek-r1:14b"},
{"condition": "message.includes('代码')", "model": "ollama/deepseek-coder:6.7b"},
{"condition": "default", "model": "ollama/qwen2.5:7b"}
]
}
}
}
{
"agent": {
"sessionPruning": {
"enabled": true,
"maxMessages": 50,
"maxTokens": 16000,
"strategy": "sliding-window"
},
"contextCompression": {
"enabled": true,
"compressionRatio": 0.5
}
}
}
{
"monitoring": {
"enabled": true,
"metrics": {
"port": 9090,
"path": "/metrics"
},
"logging": {
"level": "info",
"modelPerformance": true,
"tokenUsage": true
}
}
}
创建 benchmark.sh:
#!/bin/bash
echo "=== Moltbot 本地模型性能测试 ==="
# 测试 1: 简单问答
echo "测试 1: 简单问答"
time moltbot agent --message "什么是人工智能?" --model ollama/deepseek-r1:7b
# 测试 2: 长文本生成
echo "测试 2: 长文本生成"
time moltbot agent --message "写一篇 1000 字关于量子计算的文章" --model ollama/qwen2.5:7b
# 测试 3: 代码生成
echo "测试 3: 代码生成"
time moltbot agent --message "写一个 Python 二叉树遍历的完整实现" --model ollama/deepseek-coder:6.7b
# 测试 4: 并发测试
echo "测试 4: 并发测试 (10 个并发请求)"
for i in {1..10}; do
moltbot agent --message "测试消息 $i" --model ollama/deepseek-r1:7b &
done
wait
echo "=== 测试完成 ==="
运行测试:
chmod +x benchmark.sh
./benchmark.sh
| 模型 | 硬件 | Tokens/秒 | 延迟 |
|---|---|---|---|
| DeepSeek-R1 7B | CPU (i9) | 5-10 | 高 |
| DeepSeek-R1 7B | RTX 3060 12GB | 30-50 | 中 |
| DeepSeek-R1 14B | RTX 4090 24GB | 40-60 | 低 |
| Qwen2.5 7B | CPU (Ryzen 9) | 8-15 | 高 |
| Qwen2.5 14B | A100 40GB | 80-120 | 很低 |
Q: Ollama 服务启动失败
# 检查端口占用
lsof -i :11434
# 杀死占用进程
kill -9 <PID>
# 重新启动
ollama serve
Q: 模型下载慢
# 使用镜像加速
export OLLAMA_MODELS_MIRROR=https://ollama.your-mirror.com
ollama pull deepseek-r1:7b
# 或手动下载后导入
ollama create deepseek-r1:7b -f ./Modelfile
Q: 内存不足
# 使用更小的量化版本
ollama pull deepseek-r1:7b-q4_0
# 或使用更小的模型
ollama pull deepseek-r1:1.5b
Q: CUDA 错误
# 检查 CUDA 版本
nvidia-smi
# 重新安装对应版本的 vLLM
pip install vllm-cuda12
# 或 vllm-cuda11
# 验证 PyTorch CUDA 支持
python -c "import torch; print(torch.cuda.is_available())"
Q: 显存不足
# 使用量化模型
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq
# 减少 GPU 内存使用
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--gpu-memory-utilization 0.7 \
--max-num-batched-tokens 2048
Q: 模型加载慢
# 预加载模型到内存
export VLLM_ATTENTION_BACKEND=FLASH_ATTN
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--preload-model
Q: 连接本地模型失败
# 检查模型服务是否运行
curl http://localhost:11434/api/tags
# 检查 Moltbot 配置
cat ~/.clawdbot/moltbot.json | grep baseURL
# 测试连接
moltbot agent --message "测试" --model ollama/deepseek-r1:7b --verbose
Q: 响应超时
{
"models": {
"ollama": {
"timeout": 300000,
"retries": 5
}
}
}
Q: 模型选择错误
# 列出可用模型
ollama list
# 在 Clawdbot 中使用正确的模型名
clawdbot agent --message "测试" --model ollama/deepseek-r1:7b
# 注意大小写和版本号
Q: CPU 推理太慢
# 方案 1: 使用更小的模型
ollama pull deepseek-r1:1.5b
# 方案 2: 使用量化模型
ollama pull deepseek-r1:7b-q4_0
# 方案 3: 增加线程数
export OLLAMA_NUM_THREADS=16
ollama serve
# 方案 4: 考虑购买 GPU
Q: GPU 利用率低
# 监控 GPU 使用
watch -n 1 nvidia-smi
# 增加批处理大小
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--max-num-batched-tokens 8192 \
--max-num-seqs 256
Q: 回答质量不如云端 API
# 使用更大的模型
ollama pull deepseek-r1:14b
# 或 32b
# 调整温度参数
clawdbot agent --message "你的问题" \
--model ollama/deepseek-r1:14b \
--temperature 0.3
# 降低随机性
Q: 中文支持不好
# 使用中文友好的模型
ollama pull qwen2.5:14b
# 配置为默认模型
{
"agent": {
"model": "ollama/qwen2.5:14b"
}
}
| 配置 | 一次性成本 | 适用场景 | 对应云端月费 |
|---|---|---|---|
| CPU 方案 (i9 + 32GB) | ¥5,000 | 个人轻度使用 | ¥200-500 |
| 入门 GPU (RTX 3060) | ¥10,000 | 个人/小团队 | ¥500-1,000 |
| 专业 GPU (RTX 4090) | ¥25,000 | 专业用户 | ¥1,500-3,000 |
| 服务器 (A100 40GB) | ¥80,000 | 企业/多用户 | ¥5,000-10,000 |
假设月均 API 调用费用 ¥1,000:
结论: 对于中长期使用,本地部署性价比更高!
Ollama + DeepSeek-R1 7B (Q4) + Clawdbot
- 硬件:CPU (i5/Ryzen 5) + 16GB RAM
- 成本:¥3,000-5,000
- 性能:满足日常使用
配置:
{
"agent": {
"model": "ollama/deepseek-r1:7b-q4_0",
"maxTokens": 2048
}
}
Ollama + DeepSeek-R1 14B + Clawdbot
- 硬件:RTX 3060 12GB + 32GB RAM
- 成本:¥10,000-15,000
- 性能:接近云端 API
配置:
{
"agent": {
"model": "ollama/deepseek-r1:14b",
"fallbackModels": ["ollama/qwen2.5:14b"],
"maxTokens": 4096
}
}
vLLM + DeepSeek-R1 32B/72B + Clawdbot
- 硬件:A100 40GB/80GB + 64GB+ RAM
- 成本:¥50,000-100,000
- 性能:超越云端 API
配置:
{
"agent": {
"model": "vllm/deepseek-r1-32b",
"batching": {
"enabled": true,
"maxBatchSize": 16
},
"loadBalancing": {
"enabled": true,
"models": ["vllm/deepseek-r1-32b", "vllm/qwen2.5-32b"]
}
}
}
# 1. 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# 2. 下载模型
ollama pull deepseek-r1:7b
# 3. 启动服务
ollama serve &
# 4. 配置 Moltbot
cat > ~/.clawdbot/moltbot.json <<EOF
{
"agent": {
"model": "ollama/deepseek-r1:7b"
},
"models": {
"ollama": {
"baseURL": "http://localhost:11434/v1",
"apiKey": "ollama"
}
}
}
EOF
# 5. 启动 Moltbot
moltbot gateway --port 18789 &
# 6. 测试
moltbot agent --message "你好!"
参考本文档:

微信公众号「极客日志」,在微信中扫描左侧二维码关注。展示文案:极客日志 zeeklog
使用加密算法(如AES、TripleDES、Rabbit或RC4)加密和解密文本明文。 在线工具,加密/解密文本在线工具,online
生成新的随机RSA私钥和公钥pem证书。 在线工具,RSA密钥对生成器在线工具,online
基于 Mermaid.js 实时预览流程图、时序图等图表,支持源码编辑与即时渲染。 在线工具,Mermaid 预览与可视化编辑在线工具,online
将字符串编码和解码为其 Base64 格式表示形式即可。 在线工具,Base64 字符串编码/解码在线工具,online
将字符串、文件或图像转换为其 Base64 表示形式。 在线工具,Base64 文件转换器在线工具,online
将 Markdown(GFM)转为 HTML 片段,浏览器内 marked 解析;与 HTML转Markdown 互为补充。 在线工具,Markdown转HTML在线工具,online