Moltbot 本地 AI 模型完全独立部署指南

Moltbot 本地 AI 模型完全独立部署指南 | 极客日志

Moltbot(Clawdbot) 教程 -02- 本地 AI 模型 + Moltbot 完全独立部署指南

从零开始搭建本地 DeepSeek/通义千问模型，配置 Moltbot 实现完全离线的 AI 员工系统

注意: Moltbot 是 Clawdbot 的新名称（2026 年 1 月更名）

🎯 为什么选择本地模型

优势

✅ 完全隐私: 数据不离开本地，100% 掌控 ✅ 零成本: 无 API 调用费用，一次投入长期使用 ✅ 无限制: 无速率限制，想用多少用多少 ✅ 可定制: 可以微调模型适应特定场景 ✅ 离线运行: 不依赖网络，随时可用

适用场景

🏢 企业内部知识库和助手
🔒 敏感数据处理（医疗、法律、金融）
🌐 网络不稳定或无网络环境
💰 大量 API 调用的成本优化
🛠️ 模型研究和开发

🏗️ 架构方案选择

三种主流方案对比

方案	难度	性能	推荐场景
Ollama	⭐ 简单	⭐⭐ 中等	个人使用、快速上手
vLLM	⭐⭐⭐ 较难	⭐⭐⭐⭐⭐ 优秀	生产环境、高并发
LM Studio	⭐ 最简单	⭐⭐ 中等	新手、图形界面爱好者

💻 硬件要求

最低配置 (7B 模型)

CPU: 8 核心+
内存: 16GB RAM
显卡: 无需 GPU (CPU 推理)
存储: 50GB 可用空间
系统: Linux/macOS/Windows

专业配置 (高性能/多用户)

CPU: AMD EPYC / Intel Xeon
内存: 64GB-128GB RAM
显卡: NVIDIA A100 40GB/80GB / H100
存储: 1TB+ NVMe SSD
系统: Ubuntu Server 22.04 LTS

模型大小与硬件对应

模型参数	最小内存	推荐 GPU	推理速度
7B	8GB	无 (CPU)	慢
14B	16GB	RTX 3060 12GB	中等
32B	32GB	RTX 4090 24GB	快
72B	64GB	A100 80GB	很快

📦 方案一：Ollama + 本地模型

为什么选择 Ollama?

✅ 最简单的部署方式
✅ 一键安装运行
✅ 自动管理模型下载
✅ 原生 OpenAI API 兼容
✅ 支持大部分开源模型

第一步：安装 Ollama

macOS

# 使用 Homebrew 安装
brew install ollama
# 或下载安装包
# 访问 https://ollama.ai/download

Linux

# 一键安装脚本
curl -fsSL https://ollama.ai/install.sh | sh
# 验证安装
ollama --version

Windows

# 下载安装程序
# https://ollama.ai/download/windows
# 或使用 WSL2 + Linux 方法

第二步：启动 Ollama 服务

# 启动 Ollama 服务
ollama serve
# 服务会在 http://localhost:11434 启动

后台运行:

# Linux systemd
sudo systemctl enable ollama
sudo systemctl start ollama
# macOS launchd (自动启动)
# Ollama 会自动配置为开机启动
# 手动后台运行
nohup ollama serve > /tmp/ollama.log 2>&1 &

第三步：下载模型

DeepSeek 模型

# DeepSeek-R1:7B (推荐入门)
ollama pull deepseek-r1:7b
# DeepSeek-R1:14B (推荐日常使用)
ollama pull deepseek-r1:14b
# DeepSeek-R1:32B (需要大内存)
ollama pull deepseek-r1:32b
# DeepSeek-R1:70B (完整版，需要强大硬件)
ollama pull deepseek-r1:70b
# DeepSeek-Coder (代码专用)
ollama pull deepseek-coder:6.7b

通义千问 (Qwen) 模型

# Qwen2.5:7B (推荐入门)
ollama pull qwen2.5:7b
# Qwen2.5:14B (推荐日常)
ollama pull qwen2.5:14b
# Qwen2.5:32B (高性能)
ollama pull qwen2.5:32b
# Qwen2.5:72B (完整版)
ollama pull qwen2.5:72b
# Qwen2.5-Coder (代码专用)
ollama pull qwen2.5-coder:7b

其他推荐模型

# Llama 3.1 (Meta)
ollama pull llama3.1:8b
ollama pull llama3.1:70b
# Mistral (欧洲开源)
ollama pull mistral:7b
# Gemma (Google)
ollama pull gemma2:9b
# 查看已下载模型
ollama list

第四步：测试模型

# 交互式对话测试
ollama run deepseek-r1:7b
# 输入你的问题
>>> 你好，请介绍一下你自己
# 单次请求测试
echo "什么是量子计算？" | ollama run qwen2.5:7b
# 退出交互模式
>>> /bye

第五步：验证 API 服务

# 测试 API 端点
curl http://localhost:11434/api/tags
# 测试生成接口
curl http://localhost:11434/api/generate -d '{ "model": "deepseek-r1:7b", "prompt": "为什么天空是蓝色的？", "stream": false }'
# 测试 OpenAI 兼容接口
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1:7b", "messages": [ {"role": "user", "content": "你好"} ] }'

🚀 方案二：vLLM 高性能部署

为什么选择 vLLM?

✅ 极高的推理性能
✅ 支持 PagedAttention
✅ 批处理优化
✅ 多 GPU 并行
✅ 生产环境首选

第一步：环境准备

# 安装 CUDA (如果有 NVIDIA GPU)
# Ubuntu 22.04
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-4
# 验证 CUDA
nvidia-smi

第二步：安装 vLLM

# 创建虚拟环境
python3 -m venv vllm-env
source vllm-env/bin/activate
# 安装 vLLM (需要 Python 3.8+)
pip install vllm
# 或安装最新开发版
pip install git+https://github.com/vllm-project/vllm.git

第三步：下载模型

# 从 HuggingFace 下载 DeepSeek 模型
# 需要先安装 git-lfs
sudo apt install git-lfs
git lfs install
# DeepSeek-R1-7B
git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
# 通义千问 Qwen2.5-7B
git clone https://huggingface.co/Qwen/Qwen2.5-7B-Instruct
# 或使用 huggingface_hub
pip install huggingface_hub
python -c "from huggingface_hub import snapshot_download; snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', local_dir='./models/deepseek-r1-7b')"

第四步：启动 vLLM 服务

# 启动 OpenAI 兼容 API 服务器
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--host 0.0.0.0 \
--port 8000 \
--served-model-name deepseek-r1-7b
# GPU 加速启动
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--tensor-parallel-size 1 \
--gpu-memory-utilization 0.9 \
--port 8000
# 多 GPU 并行 (例如 2 张 GPU)
python -m vllm.entrypoints.openai.api_server \
--model ./models/qwen2.5-14b \
--tensor-parallel-size 2 \
--port 8000

第五步：高级配置

创建 vllm_config.yaml:

model: ./models/deepseek-r1-7b
host: 0.0.0.0
port: 8000
served-model-name: deepseek-r1-7b
# GPU 配置
tensor-parallel-size: 1
gpu-memory-utilization: 0.9
# 性能优化
max-num-batched-tokens: 4096
max-num-seqs: 256
# 量化 (减少显存占用)
quantization: awq # 或 gptq
# 其他优化
enable-prefix-caching: true
disable-log-stats: false

启动:

python -m vllm.entrypoints.openai.api_server \
--config vllm_config.yaml

第六步：后台运行

创建 systemd 服务 /etc/systemd/system/vllm.service:

[Unit]
Description=vLLM OpenAI API Server
After=network.target

[Service]
Type=simple
User=your-username
WorkingDirectory=/home/your-username/vllm
Environment="PATH=/home/your-username/vllm-env/bin"
ExecStart=/home/your-username/vllm-env/bin/python -m vllm.entrypoints.openai.api_server --model ./models/deepseek-r1-7b --port 8000
Restart=always
RestartSec=10

[Install]
WantedBy=multi-user.target

启动服务:

sudo systemctl daemon-reload
sudo systemctl enable vllm
sudo systemctl start vllm
sudo systemctl status vllm

🖥️ 方案三：LM Studio 简易方案

为什么选择 LM Studio?

✅ 完全图形化界面
✅ 零代码配置
✅ 一键下载模型
✅ 适合新手
✅ 跨平台支持

第一步：下载安装

访问 LM Studio 官网下载对应平台版本:

Windows
macOS (Intel/Apple Silicon)
Linux

第二步：下载模型

打开 LM Studio
点击左侧 '🔍 Search'
搜索模型:
- deepseek-r1
- qwen2.5
- llama-3.1
选择合适大小的模型 (7B/14B/32B)
点击下载

推荐模型:

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B-GGUF
Qwen/Qwen2.5-7B-Instruct-GGUF

第三步：加载模型

点击左侧 '💬 Chat'
在顶部下拉菜单选择已下载的模型
点击 'Load Model'
等待模型加载完成

第四步：启动 API 服务器

点击左侧 '🔌 Local Server'
选择要运行的模型
配置端口 (默认 1234)
点击 'Start Server'
服务器会在 http://localhost:1234 启动

第五步：测试

# 测试 API
curl http://localhost:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{ "model": "deepseek-r1-7b", "messages": [ {"role": "user", "content": "你好"} ] }'

🔧 Moltbot 配置本地模型

方案 A: Ollama (端口 11434)

编辑 ~/.clawdbot/moltbot.json:

{
  "agent": {
    "model": "ollama/deepseek-r1:7b",
    "temperature": 0.7,
    "maxTokens": 4096
  },
  "models": {
    "ollama": {
      "baseURL": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "timeout": 120000,
      "models": {
        "deepseek-r1:7b": {"contextWindow": 8192},
        "qwen2.5:7b": {"contextWindow": 32768}
      }
    }
  }
}

方案 B: vLLM (端口 8000)

{
  "agent": {
    "model": "vllm/deepseek-r1-7b",
    "temperature": 0.7,
    "maxTokens": 4096
  },
  "models": {
    "vllm": {
      "baseURL": "http://localhost:8000/v1",
      "apiKey": "vllm-local",
      "timeout": 120000,
      "models": {
        "deepseek-r1-7b": {"contextWindow": 8192}
      }
    }
  }
}

方案 C: LM Studio (端口 1234)

{
  "agent": {
    "model": "lmstudio/deepseek-r1-7b",
    "temperature": 0.7,
    "maxTokens": 4096
  },
  "models": {
    "lmstudio": {
      "baseURL": "http://localhost:1234/v1",
      "apiKey": "lm-studio",
      "timeout": 120000
    }
  }
}

完整配置示例 (支持多个本地模型)

{
  "agent": {
    "model": "ollama/deepseek-r1:14b",
    "temperature": 0.7,
    "maxTokens": 4096,
    "fallbackModels": ["ollama/qwen2.5:7b", "ollama/llama3.1:8b"],
    "workspace": "~/clawd"
  },
  "models": {
    "ollama": {
      "baseURL": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "timeout": 120000,
      "retries": 3,
      "models": {
        "deepseek-r1:7b": {

环境变量配置

创建 ~/.clawdbot/.env:

# 本地模型配置
OLLAMA_BASE_URL=http://localhost:11434/v1
VLLM_BASE_URL=http://localhost:8000/v1
LMSTUDIO_BASE_URL=http://localhost:1234/v1
# Telegram (可选)
TELEGRAM_BOT_TOKEN=your-bot-token

启动 Moltbot

# 启动网关
moltbot gateway --port 18789 --verbose
# 测试本地模型
moltbot agent --message "你好，请介绍一下你自己" --model ollama/deepseek-r1:7b
# 使用通义千问
moltbot agent --message "什么是人工智能？" --model ollama/qwen2.5:7b
# 代码生成
moltbot agent --message "写一个 Python 快速排序" --model ollama/deepseek-coder:6.7b

⚡ 性能优化

1. 量化模型 (减少内存占用)

Ollama 量化

Ollama 自动下载量化版本，可以选择不同精度:

# 4-bit 量化 (最省内存)
ollama pull deepseek-r1:7b-q4_0
# 5-bit 量化 (平衡)
ollama pull deepseek-r1:7b-q5_0
# 8-bit 量化 (高质量)
ollama pull deepseek-r1:7b-q8_0
# 查看可用量化版本
ollama show deepseek-r1:7b --modelfile

vLLM 量化

# 使用 AWQ 量化
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq \
--port 8000
# 使用 GPTQ 量化
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-GPTQ \
--quantization gptq \
--port 8000

2. GPU 加速

Ollama GPU 支持

# 自动使用 GPU (如果可用)
ollama run deepseek-r1:7b
# 查看 GPU 使用情况
nvidia-smi
# 设置 GPU 内存限制
export OLLAMA_GPU_MEMORY_FRACTION=0.8
ollama serve

vLLM GPU 优化

# 使用多 GPU
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-14b \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9
# Pipeline 并行 (超大模型)
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-70b \
--tensor-parallel-size 4 \
--pipeline-parallel-size 2

3. CPU 优化 (无 GPU 情况)

# Ollama CPU 优化
export OLLAMA_NUM_PARALLEL=4
ollama serve
# 设置线程数
export OLLAMA_NUM_THREADS=16
ollama serve
# 使用 AVX2 优化
export OLLAMA_AVX=2
ollama serve

4. 批处理优化

Clawdbot 配置:

{
  "agent": {
    "batching": {
      "enabled": true,
      "maxBatchSize": 8,
      "maxWaitTime": 100
    }
  }
}

5. 缓存优化

Ollama 缓存

# 设置缓存大小
export OLLAMA_MODELS_CACHE_SIZE=10GB
ollama serve
# 预加载模型
ollama run deepseek-r1:7b --keep-alive 24h

vLLM 缓存

# 启用 KV 缓存
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--enable-prefix-caching \
--max-num-batched-tokens 8192

6. 网络优化

{
  "models": {
    "ollama": {
      "baseURL": "http://localhost:11434/v1",
      "timeout": 300000,
      "retries": 3,
      "retryDelay": 1000,
      "keepAlive": true,
      "connectionPool": {
        "maxConnections": 10,
        "keepAliveTimeout": 60000
      }
    }
  }
}

🎛️ 高级配置

1. 多模型负载均衡

{
  "agent": {
    "loadBalancing": {
      "enabled": true,
      "strategy": "round-robin",
      "models": ["ollama/deepseek-r1:7b", "ollama/qwen2.5:7b", "ollama/llama3.1:8b"]
    }
  }
}

2. 智能模型选择

{
  "agent": {
    "modelSelection": {
      "enabled": true,
      "rules": [
        {"condition": "message.length > 1000", "model": "ollama/deepseek-r1:14b"},
        {"condition": "message.includes('代码')", "model": "ollama/deepseek-coder:6.7b"},
        {"condition": "default", "model": "ollama/qwen2.5:7b"}
      ]
    }
  }
}

3. 会话管理优化

{
  "agent": {
    "sessionPruning": {
      "enabled": true,
      "maxMessages": 50,
      "maxTokens": 16000,
      "strategy": "sliding-window"
    },
    "contextCompression": {
      "enabled": true,
      "compressionRatio": 0.5
    }
  }
}

4. 监控和日志

{
  "monitoring": {
    "enabled": true,
    "metrics": {
      "port": 9090,
      "path": "/metrics"
    },
    "logging": {
      "level": "info",
      "modelPerformance": true,
      "tokenUsage": true
    }
  }
}

🔍 性能基准测试

测试脚本

创建 benchmark.sh:

#!/bin/bash
echo "=== Moltbot 本地模型性能测试 ==="
# 测试 1: 简单问答
echo "测试 1: 简单问答"
time moltbot agent --message "什么是人工智能？" --model ollama/deepseek-r1:7b
# 测试 2: 长文本生成
echo "测试 2: 长文本生成"
time moltbot agent --message "写一篇 1000 字关于量子计算的文章" --model ollama/qwen2.5:7b
# 测试 3: 代码生成
echo "测试 3: 代码生成"
time moltbot agent --message "写一个 Python 二叉树遍历的完整实现" --model ollama/deepseek-coder:6.7b
# 测试 4: 并发测试
echo "测试 4: 并发测试 (10 个并发请求)"
for i in {1..10}; do
  moltbot agent --message "测试消息 $i" --model ollama/deepseek-r1:7b &
done
wait
echo "=== 测试完成 ==="

运行测试:

chmod +x benchmark.sh
./benchmark.sh

性能参考数据

模型	硬件	Tokens/秒	延迟
DeepSeek-R1 7B	CPU (i9)	5-10	高
DeepSeek-R1 7B	RTX 3060 12GB	30-50	中
DeepSeek-R1 14B	RTX 4090 24GB	40-60	低
Qwen2.5 7B	CPU (Ryzen 9)	8-15	高
Qwen2.5 14B	A100 40GB	80-120	很低

🐛 常见问题

1. Ollama 相关

Q: Ollama 服务启动失败

# 检查端口占用
lsof -i :11434
# 杀死占用进程
kill -9 <PID>
# 重新启动
ollama serve

Q: 模型下载慢

# 使用镜像加速
export OLLAMA_MODELS_MIRROR=https://ollama.your-mirror.com
ollama pull deepseek-r1:7b
# 或手动下载后导入
ollama create deepseek-r1:7b -f ./Modelfile

Q: 内存不足

# 使用更小的量化版本
ollama pull deepseek-r1:7b-q4_0
# 或使用更小的模型
ollama pull deepseek-r1:1.5b

2. vLLM 相关

Q: CUDA 错误

# 检查 CUDA 版本
nvidia-smi
# 重新安装对应版本的 vLLM
pip install vllm-cuda12
# 或 vllm-cuda11
# 验证 PyTorch CUDA 支持
python -c "import torch; print(torch.cuda.is_available())"

Q: 显存不足

# 使用量化模型
python -m vllm.entrypoints.openai.api_server \
--model TheBloke/DeepSeek-R1-7B-AWQ \
--quantization awq
# 减少 GPU 内存使用
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--gpu-memory-utilization 0.7 \
--max-num-batched-tokens 2048

Q: 模型加载慢

# 预加载模型到内存
export VLLM_ATTENTION_BACKEND=FLASH_ATTN
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--preload-model

3. Moltbot 集成问题

Q: 连接本地模型失败

# 检查模型服务是否运行
curl http://localhost:11434/api/tags
# 检查 Moltbot 配置
cat ~/.clawdbot/moltbot.json | grep baseURL
# 测试连接
moltbot agent --message "测试" --model ollama/deepseek-r1:7b --verbose

Q: 响应超时

{
  "models": {
    "ollama": {
      "timeout": 300000,
      "retries": 5
    }
  }
}

Q: 模型选择错误

# 列出可用模型
ollama list
# 在 Clawdbot 中使用正确的模型名
clawdbot agent --message "测试" --model ollama/deepseek-r1:7b
# 注意大小写和版本号

4. 性能优化问题

Q: CPU 推理太慢

# 方案 1: 使用更小的模型
ollama pull deepseek-r1:1.5b
# 方案 2: 使用量化模型
ollama pull deepseek-r1:7b-q4_0
# 方案 3: 增加线程数
export OLLAMA_NUM_THREADS=16
ollama serve
# 方案 4: 考虑购买 GPU

Q: GPU 利用率低

# 监控 GPU 使用
watch -n 1 nvidia-smi
# 增加批处理大小
python -m vllm.entrypoints.openai.api_server \
--model ./models/deepseek-r1-7b \
--max-num-batched-tokens 8192 \
--max-num-seqs 256

5. 模型质量问题

Q: 回答质量不如云端 API

# 使用更大的模型
ollama pull deepseek-r1:14b
# 或 32b
# 调整温度参数
clawdbot agent --message "你的问题" \
--model ollama/deepseek-r1:14b \
--temperature 0.3
# 降低随机性

Q: 中文支持不好

# 使用中文友好的模型
ollama pull qwen2.5:14b
# 配置为默认模型
{
  "agent": {
    "model": "ollama/qwen2.5:14b"
  }
}

📊 成本分析

硬件投入对比

配置	一次性成本	适用场景	对应云端月费
CPU 方案 (i9 + 32GB)	¥5,000	个人轻度使用	¥200-500
入门 GPU (RTX 3060)	¥10,000	个人/小团队	¥500-1,000
专业 GPU (RTX 4090)	¥25,000	专业用户	¥1,500-3,000
服务器 (A100 40GB)	¥80,000	企业/多用户	¥5,000-10,000

ROI 计算

假设月均 API 调用费用 ¥1,000:

RTX 4090 方案: 25 个月回本
RTX 3060 方案: 10 个月回本
CPU 方案: 5 个月回本

结论: 对于中长期使用，本地部署性价比更高！

🎯 最佳实践

1. 个人用户推荐方案

Ollama + DeepSeek-R1 7B (Q4) + Clawdbot
- 硬件：CPU (i5/Ryzen 5) + 16GB RAM
- 成本：¥3,000-5,000
- 性能：满足日常使用

配置:

{
  "agent": {
    "model": "ollama/deepseek-r1:7b-q4_0",
    "maxTokens": 2048
  }
}

2. 专业用户推荐方案

Ollama + DeepSeek-R1 14B + Clawdbot
- 硬件：RTX 3060 12GB + 32GB RAM
- 成本：¥10,000-15,000
- 性能：接近云端 API

配置:

{
  "agent": {
    "model": "ollama/deepseek-r1:14b",
    "fallbackModels": ["ollama/qwen2.5:14b"],
    "maxTokens": 4096
  }
}

3. 企业用户推荐方案

vLLM + DeepSeek-R1 32B/72B + Clawdbot
- 硬件：A100 40GB/80GB + 64GB+ RAM
- 成本：¥50,000-100,000
- 性能：超越云端 API

配置:

{
  "agent": {
    "model": "vllm/deepseek-r1-32b",
    "batching": {
      "enabled": true,
      "maxBatchSize": 16
    },
    "loadBalancing": {
      "enabled": true,
      "models": ["vllm/deepseek-r1-32b", "vllm/qwen2.5-32b"]
    }
  }
}

📚 进阶资源

官方文档

Ollama: https://ollama.ai/
vLLM: https://docs.vllm.ai/
LM Studio: https://lmstudio.ai/docs
Clawdbot: https://docs.clawd.bot

模型资源

HuggingFace: https://huggingface.co/
DeepSeek 模型: https://huggingface.co/deepseek-ai
通义千问: https://huggingface.co/Qwen

🚀 快速开始总结

最快部署 (5 分钟)

# 1. 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh
# 2. 下载模型
ollama pull deepseek-r1:7b
# 3. 启动服务
ollama serve &
# 4. 配置 Moltbot
cat > ~/.clawdbot/moltbot.json <<EOF
{
  "agent": {
    "model": "ollama/deepseek-r1:7b"
  },
  "models": {
    "ollama": {
      "baseURL": "http://localhost:11434/v1",
      "apiKey": "ollama"
    }
  }
}
EOF
# 5. 启动 Moltbot
moltbot gateway --port 18789 &
# 6. 测试
moltbot agent --message "你好!"

生产环境部署 (1 小时)

参考本文档:

选择方案 (Ollama/vLLM/LM Studio)
安装配置模型服务
性能优化
配置 Clawdbot
设置后台运行
监控和维护

Moltbot 本地 AI 模型完全独立部署指南

Moltbot(Clawdbot) 教程 -02- 本地 AI 模型 + Moltbot 完全独立部署指南

🎯 为什么选择本地模型

优势

适用场景

🏗️ 架构方案选择

三种主流方案对比

推荐架构

💻 硬件要求

最低配置 (7B 模型)

推荐配置 (14B-72B 模型)

专业配置 (高性能/多用户)

模型大小与硬件对应

📦 方案一：Ollama + 本地模型

为什么选择 Ollama?

第一步：安装 Ollama

macOS

Linux

Windows

第二步：启动 Ollama 服务

第三步：下载模型

DeepSeek 模型

通义千问 (Qwen) 模型

其他推荐模型

第四步：测试模型

第五步：验证 API 服务

🚀 方案二：vLLM 高性能部署

为什么选择 vLLM?

第一步：环境准备

第二步：安装 vLLM

第三步：下载模型

第四步：启动 vLLM 服务

第五步：高级配置

第六步：后台运行

🖥️ 方案三：LM Studio 简易方案

为什么选择 LM Studio?

第一步：下载安装

第二步：下载模型

第三步：加载模型

第四步：启动 API 服务器

第五步：测试

🔧 Moltbot 配置本地模型

方案 A: Ollama (端口 11434)

方案 B: vLLM (端口 8000)

方案 C: LM Studio (端口 1234)

完整配置示例 (支持多个本地模型)

环境变量配置

启动 Moltbot

⚡ 性能优化

1. 量化模型 (减少内存占用)

Ollama 量化

vLLM 量化

2. GPU 加速

Ollama GPU 支持

vLLM GPU 优化

3. CPU 优化 (无 GPU 情况)

4. 批处理优化

5. 缓存优化

Ollama 缓存

vLLM 缓存

6. 网络优化

🎛️ 高级配置

1. 多模型负载均衡

2. 智能模型选择

3. 会话管理优化

4. 监控和日志

🔍 性能基准测试

测试脚本

性能参考数据

🐛 常见问题

1. Ollama 相关

2. vLLM 相关

3. Moltbot 集成问题

4. 性能优化问题

5. 模型质量问题

📊 成本分析

硬件投入对比

ROI 计算

🎯 最佳实践

1. 个人用户推荐方案