openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

05 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

（第一篇）破冰篇：Spring AI 到底是什么？核心亮点拆解与实战指南

作为一名深耕Java 生态多年的开发者，我最近在几个企业级 AI 项目中发现了一个共性痛点：团队里的 Java 工程师对 PyTorch、LangChain 这些 AI 工具链上手慢，反而更习惯用 Spring Boot、Spring Cloud 那套 "老伙计"。但 AI 时代来了，总不能让 Java 开发者困在传统业务里 —— 直到 Spring AI 的出现，我才看到了 Java 生态与 AI 技术无缝融合的可能。一、从 Java 开发者的 3 大痛点，看懂 Spring AI 的核心价值聊 Spring AI

AI 与存储的结合：智能存储的实践与挑战

AI 与存储的结合：智能存储的实践与挑战背景作为一个专注于存储架构的技术人，我一直在关注人工智能技术的发展及其在存储领域的应用。最近团队在探索如何利用 AI 技术提升存储系统的性能和效率，遇到了许多挑战。为了帮助团队更好地理解和实践智能存储，我决定写这篇实践指南。智能存储的概念 1. 什么是智能存储智能存储是指利用人工智能技术（如机器学习、深度学习等）来优化存储系统的性能、可靠性和管理效率的存储解决方案。智能存储的核心特点是： * 自优化：自动优化存储配置和资源分配 * 自监控：自动监控存储系统的状态和性能 * 自修复：自动检测和修复存储系统的问题 * 预测性分析：预测存储系统的性能和容量需求 2. 智能存储的优势 * 性能提升：通过 AI 优化存储性能 * 成本降低：优化存储资源使用，降低存储成本 * 可靠性提高：预测和预防存储故障 * 管理效率：自动化存储管理，减少人工干预 3. 智能存储的挑战 * 数据质量：AI 模型需要高质量的数据进行训练 * 计算开销：AI

不是再做一个聊天框，ToClaw把 AI 真正放进你的桌面

不是再做一个聊天框，ToClaw把 AI 真正放进你的桌面 1、Agent 很多，但真正让人留下来的，不只是“会不会聊天” 最近这波 Agent 产品热起来以后，很多人都在强调“AI 不只回答问题，还能替你做事”。但真到落地层面，决定体验好坏的往往不是模型参数，而是两个更现实的问题：它能不能进入真实工作流，以及普通人能不能马上用起来。 ToClaw 给我的感觉，恰恰是把重心放在了这两个问题上。官方对它的定位很直接：它是ToDesk远程控制基于 OpenClaw 深度定制、集成远程控制运行时的 AI 助手，强调“手机一句话，你的电脑自动执行”；它不是停留在生成文字，而是要把“思考—执行—反馈”这条链路接到真实电脑环境里。官网列出的核心方向也很明确，包括开箱即用、远程控制运行时、AI 直接操作电脑、凭证安全管理、工作 IM 接入，

2026年程序员必看：AI Agent全面爆发，国产算力突围，这波技术红利别错过

🔥个人主页：北极的代码（欢迎来访） 🎬作者简介：java后端学习者 ❄️个人专栏：苍穹外卖日记，SSM框架深入，JavaWeb ✨命运的结局尽可永在，不屈的挑战却不可须臾或缺！前言：如今技术圈的迭代速度早已进入“倍速模式”，从大模型的快速迭代到算力芯片的激烈竞争，从云原生的深度普及到编程语言的持续优化，每一个热点背后都藏着程序员的职业机遇与技术挑战。稍不留意，就可能被行业浪潮甩在身后。2026年一开年，AI、算力、云原生、编程语言四大领域就迎来了新一轮颠覆性变革。一、AI Agent全面爆发，智能体开发成程序员新刚需如果说2025年是大模型“百花齐放”的一年，那么2026年就是AI Agent“落地生根”的元年。过去，大模型的应用还停留在“问答交互”“内容生成”的浅层阶段，而现在，AI Agent已经全面走向“自主执行、自动流程、跨场景协作”，成为企业降本增效、数字化转型的核心工具，也成为程序员必须掌握的核心技能之一。从行业动态来看，

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

（第一篇）破冰篇：Spring AI 到底是什么？核心亮点拆解与实战指南

AI 与存储的结合：智能存储的实践与挑战

不是再做一个聊天框，ToClaw把 AI 真正放进你的桌面

2026年程序员必看：AI Agent全面爆发，国产算力突围，这波技术红利别错过