openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

12 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

智元 D1 强化学习sim-to-real系列 | 机器人强化学习实战：配置架构、机器人添加流程与调参技巧全解析（五）

0. 前言 Robot Lab 是基于 NVIDIA Isaac Lab 构建的机器人强化学习扩展库，专注于足式机器人的运动控制任务。该项目由 Ziqi Fan 开发维护，目前已支持包括 Unitree Go2、G1、H1 在内的十余款主流机器人平台。与原生 Isaac Lab 相比，Robot Lab 提供了更加完善的奖励函数库、域随机化配置以及针对不同机器人形态优化的训练参数。在深入技术细节之前，有必要先理解 Isaac Lab 的基本架构。Isaac Lab 构建于 Isaac Sim 之上，采用分层设计：最底层是 Omniverse 渲染引擎与 PhysX 物理引擎，中间层是 Isaac Sim 提供的机器人仿真接口，最上层则是

免费部署openClaw龙虾机器人（经典）

前几天出了个免费玩龙虾的详细教程，很多小伙伴觉得不错，但是还有一些新手留言反馈内容不够详细，这次我将重新梳理一遍，做一期更细致的攻略，同时扩展补充配置好之后的推荐（我认为是必要）操作，争取一篇文章让大家可以收藏起来，随时全套参照复用。先看效果测试部署完成基础运行效果测试，你可以直接问clawdbot当前的模型： 1.Token平台准备首先，还是准备好我们可以免费撸的API平台这里我找到了两个可以免费使用的API，测试之后执行效率还可以，下面将分别进行细致流程拆解。 1.1 硅基流动获取ApiKey （相对免费方案推荐）硅基流动地址：https://cloud.siliconflow.cn/i/6T57VxS2 如果有账号的直接登录，没有的注册一个账号，这个认证就送16元，可以直接玩收费模型，真香。认证完成后在API秘钥地方新建秘钥。硅基流动里面很多模型原来是免费的，有了16元注册礼，很多收费的模型也相当于免费用了，我体验一下了原来配置免费模型还能用，也是值得推荐的。建议使用截图的第一个模型体验一下，我一直用它。 1.2 推理时代

在ESP32-S3部署mimiclaw，基于deepseek并用飞书机器人开展对话-feishu

最近mimiclaw火爆，其开发团队也在密集更新，我看3天前已经可以用“飞书机器人”对话交互了。目前网络上能查到的部署资料相对滞后，现在将飞书机器人的部署整理如下： 1. 前提已经安装好ESP-IDF，并支持vscode编译esp32固件。 2. api-key准备 * 注册deepseek, * 创建APIkey， * 并充值，新注册的用户余额为零，无法使用 3. 飞书机器人我是在飞书个人版中，创建的机器人。 1. 访问飞书开放平台，单击创建企业自建应用，填写应用名称和描述，选择应用图标，单击创建。 2. 左侧导航栏单击凭证与基础信息页面，复制App ID（格式如 cli_xxx）和App Secret。 3. 配置事件订阅。 1. 在飞书开放平台左侧导航栏单击事件与回调，在事件配置页签中单击订阅方式，选择使用长连接接收事件，单击保存。 2. 在事件配置页面，单击添加事件，

高德地图 Web 端开发详解：高德地图 API 最佳实践指南（安装、marker添加、逆向地理编码、实际业务案例实操）

文章目录 * 1、引入高德地图的准备工作 * 2、高德地图 JS API 使用方式 * 2.1 JS API Loader * 2.1.1 使用 script 标签加载loader * 2.1.2 NPM 安装loader * 2.2 script 标签加载 JS API 脚本 * 2.2.1 同步加载 * 2.2.2 异步加载 * 3、在 vue3 项目中使用 * 3.1 安装 js api loader * 3.

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

智元 D1 强化学习sim-to-real系列 | 机器人强化学习实战：配置架构、机器人添加流程与调参技巧全解析（五）

免费部署openClaw龙虾机器人（经典）

在ESP32-S3部署mimiclaw，基于deepseek并用飞书机器人开展对话-feishu

高德地图 Web 端开发详解：高德地图 API 最佳实践指南（安装、marker添加、逆向地理编码、实际业务案例实操）