openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

11 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

FPGA小白学习日志一：LED的点亮

1.工程准备首先建立一个名为led的工程文件夹，文件夹下包含了doc、quartus_prj、rtl、sim四个子文件夹：那么我们来分析各个文件夹包含了什么： doc：该文件夹主要包含了文档资料、数据手册、Visio波形等，相当于档案库； quartus_prj：该文件夹主要包括了使用Quartus II软件新建的工程，相当于操作台； rtl：该文件夹主要放置生成硬件电路的代码，相当于原材料； Sim：该文件夹放置对生成硬件电路代码的仿真文件，相当于质检室；这四个文件夹各自完成不同的分工，但是它们之间有什么联系呢？答案是：他们之间通过路径关联和文件引用，形成一个完美的FPGA开发闭环。quartus_prj作为工程中枢，向上访问doc读取说明，向下访问rtl获取硬件代码，向外访问sim获取仿真脚本；sim向上访问rtl在逻辑上验证硬件代码的正确性。 2.设计过程无论我们使用FPGA做什么类型的项目时，我们都要参照一个具体的流程，这里就介绍我自己的开发流程： 1.看手册和原理图，搞清楚我们需要实现什么功能，就像做饭时我们需要看食谱，要知道自己吃什么。

ManiSkill机器人模拟环境：从零开始的完整安装与实战指南

ManiSkill机器人模拟环境：从零开始的完整安装与实战指南【免费下载链接】ManiSkill 项目地址: https://gitcode.com/GitHub_Trending/ma/ManiSkill 在机器人学习领域，拥有一个功能强大且易于使用的模拟环境至关重要。ManiSkill作为业界领先的机器人操作模拟平台，为研究人员和开发者提供了丰富的任务场景和硬件支持。本文将带您深入了解如何在不同系统上快速安装和配置ManiSkill，并解决实际使用中可能遇到的各种问题。为什么选择ManiSkill？在深入安装细节之前，让我们先了解ManiSkill的核心优势： * 多任务场景覆盖：从简单的物体抓取到复杂的家居环境操作 * 多样化机器人支持：超过30种不同类型的机器人硬件 * 物理模拟精度：基于SAPIEN引擎的高质量物理仿真 * GPU加速支持：大幅提升训练和推理效率环境准备：系统要求详解在开始安装前，请确保您的系统满足以下基本要求：系统类型最低配置推荐配置Ubuntu 18.04+4GB RAM, 2GB GPU16GB RAM, 8G

【实战源码】TeleGrip：基于VR的机械臂遥操作系统全流程解析

摘要本文对开源项目 TeleGrip 的架构与源码进行了剖析。该系统基于 LeRobot 框架，通过 VR 端位姿采集—WebSocket 通信—控制循环解算—机械臂执行的流程，实现虚拟与物理空间的实时映射。前端采用 A-Frame 进行手柄姿态获取与可视化，后端以 Python 实现命令队列、插值与逆运动学计算，并同步驱动 PyBullet 仿真与 SO100 实体机械臂。该框架具有低延迟、高扩展性等特点，可用于 VR 遥操作、具身智能及多模态交互研究。前言：项目背景与价值想象一下你戴上 VR 头显，用手柄抓取虚拟物体，现实中的机械臂同步完成同样的动作——这就是 TeleGrip 的核心。本文将带你从源码角度理解它是如何实现“虚拟到现实”的信号映射与控制闭环的。 GitHub链接：https://github.

新手必看：FLUX.1-dev超稳定AI绘画系统使用技巧

新手必看：FLUX.1-dev超稳定AI绘画系统使用技巧你是否试过刚输入提示词，点击生成，屏幕就弹出“CUDA Out of Memory”？是否在深夜赶图时，模型突然崩溃，前功尽弃？是否被SDXL的光影生硬、文字模糊、构图呆板反复劝退？别再折腾了——这次，我们不是在调参，而是在用一套真正“开箱即稳、所见即得”的AI绘画系统。这就是 FLUX.1-dev旗舰版镜像：它不靠堆显存硬扛，不靠降精度妥协，而是用一套经过24G显存严苛验证的智能卸载机制，把120亿参数的影院级大模型，稳稳装进你的RTX 4090D里。没有报错，没有中断，没有“再试一次”，只有每一次点击后，安静加载、精准成像、自动归档的确定感。本文不讲论文、不列公式、不谈架构。只说你打开WebUI后，第一分钟该做什么、第三步容易踩什么坑、怎么让一张图从“还行”变成“惊艳”

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

FPGA小白学习日志一：LED的点亮

ManiSkill机器人模拟环境：从零开始的完整安装与实战指南

【实战源码】TeleGrip：基于VR的机械臂遥操作系统全流程解析

新手必看：FLUX.1-dev超稳定AI绘画系统使用技巧