openclaw使用llama.cpp 本地大模型部署教程

Ne0inhk

24 Mar 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

AIOps实践：基于 Dify+LangBot 实现飞书智能体对话机器人

文章目录 * AIOps实践：Dify接入飞书实现与智能体对话 * 前言 * 环境搭建 * 1、Docker环境搭建 * 2、LangBot搭建 * 3、编辑流水线 * 4、配置飞书机器人 * 5、创建机器人 * 6、进行测试 * 附：遇到的问题 AIOps实践：Dify接入飞书实现与智能体对话前言前端时间把dify的智能体接入到了Prometheus和夜莺上，实现了与智能体的基本对话，并可以调取Prometheus数据进行分析，在那之后就开始深度研究AIOps实现原理于深度赋能运维的可能性，所以正在研究AIOps的核心：MCP Server；现在还并未成型，在研究的过程中，就想到了可否基于dify的agent，连接自建的mcp服务器，对接到飞书的机器人上，这样就可以和智能体进行对话，配合成型的mcp，就可以基本实现AIOps。这里需要借助一个三方的开源工具LangBot，LangBot是一个生产级多平台 LLM 机器人开发平台。那么就开始实践吧： MCP Server开发的当前阶

【花雕学编程】Arduino BLDC 之离线语音模块智能控制机器人

基于 Arduino 的无刷直流电机（BLDC）离线语音模块智能控制机器人，是一种将嵌入式语音识别技术与高效电机控制深度融合的独立式智能系统。该机器人通过本地化的语音处理单元，实现对 BLDC 执行机构的直接指令控制，摆脱了对云端服务器或外部网络的依赖。这种架构不仅保障了控制的实时性与隐私安全，也极大地拓展了人机交互的便捷性。 1、主要特点本地化语音处理与隐私安全这是该系统的核心优势，所有的语音信号处理与指令识别均在本地硬件上完成。数据隐私保护：语音数据无需上传至互联网，完全在本地闭环处理，从根本上杜绝了用户语音隐私泄露的风险，符合高安全等级应用的需求。超低延迟响应：省去了网络传输、云端服务器排队和数据回传的时间，指令识别的响应速度极快（通常在 100ms 级别）。这种即时性对于控制高速运转的 BLDC 电机至关重要，确保了操作的流畅性和安全性。离线独立运行：系统不依赖 Wi-Fi 或蓝牙等通信链路，即使在网络信号差或无网络的环境下（如地下室、封闭车间），依然能稳定工作，系统鲁棒性极强。高保真语音识别与指令集管理离线语音模块通常采用专用的 DSP 或低功耗 AI

【嵌入式硬件】FPGA开发从入门到精通

目录一、FPGA 是什么二、学习前的准备（一）硬件准备（二）软件准备三、基础知识入门（一）数字电路基础回顾（二）Verilog HDL 语言基础四、FPGA 开发流程实战（一）创建工程（二）编写代码（三）综合与实现（四）仿真验证（五）下载与调试五、学习资源推荐（一）书籍（二）在线课程（三）论坛和博客六、总结与展望一、FPGA 是什么 FPGA，即现场可编程门阵列（Field-Programmable Gate Array），是一种可编程逻辑器件。

AiOnly大模型深度测评：调用GPT-5 API+RAG知识库，快速构建智能客服机器人

声明：本测试报告系作者基于个人兴趣及使用场景开展的非专业测评，测试过程中所涉及的方法、数据及结论均为个人观点，不代表任何官方立场或行业标准。引言 AI 技术加速渗透各行各业的今天，你是否也面临这样的困境：想调用 GPT-5、Claude4.5等顶尖模型却被海外注册、跨平台适配搞得焦头烂额？想快速搭建智能客服、内容生成工具，却因模型接口差异、成本不可控而望而却步？或是作为中小团队，既想享受 AI 红利，又受限于技术门槛和预算压力？ AiOnly平台的出现，正是为了打破这些壁垒。本文将从实战角度出发，带你全方位解锁这个「全球顶尖大模型 MaaS 平台」：从 5 分钟完成注册到 API 密钥创建，从单模型调用到融合 RAG 知识库的智能体开发，然后手把手教你在 Windows 环境部署一个日均成本不足 0.5 元的电商客服机器人。无论你是 AI 开发者、企业运营者，还是想低成本尝试 AI

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

AIOps实践：基于 Dify+LangBot 实现飞书智能体对话机器人

【花雕学编程】Arduino BLDC 之离线语音模块智能控制机器人

【嵌入式硬件】FPGA开发从入门到精通

AiOnly大模型深度测评：调用GPT-5 API+RAG知识库，快速构建智能客服机器人