openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

11 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

终极Elden Ring AI绘画指南：从零开始掌握黑暗奇幻艺术创作

终极Elden Ring AI绘画指南：从零开始掌握黑暗奇幻艺术创作【免费下载链接】elden-ring-diffusion 项目地址: https://ai.gitcode.com/hf_mirrors/nitrosocke/elden-ring-diffusion 想要创作出《艾尔登法环》同款黑暗奇幻风格的艺术作品吗？Elden Ring Diffusion是基于Stable Diffusion架构的AI绘画模型，专门针对《艾尔登法环》游戏的美术风格进行了深度优化。通过本指南，您将快速掌握如何使用这一强大工具，创作出具有魂系美学特色的专业级图像。快速入门：三步启动你的AI绘画之旅第一步：环境准备与模型获取首先需要克隆项目仓库并获取模型文件： git clone https://gitcode.com/hf_mirrors/nitrosocke/elden-ring-diffusion cd elden-ring-diffusion 项目包含完整的模型文件结构，其中eldenRing-v3-pruned.ckpt是核心模型文件，体积仅为4.2GB，比完整版节

Unsloth LLaMA Factory 大语言模型微调工具对比比较主打极致速度与显存优化*适合单卡/少卡快速迭代代码/低代码、全场景、多模型兼容**

Unsloth 主打极致速度与显存优化，适合单卡/少卡快速迭代；LLaMA Factory 主打零代码/低代码、全场景、多模型兼容，适合新手与企业级一站式微调。下面从核心定位、性能、功能、上手、适用场景等维度详细对比。一、核心定位与本质区别维度UnslothLLaMA Factory核心定位单卡/少卡微调加速引擎，专注性能优化一站式微调平台，全流程、全场景、低门槛设计理念用底层算子优化（Triton）榨干GPU性能封装复杂流程，降低使用门槛，覆盖全训练范式与HF关系兼容HF生态，是加速插件（可嵌入其他框架）基于HF生态构建，是完整训练框架开源协议Apache-2.0Apache-2.0 二、性能对比（单卡场景）指标UnslothLLaMA Factory训练速度比标准HF快 2–5倍（核心优势）接近标准HF，比Unsloth慢显存占用降低 50%–80%（QLoRA下更明显）降低 ~70%

企业微信集成LangBot通信机器人的实战指南

1. 为什么你需要一个企业微信智能机器人？如果你在企业里工作，每天是不是都要在微信和企业微信之间来回切换？同事发来一个文件，你得下载、打开、再转发；老板在群里问个数据，你得翻半天聊天记录，或者临时去查系统。更别提那些重复性的问题，比如“公司WiFi密码是多少？”“报销流程怎么走？”，每天回答几十遍，人都麻了。这就是我想跟你聊聊 LangBot 的原因。它不是一个简单的自动回复工具，而是一个能真正“理解”你说话的通信机器人。你可以把它想象成一位24小时在线、精通公司所有业务的超级助理。把它集成到企业微信里，你的团队就拥有了一个随时待命的智能中枢。我自己的团队在用了LangBot之后，变化是实实在在的。新员工入职，不用再手把手教，直接@机器人问就行；技术同学排查问题，可以快速让机器人查询历史文档和代码片段；销售同事需要客户资料，一句话就能调出来。它把我们从繁琐的信息查找和重复应答中解放出来，让大家能更专注于创造性的工作。这个指南，就是把我踩过的坑、试出来的最佳路径，原原本本地分享给你。我会从零开始，带你完成从服务器部署、LangBot安装，到企业微信机器人创建、双向通信调试

【花雕动手做】拆解CASIC MOTOR机器人底盘14.8V无刷减速电机

为了做个机器人底盘，配合铝合金麦克纳姆轮使用，收了一款14.8V的无刷减速电机。这里试试简单的拆解，了解相关情况。一、电机型号与基本信息型号：CASIC MOTOR ZWS37U-CS-001 品牌：CASIC MOTOR（深圳航天电机系统有限公司）类型：带行星减速箱的无刷直流电机（BLDC），内置编码器（多色线为编码器信号线）二、核心参数（铭牌标注）三、主要特色无刷设计：无电刷磨损，寿命长、噪音低、效率高，适合长时间连续运行。集成减速箱：行星减速结构，大幅提升输出扭矩，同时保持电机本体的高转速特性。内置编码器：多色线（黄 / 红 / 黑 / 蓝 / 绿 / 白）为霍尔或增量编码器信号线，支持精准速度与位置控制。高扭矩密度：在 37mm 直径的紧凑体积下，

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

终极Elden Ring AI绘画指南：从零开始掌握黑暗奇幻艺术创作

Unsloth LLaMA Factory 大语言模型微调工具对比比较 主打极致速度与显存优化*适合单卡/少卡快速迭代 代码/低代码、全场景、多模型兼容**

企业微信集成LangBot通信机器人的实战指南

【花雕动手做】拆解CASIC MOTOR机器人底盘14.8V无刷减速电机

Unsloth LLaMA Factory 大语言模型微调工具对比比较主打极致速度与显存优化*适合单卡/少卡快速迭代代码/低代码、全场景、多模型兼容**