openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

07 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

一文彻底讲透AI Infra：从底层逻辑到落地实战，小白也能看懂的技术全攻略

文章目录 * 一、AI Infra到底是什么？用3个生活例子秒懂 * 二、AI Infra的核心组件：4大模块撑起整个AI生态 * 三、AI Infra实战：3个经典场景，代码直接抄 * 场景1：个人副业——搭建AI绘画平台，基于Stable Diffusion+FastAPI部署 * 核心需求 * 技术选型 * 核心代码（简化版，可直接运行） * 部署步骤 * 场景2：企业应用——用LangChain+RAG搭建AI知识库，3小时落地 * 核心需求 * 技术选型 * 核心代码（简化版） * 部署步骤 * 场景3：端侧部署——将AI模型轻量化，适配手机/IoT设备 * 核心需求 * 技术选型 * 核心步骤（含代码片段） * 四、AI Infra的发展趋势：2026年必看的3个方向 * 1.

OpenClaw 最强技能 self-improving-agent 详解：让 AI 从错误中自主学习

self-improving-agent 是 OpenClaw 生态中最受欢迎的技能，下载量突破 268k。它能让 AI 记住犯过的错误和解决方案，实现持续自我改进。本文将深入讲解其工作原理、安装配置、实战案例和高级用法。 1 引言在使用 AI 助手的过程中，你是否遇到过这样的困扰： * 今天教 AI 用 sudo 解决权限问题，明天它又忘了 * 同一个 API 文档链接打不开，它下次还给你这个链接 * 重复解释同样的工作流程，效率极低这些问题源于传统 AI 助手的无状态特性——每次对话都是全新的开始，不会从历史交互中学习。 self-improving-agent 技能正是为了解决这个问题而生的。它通过记录错误、解决方案和用户反馈，让 AI 能够持续学习和改进。 2 self-improving-agent 是什么？ 2.1 官方定义 self-improving-agent

腾讯三箭齐发！企业微信、WorkBuddy、Qclaw 共建AI办公新生态

腾讯三箭齐发！企业微信、WorkBuddy、Qclaw 共建AI办公新生态 📢 重磅消息！ 2026年3月，腾讯在AI Agent领域连出重拳！3月8日：企业微信宣布接入OpenClaw3月9日：腾讯正式上线 WorkBuddy（桌面智能体）3月9日：腾讯电脑管家推出 Qclaw（微信AI助手）三箭齐发！腾讯全面布局AI办公生态！ 🔥 事件回顾 Day 1：企业微信宣布接入 OpenClaw 2026年3月8日，企业微信官方宣布支持接入OpenClaw智能机器人！ Day 2：腾讯 WorkBuddy 正式上线 2026年3月9日，腾讯旗下全场景AI智能体WorkBuddy正式发布，完全兼容OpenClaw生态！同期：腾讯电脑管家 Qclaw 亮相腾讯电脑管家官方推出Qclaw——一款"随时随地，微信一下，帮你搞定一切"的AI助手！ 🤖 腾讯AI三剑客对比产品定位入口特点企业微信版OpenClaw接入企业微信企业级应用WorkBuddy桌面智能体工作台桌面客户端深度办公自动化Qclaw微信AI助手微信/电脑管家轻量级、

黄仁勋力荐：OpenClaw不止是下一个ChatGPT，更是AI“动手时代”的破局者

在2026年GTC大会上，英伟达创始人兼CEO黄仁勋抛出了一个振聋发聩的判断：“OpenClaw绝对是下一个ChatGPT”。这一评价并非夸大其词，而是精准点出了AI产业的核心演进方向——从“被动回答”的语言交互，转向“主动行动”的任务执行。ChatGPT开启了大语言模型（LLM）的普及时代，让AI具备了理解和生成人类语言的能力，但它始终停留在“军师”的角色，只能提供方案建议；而OpenClaw的出现，彻底打破了这一局限，将AI变成了能动手干活的“数字员工”，完成了AI从“认知”到“执行”的关键跃迁，成为连接AI能力与现实场景的核心桥梁。下面我将从技术本质出发，拆解OpenClaw的核心架构、关键技术实现，结合代码示例、架构图与流程图，深入解析其如何实现“行动型AI”的突破，以及为何能被黄仁勋寄予厚望，成为AI产业的下一个里程碑。一、认知跃迁：从“回答型AI”到“行动型AI”的本质区别要理解OpenClaw的价值，首先需要明确它与ChatGPT这类“回答型AI”的核心差异。

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

一文彻底讲透AI Infra：从底层逻辑到落地实战，小白也能看懂的技术全攻略

OpenClaw 最强技能 self-improving-agent 详解：让 AI 从错误中自主学习

腾讯三箭齐发！企业微信、WorkBuddy、Qclaw 共建AI办公新生态

黄仁勋力荐：OpenClaw不止是下一个ChatGPT，更是AI“动手时代”的破局者