openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

06 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

【AIGC】COT思维链：让AI学会拆解问题，像人一样思考

COT思维链 * 引言 * 理解实践 * 存疑例子 * COT解决 * 内置COT * COT的优势 * COT的未来展望： * 结语引言在人工智能领域，我们一直在追求让机器像人类一样思考。然而，即使是最先进的AI，也常常被诟病缺乏“常识”，难以理解复杂问题，更不用说像人类一样进行逻辑推理和解决问题了。最经常的表现就是遇到不会的地方，或者一些人一眼能看出来的地方AI在那里胡扯。为了解决这个问题，一种名为“思维链（Chain of Thought, COT）”的技术应运而生。COT的核心思想是：将复杂问题分解成一系列简单的子问题，并逐步推理出最终答案。这就像人类在解决问题时，会先将问题拆解成一个个小步骤，然后一步步推理，最终得出结论。理解实践存疑例子为了理解COT我们先来看个例子。经典的数strawberry里面的r有几个 from langchain_openai import ChatOpenAI from langchain.chains import LLMChain from

Claude部署（copilot反向代理）

一、教育邮箱认证 1、进行教育邮箱认证可免费使用claude pro 2年，有机会的话可以进行认证，无法教育认证的话只能花钱充claude的会员了，如何进行教育认证可观看该Up的视频超简单一次通过Github学生认证，逐步详细视频教程_哔哩哔哩_bilibili 2、教育认证通过后在GitHub个人主页下的Copilot/Features中开启Copilot Pro 二、服务器上配置Copilot反向代理 1、配置nodejs环境在官网https://nodejs.org/en/download/package-manager，下载nodejs安装包（Linux）下载完成后将压缩包传到服务器上进行解压，目录如下创建软连接，使得在任意目录下都可以试用直接使用node命令和npm命令 ln -s /root/node-v24.13.1-linux-x64/bin/node /usr/local/bin/node ln -s /root/node-v24.13.

Llama-3.2-3B效果实测：Ollama部署后3B模型在中文会议语音转写文本后的摘要压缩率与信息保留率

Llama-3.2-3B效果实测：Ollama部署后3B模型在中文会议语音转写文本后的摘要压缩率与信息保留率 1. 实测背景与核心关注点你有没有遇到过这样的场景：一场两小时的线上会议结束，语音转写工具生成了8000多字的逐字稿，密密麻麻全是“嗯”“啊”“这个那个”，关键结论却藏在一堆口语碎片里？人工通读耗时、外包摘要成本高、大模型又动辄要GPU显存——这时候，一个能在笔记本上跑起来、又真能抓住重点的小模型，就特别实在。 Llama-3.2-3B就是这样一个“轻量但不轻浮”的选择。它不是参数堆出来的庞然大物，而是Meta专为多语言对话和摘要任务打磨过的30亿参数模型。我们这次没聊它多快、多省显存，而是直接把它放进真实工作流里：用Ollama一键拉起服务，把真实的中文会议语音转写文本喂给它，看它到底能把8000字压到多少字，同时还能保住多少关键信息。实测不玩虚的——我们统计了压缩率（输出字数 ÷ 输入字数）和信息保留率（由三位有会议纪要经验的同事盲评打分，聚焦“是否遗漏决策项、是否丢失责任人、是否模糊时间节点、是否漏掉待办事项”四个硬指标），所有数据都来自同一组12份真实会议

TRAE vs Qoder vs Cursor vs GitHub Copilot：谁才是真正的“AI 工程师”？

引言：工具选择 = 成本 + 效率 + 风险的综合权衡 2026 年，AI 编程工具已从“玩具”走向“生产主力”。但面对 TRAE、Qoder、Cursor、GitHub Copilot 等选项，开发者不仅要问： * 它能写 Rust 吗？支持中文需求吗？ * 更要问：一个月多少钱？团队用得起吗？代码安全有保障吗？本文将从五大核心维度深度剖析四大主流 AI IDE： 1. 核心理念与自主性 2. 多语言与跨生态支持能力 3. 工程化与交付闭环能力 4. 中文本地化与业务适配 5. 收费模式、定价策略与企业成本帮你做出技术可行、经济合理、风险可控的决策。一、核心理念：

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

【AIGC】COT思维链：让AI学会拆解问题，像人一样思考

Claude部署（copilot反向代理）

Llama-3.2-3B效果实测：Ollama部署后3B模型在中文会议语音转写文本后的摘要压缩率与信息保留率

TRAE vs Qoder vs Cursor vs GitHub Copilot：谁才是真正的“AI 工程师”？