openclaw使用llama.cpp 本地大模型部署教程

openclaw使用llama.cpp 本地大模型部署教程

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理,适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

在这里插入图片描述

一、环境准备

1. 硬件要求

显卡推荐模型显存占用
GTX 1050 Ti (4GB)Qwen2.5-3B Q4~2.5GB
RTX 4060 (8GB)Qwen2.5-7B Q4~5GB
RTX 4090 (24GB)Qwen2.5-32B Q4~20GB

2. 安装编译工具(WSL Ubuntu)

sudoapt update sudoaptinstall -y cmake build-essential 

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src 

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server 

编译完成后,可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。


三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models 

2. 下载 GGUF 模型(使用国内镜像加速)

Qwen2.5-3B(适合 4GB 显存):

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B(适合 8GB 显存):

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一:命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt 

参数说明:

  • -m 模型路径
  • -c 上下文长度(默认 512,建议 4096)
  • -ngl GPU 层数(纯 CPU 可不加)

方式二:启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问:http://localhost:8080


五、API 调用方法

API 信息

项目
地址http://localhost:8080
API Key不需要(或随意填写)
兼容格式OpenAI API

端点列表

端点说明
POST /v1/chat/completions聊天补全
POST /v1/completions文本补全
GET /health健康检查
GET /Web 聊天界面

调用示例

curl
curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好,介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'
Python(OpenAI SDK)
from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)
Node.js
const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数(llama-server)

参数说明示例
-m模型路径-m model.gguf
--host监听地址--host 0.0.0.0
--port端口--port 8080
-c上下文长度-c 4096
-nglGPU 层数-ngl 99(全部放 GPU)
-np并行请求数-np 4
--api-key设置 API Key--api-key your-key

API 请求参数

参数说明默认值
temperature随机性(0-2)0.7
max_tokens最大生成长度模型上限
top_p核采样1.0
stream流式输出false
stop停止词[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值,让部分层用 CPU 计算:

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行:

chcp 65001 

Q3: 如何后台运行服务?

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证?

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上:

curl -H "Authorization: Bearer your-secret-key"... 

Q5: 从其他设备访问

  1. 查看 WSL IP:hostname -I
  2. 使用该 IP 访问,如 http://172.x.x.x:8080

八、推荐模型

模型大小适合场景
Qwen2.5-3B-Instruct Q4~2GB轻量对话、低配设备
Qwen2.5-7B-Instruct Q4~4.5GB通用对话、代码
Qwen2.5-14B-Instruct Q4~9GB复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4~4.5GB数学、逻辑推理
Mistral-7B-v0.3 Q5~5GB英文、代码

下载地址: https://hf-mirror.com(国内镜像)


九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf 

十、快速启动脚本

创建 start-server.sh

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限:

chmod +x start-server.sh ./start-server.sh 

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

Read more

一文彻底讲透AI Infra:从底层逻辑到落地实战,小白也能看懂的技术全攻略

一文彻底讲透AI Infra:从底层逻辑到落地实战,小白也能看懂的技术全攻略

文章目录 * 一、AI Infra到底是什么?用3个生活例子秒懂 * 二、AI Infra的核心组件:4大模块撑起整个AI生态 * 三、AI Infra实战:3个经典场景,代码直接抄 * 场景1:个人副业——搭建AI绘画平台,基于Stable Diffusion+FastAPI部署 * 核心需求 * 技术选型 * 核心代码(简化版,可直接运行) * 部署步骤 * 场景2:企业应用——用LangChain+RAG搭建AI知识库,3小时落地 * 核心需求 * 技术选型 * 核心代码(简化版) * 部署步骤 * 场景3:端侧部署——将AI模型轻量化,适配手机/IoT设备 * 核心需求 * 技术选型 * 核心步骤(含代码片段) * 四、AI Infra的发展趋势:2026年必看的3个方向 * 1.

OpenClaw 最强技能 self-improving-agent 详解:让 AI 从错误中自主学习

OpenClaw 最强技能 self-improving-agent 详解:让 AI 从错误中自主学习

self-improving-agent 是 OpenClaw 生态中最受欢迎的技能,下载量突破 268k。它能让 AI 记住犯过的错误和解决方案,实现持续自我改进。本文将深入讲解其工作原理、安装配置、实战案例和高级用法。 1 引言 在使用 AI 助手的过程中,你是否遇到过这样的困扰: * 今天教 AI 用 sudo 解决权限问题,明天它又忘了 * 同一个 API 文档链接打不开,它下次还给你这个链接 * 重复解释同样的工作流程,效率极低 这些问题源于传统 AI 助手的无状态特性——每次对话都是全新的开始,不会从历史交互中学习。 self-improving-agent 技能正是为了解决这个问题而生的。它通过记录错误、解决方案和用户反馈,让 AI 能够持续学习和改进。 2 self-improving-agent 是什么? 2.1 官方定义 self-improving-agent

腾讯三箭齐发!企业微信、WorkBuddy、Qclaw 共建AI办公新生态

腾讯三箭齐发!企业微信、WorkBuddy、Qclaw 共建AI办公新生态

腾讯三箭齐发!企业微信、WorkBuddy、Qclaw 共建AI办公新生态 📢 重磅消息! 2026年3月,腾讯在AI Agent领域连出重拳!3月8日:企业微信宣布接入OpenClaw3月9日:腾讯正式上线 WorkBuddy(桌面智能体)3月9日:腾讯电脑管家推出 Qclaw(微信AI助手) 三箭齐发!腾讯全面布局AI办公生态! 🔥 事件回顾 Day 1:企业微信宣布接入 OpenClaw 2026年3月8日,企业微信官方宣布支持接入OpenClaw智能机器人! Day 2:腾讯 WorkBuddy 正式上线 2026年3月9日,腾讯旗下全场景AI智能体WorkBuddy正式发布,完全兼容OpenClaw生态! 同期:腾讯电脑管家 Qclaw 亮相 腾讯电脑管家官方推出Qclaw——一款"随时随地,微信一下,帮你搞定一切"的AI助手! 🤖 腾讯AI三剑客对比 产品定位入口特点企业微信版OpenClaw接入企业微信企业级应用WorkBuddy桌面智能体工作台桌面客户端深度办公自动化Qclaw微信AI助手微信/电脑管家轻量级、

黄仁勋力荐:OpenClaw不止是下一个ChatGPT,更是AI“动手时代”的破局者

黄仁勋力荐:OpenClaw不止是下一个ChatGPT,更是AI“动手时代”的破局者

在2026年GTC大会上,英伟达创始人兼CEO黄仁勋抛出了一个振聋发聩的判断:“OpenClaw绝对是下一个ChatGPT”。 这一评价并非夸大其词,而是精准点出了AI产业的核心演进方向——从“被动回答”的语言交互,转向“主动行动”的任务执行。ChatGPT开启了大语言模型(LLM)的普及时代,让AI具备了理解和生成人类语言的能力,但它始终停留在“军师”的角色,只能提供方案建议;而OpenClaw的出现,彻底打破了这一局限,将AI变成了能动手干活的“数字员工”,完成了AI从“认知”到“执行”的关键跃迁,成为连接AI能力与现实场景的核心桥梁。 下面我将从技术本质出发,拆解OpenClaw的核心架构、关键技术实现,结合代码示例、架构图与流程图,深入解析其如何实现“行动型AI”的突破,以及为何能被黄仁勋寄予厚望,成为AI产业的下一个里程碑。 一、认知跃迁:从“回答型AI”到“行动型AI”的本质区别 要理解OpenClaw的价值,首先需要明确它与ChatGPT这类“回答型AI”的核心差异。