openclaw使用llama.cpp 本地大模型部署教程

优质文章学习记录

07 Apr 2026 — 4 min read

openclaw使用llama.cpp 本地大模型部署教程

本教程基于实际操作整理，适用于 Windows WSL2 环境

全程使用 openclaw 帮我搭建大模型

一、环境准备

1. 硬件要求

显卡	推荐模型	显存占用
GTX 1050 Ti (4GB)	Qwen2.5-3B Q4	~2.5GB
RTX 4060 (8GB)	Qwen2.5-7B Q4	~5GB
RTX 4090 (24GB)	Qwen2.5-32B Q4	~20GB

2. 安装编译工具（WSL Ubuntu）

sudoapt update sudoaptinstall -y cmake build-essential

二、下载和编译 llama.cpp

1. 克隆源码

mkdir -p ~/llama.cpp cd ~/llama.cpp git clone --depth 1 https://github.com/ggerganov/llama.cpp.git src

2. 编译

cd ~/llama.cpp/src mkdir build &&cd build cmake .. -DCMAKE_BUILD_TYPE=Release make -j$(nproc) llama-cli llama-server

编译完成后，可执行文件在 ~/llama.cpp/src/build/bin/ 目录下。

三、下载模型

1. 创建模型目录

mkdir -p ~/llama.cpp/models

2. 下载 GGUF 模型（使用国内镜像加速）

Qwen2.5-3B（适合 4GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-3B-Instruct-GGUF/resolve/main/qwen2.5-3b-instruct-q4_k_m.gguf"

Qwen2.5-7B（适合 8GB 显存）：

curl -L -o ~/llama.cpp/models/qwen2.5-7b-instruct-q4_k_m.gguf \"https://hf-mirror.com/Qwen/Qwen2.5-7B-Instruct-GGUF/resolve/main/qwen2.5-7b-instruct-q4_k_m.gguf"

四、运行模型

方式一：命令行交互模式

cd ~/llama.cpp/src/build/bin ./llama-cli -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ -c 4096\ --no-display-prompt

参数说明：

-m 模型路径
-c 上下文长度（默认 512，建议 4096）
-ngl GPU 层数（纯 CPU 可不加）

方式二：启动 API 服务

cd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096

服务启动后访问：http://localhost:8080

五、API 调用方法

API 信息

项目	值
地址	`http://localhost:8080`
API Key	不需要（或随意填写）
兼容格式	OpenAI API

端点列表

端点	说明
`POST /v1/chat/completions`	聊天补全
`POST /v1/completions`	文本补全
`GET /health`	健康检查
`GET /`	Web 聊天界面

调用示例

curl

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json"\ -d '{ "model": "qwen2.5-3b", "messages": [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好，介绍一下你自己"} ], "temperature": 0.7, "max_tokens": 512 }'

Python（OpenAI SDK）

from openai import OpenAI client = OpenAI( base_url="http://localhost:8080/v1", api_key="not-needed") response = client.chat.completions.create( model="qwen2.5-3b", messages=[{"role":"system","content":"你是一个有帮助的助手。"},{"role":"user","content":"你好"}], temperature=0.7, max_tokens=512)print(response.choices[0].message.content)

Node.js

const response =awaitfetch('http://localhost:8080/v1/chat/completions',{method:'POST',headers:{'Content-Type':'application/json'},body:JSON.stringify({model:'qwen2.5-3b',messages:[{role:'user',content:'你好'}]})});const data =await response.json(); console.log(data.choices[0].message.content);

六、常用参数说明

服务端参数（llama-server）

参数	说明	示例
`-m`	模型路径	`-m model.gguf`
`--host`	监听地址	`--host 0.0.0.0`
`--port`	端口	`--port 8080`
`-c`	上下文长度	`-c 4096`
`-ngl`	GPU 层数	`-ngl 99`（全部放 GPU）
`-np`	并行请求数	`-np 4`
`--api-key`	设置 API Key	`--api-key your-key`

API 请求参数

参数	说明	默认值
`temperature`	随机性（0-2）	0.7
`max_tokens`	最大生成长度	模型上限
`top_p`	核采样	1.0
`stream`	流式输出	false
`stop`	停止词	[]

七、常见问题

Q1: 报错 “CUDA out of memory”

减少 -ngl 数值，让部分层用 CPU 计算：

./llama-server -m model.gguf -ngl 20# 只放 20 层到 GPU

Q2: 中文乱码

PowerShell 执行：

chcp 65001

Q3: 如何后台运行服务？

nohup ./llama-server -m model.gguf --host 0.0.0.0 --port 8080> server.log 2>&1&

Q4: 如何设置 API Key 认证？

./llama-server -m model.gguf --api-key "your-secret-key"

调用时需要带上：

curl -H "Authorization: Bearer your-secret-key"...

Q5: 从其他设备访问

查看 WSL IP：hostname -I
使用该 IP 访问，如 http://172.x.x.x:8080

八、推荐模型

模型	大小	适合场景
Qwen2.5-3B-Instruct Q4	~2GB	轻量对话、低配设备
Qwen2.5-7B-Instruct Q4	~4.5GB	通用对话、代码
Qwen2.5-14B-Instruct Q4	~9GB	复杂推理
DeepSeek-R1-Distill-Qwen-7B Q4	~4.5GB	数学、逻辑推理
Mistral-7B-v0.3 Q5	~5GB	英文、代码

下载地址： https://hf-mirror.com（国内镜像）

九、文件结构

~/llama.cpp/ ├── src/ # llama.cpp 源码 │ └── build/ │ └── bin/ │ ├── llama-cli # 命令行工具 │ └── llama-server # API 服务 └── models/ # 模型存放目录 └── qwen2.5-3b-instruct-q4_k_m.gguf

十、快速启动脚本

创建 start-server.sh：

#!/bin/bashcd ~/llama.cpp/src/build/bin ./llama-server \ -m ~/llama.cpp/models/qwen2.5-3b-instruct-q4_k_m.gguf \ --host 0.0.0.0 \ --port 8080\ -c 4096\ -np 4

赋予执行权限：

chmod +x start-server.sh ./start-server.sh

教程整理于 2026-02-03
基于 llama.cpp b7917 + Qwen2.5-3B-Instruct

Java Web 在线考试系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

系统架构设计### 摘要随着信息技术的快速发展，传统的线下考试模式逐渐暴露出效率低下、资源浪费和安全性不足等问题。在线考试系统因其高效、灵活和可扩展的特点，成为教育领域的重要研究方向。特别是在后疫情时代，远程学习和在线评估的需求激增，推动了在线考试系统的广泛应用。然而，现有的许多系统在性能、安全性和用户体验方面仍有不足，尤其是在高并发场景下的稳定性和数据安全性方面亟待优化。本研究旨在设计并实现一个基于SpringBoot2和Vue3的在线考试系统，通过现代化的技术栈解决上述问题，为教育机构提供高效、安全的在线考试解决方案。关键词：在线考试系统、SpringBoot2、Vue3、MyBatis-Plus、MySQL8.0。本研究采用前后端分离的架构，后端基于SpringBoot2框架，结合MyBatis-Plus实现高效的数据持久化操作，前端使用Vue3构建响应式用户界面。系统实现了用户管理、试题库管理、在线考试、自动阅卷和成绩分析等核心功能。通过JWT实现安全的用户认证与授权，Redis缓存技术提升系统响应速度，MySQL8.0确保数据的高效存储与查询。系统支持多种题型（如单选

前端实战：手把手教你接入腾讯云 ASR 实时语音识别（避坑指南）

在数字人交互、智能客服或语音助手的 Web 开发中，实时语音识别（ASR）是最基础也是最核心的入口。市面上方案众多，今天我们基于一个真实的测试文件 test-asr.html，深入剖析如何在前端（H5/Web）直接接入腾讯云的一句话识别 SDK。这篇文章不讲废话，只讲代码里的“魔鬼细节”和真实调试经验。 1. 为什么选择纯前端接入？通常 ASR 接入有两种模式： 1. 后端代理：前端录音传给后端，后端调用腾讯云 API。安全，但延迟高。 2. 前端直连：浏览器直接录音并通过 WebSocket 直连腾讯云。速度最快，交互体验最好。我们手中的 test-asr.html 采用的就是前端直连方案。这种方案最大的挑战在于：如何在前端安全且正确地生成鉴权签名，以及如何处理复杂的音频流事件。 2. 核心依赖与准备代码中引入了两个关键文件： <

PyCharm激活码永久破解不可取，但GLM-4.6V-Flash-WEB完全开源免费

PyCharm激活码永久破解不可取，但GLM-4.6V-Flash-WEB完全开源免费在智能应用日益普及的今天，开发者们正面临两个看似无关却本质相通的抉择：一边是功能强大但需要付费的专业开发工具，另一边是性能卓越但部署成本高昂的人工智能模型。许多人为了“节省成本”，选择在网络上寻找PyCharm专业版的“永久激活码”——这种做法不仅违反软件许可协议，还可能引入恶意代码、后门程序，甚至导致项目数据泄露。更讽刺的是，就在人们为了一款IDE绞尽脑汁破解时，真正能改变生产力的技术反而被忽略了：一个完全开源、免费、高性能的多模态大模型 GLM-4.6V-Flash-WEB 已经悄然上线，并且支持本地一键部署。这不仅仅是一个技术产品的发布，更是一种开发哲学的回归——不靠破解获取权限，而是通过开放赢得自由。为什么我们需要真正的“可落地”多模态模型？当前，视觉语言模型（VLM）已在内容审核、图像问答、自动化文档处理等领域展现出巨大潜力。然而，现实中的落地困境依然突出： * 闭源API贵得离谱：像GPT-4V这样的模型，一次图像推理调用动辄几毛到一块钱，企业高频使用月账单轻松突

前端状态管理方案选型指南：从 Redux 到 Zustand 再到 Pinia

深度对比主流状态管理方案，帮你找到最适合项目的那把"钥匙" 📋 前言在前端开发中，状态管理一直是绕不开的核心话题。从早期的全局变量，到 Redux 的单向数据流，再到如今 Zustand、Pinia 等轻量级方案的崛起，状态管理工具经历了多次迭代。但问题来了：2026 年了，到底该选哪个？本文将从学习成本、性能表现、生态支持、适用场景四个维度，深度剖析当前主流状态管理方案，帮你做出最适合的选择。 🎯 一、主流状态管理方案概览方案框架体积学习曲线适用场景Redux ToolkitReact11KB+⭐⭐⭐大型复杂应用ZustandReact1.1KB⭐⭐中小型应用、快速开发Jotai / RecoilReact3-7KB⭐⭐⭐原子化状态管理PiniaVue1.5KB⭐⭐Vue3 官方推荐VuexVue2KB⭐⭐⭐Vue2 历史项目MobXReact/Vue16KB+⭐⭐响应式编程爱好者 🔴 二、Redux Toolkit：企业级应用的首选

openclaw使用llama.cpp 本地大模型部署教程

一、环境准备

1. 硬件要求

2. 安装编译工具（WSL Ubuntu）

二、下载和编译 llama.cpp

1. 克隆源码

2. 编译

三、下载模型

1. 创建模型目录

2. 下载 GGUF 模型（使用国内镜像加速）

四、运行模型

方式一：命令行交互模式

方式二：启动 API 服务

五、API 调用方法

API 信息

端点列表

调用示例

curl

Python（OpenAI SDK）

Node.js

六、常用参数说明

服务端参数（llama-server）

API 请求参数

七、常见问题

Q1: 报错 “CUDA out of memory”

Q2: 中文乱码

Q3: 如何后台运行服务？

Q4: 如何设置 API Key 认证？

Q5: 从其他设备访问

八、推荐模型

九、文件结构

十、快速启动脚本

Read more

Java Web 在线考试系统系统源码-SpringBoot2+Vue3+MyBatis-Plus+MySQL8.0【含文档】

前端实战：手把手教你接入腾讯云 ASR 实时语音识别（避坑指南）

PyCharm激活码永久破解不可取，但GLM-4.6V-Flash-WEB完全开源免费

前端状态管理方案选型指南：从 Redux 到 Zustand 再到 Pinia