llama.cpp 安装与使用指南

llama.cpp 安装与使用指南

最新在使用llama.cpp的开源框架,所以简单写一下安装过程以及相关的介绍。

llama.cpp 是一个高性能的开源推理框架,用于在 CPU 和 GPU 上运行 LLaMA
系列及其他兼容的 Transformer 模型。
它的特点是轻量、跨平台、可在无显卡的设备上运行,同时对显卡显存利用率很高。


1. 项目介绍

llama.cpp 主要功能: - 支持多种量化格式(Q4, Q5, Q8, Q2
等),显著减少显存占用。 - 支持
CPU、GPU(CUDA、Metal、OpenCL、Vulkan)等多种后端。 - 提供简单易用的 CLI
和 HTTP 服务接口。 - 支持大多数 Hugging Face 上的
LLaMA、Qwen、Mistral、Baichuan、ChatGLM 等模型(需转换为 GGUF 格式)。

项目地址:https://github.com/ggerganov/llama.cpp


2. 安装方法

2.1 使用预编译版本(推荐新手)

  1. Releases
    页面下载适配系统的二进制包(Windows/Linux/macOS)。
  2. 解压到目标目录。

测试是否可运行:

./llama-cli --help

2.2 从源代码构建(适合需要定制化)

依赖环境
  • Linux / macOS / Windows WSL
  • cmake(>= 3.20)
  • make
  • gcc / clang
  • CUDA Toolkit(如果需要 GPU 加速)
构建步骤(Linux / macOS)
# 克隆项目git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp # 创建构建目录mkdir build &&cd build # GPU 版本(CUDA) cmake ..-DLLAMA_CUBLAS=ON make -j$(nproc)# CPU 版本 cmake ..make -j$(nproc)

构建完成后会生成: - llama-cli:命令行推理工具 - llama-server:HTTP
API 服务 - quantize:模型量化工具


3. 模型准备

3.1 下载模型

可以从 Hugging Face 下载模型权重(需要科学上网),例如:

git lfs installgit clone https://huggingface.co/Qwen/Qwen2-7B 

3.2 转换为 GGUF 格式

llama.cpp 只能加载 GGUF 格式模型,需要用官方脚本转换:

python3 convert.py /path/to/model --outfile model.gguf 

3.3 量化模型(可选,减少显存)

./quantize model.gguf model-q4_0.gguf q4_0 

4. 启动 HTTP 服务

./llama-server -m ./model-q4_0.gguf --port9558 --gpu-layers 40

参数说明: - -m:模型路径 - --port:HTTP 服务端口 -
--gpu-layers:加载到 GPU 的层数(越多显存占用越高,推理更快)


5. 常见问题

Q1: CUDA 版本报错 libcublas.so not found

原因:CUDA Toolkit 未正确安装或路径未添加。 解决:

exportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

Q2: 显存不足

  • 尝试使用更低精度的量化(如 q4_0, q3_k_m)。
  • 减少 --gpu-layers 数值。

Q3: 端口占用

修改 --port 参数,或释放对应端口:

sudolsof-i:9558sudokill-9<pid>

6. 总结

llama.cpp
是运行大模型的轻量高效方案,不依赖重型推理框架,可以在几乎任何设备上运行。
如果你的目标是本地部署、低延迟推理,且显存有限,那么它非常适合你。

Read more

带可二次开发的管理配置端 + 非低代码 + 原生支持标准化 Skill框架选择

「带可二次开发的管理配置端 + 非低代码 + 原生支持标准化 Skill」的开源 Agent 框架,筛选 3款完全匹配的框架(均为代码级可扩展、自带 Skill 管理后台、支持 SKILL.md/MCP 标准),附核心特性、二次开发要点和部署步骤,都是企业级/开发者友好的选型: 一、首选:LangGraph + LangServe(LangChain 官方生态,Python 栈,极致可扩展) 核心定位 LangChain 官方推出的「Agent 编排 + 服务化」框架,自带可二次开发的 Skill/Tool 管理后台(LangServe Dashboard),纯代码开发、无低代码封装,是 Python 生态的最佳选择。 关键特性

QUEST一体机游戏下载和安装教程:SideQuest详细使用方法 QUEST一体机游戏安装教程、SideQuest使用方法、QUEST未知来源游戏安装、VR一体机安装APK、SideQuest安装O

QUEST一体机游戏下载和安装教程:SideQuest详细使用方法 QUEST一体机游戏安装教程、SideQuest使用方法、QUEST未知来源游戏安装、VR一体机安装APK、SideQuest安装O

QUEST一体机游戏下载和安装教程:SideQuest详细使用方法 SEO关键词:QUEST一体机游戏安装教程、SideQuest使用方法、QUEST未知来源游戏安装、VR一体机安装APK、SideQuest安装OBB数据包 在使用 QUEST 一体机过程中,很多用户会遇到一个问题:如何安装本地 APK 游戏?如何处理 OBB 数据包?安装后在哪里打开? 本文将完整梳理: * SideQuest 下载地址 * APK 安装流程 * OBB 数据包复制方法 * 游戏打开位置说明 内容尽量结构化说明,便于快速操作。 一、SideQuest中文版下载地址 下载地址: [https://pan.quark.cn/s/0b20dec578a3](https://pan.quark.cn/s/0b20dec578a3 建议转存后下载,避免因下载中断导致安装失败。 二、安装前准备 在正式安装前,请确认:

YOLO+OpenClaw+SAM微调实战:工业缺陷自动标注的低代码落地

YOLO+OpenClaw+SAM微调实战:工业缺陷自动标注的低代码落地

YOLO+OpenClaw+SAM微调实战:工业缺陷自动标注的低代码落地 不能实时,不代表不能用。微调SAM+云端部署,让工业标注从“人工描边”变“一键验收”。 大家好,我是AI小怪兽。上周有位做PCB质检的读者发来一段视频:标注员正对着一块电路板缺陷图,用鼠标一点点勾勒划痕的边界,一张图花了8分钟。他说:“YOLO能框,但框不准;SAM能分割,但通用模型到我们产线就水土不服。有没有办法让标注员少点鼠标?” 当然有。今天我就结合工业缺陷检测场景,展示一套低代码落地路径:YOLO粗定位 + 微调SAM精分割 + OpenClaw自动调度,让标注员从“动手画”变成“动口验收”。 一、工业自动标注的三道坎 坎1:OpenClaw无法实时推理 OpenClaw从接收指令到调用模型返回结果,5秒以上是常态。产线上的产品不可能等5秒,但标注任务可以——把数千张图丢给AI,让它半夜慢慢跑,员工早上来验收结果,不香吗? 坎2:边缘端算力要求大,且存在安全风险 OpenClaw调用大模型需要至少8GB显存,

WIN11必备!QTTabBar中文优化版保姆级安装教程(含常见问题解决)

WIN11效率革命:深度定制你的资源管理器,不止于多标签 如果你和我一样,每天要在Windows的资源管理器里花费大量时间,那你一定对那种反复在层层文件夹中穿梭、找不到上一个窗口的体验深恶痛绝。系统自带的文件管理工具,就像一个功能简陋的毛坯房,勉强能用,但毫无效率与舒适度可言。尤其是升级到WIN11后,虽然界面更现代,但核心的文件管理逻辑依然停留在上个时代,对于追求效率的用户来说,这无疑是一种巨大的生产力损耗。 这篇文章,就是为那些不愿忍受现状,但又不想投入过多精力去学习复杂新软件的WIN10/WIN11用户准备的。我们不讨论那些需要彻底改变操作习惯的“重型”第三方管理器,而是聚焦于一种更优雅、更无感的解决方案:增强你正在使用的资源管理器本身。今天的主角,是一个经过国内开发者精心“魔改”的经典工具——QTTabBar的中文优化版。它就像给你的文件管理器做了一次精装修,保留了熟悉的格局,却赋予了它全新的、高效的能力。接下来,我将带你从零开始,完成这次效率升级,并深入探讨如何根据你的习惯,将它调校成最趁手的工具。 1. 为什么选择增强,而非替换? 在深入安装细节之前,我们有必要先