llama.cpp 安装和配置指南

优质文章学习记录

05 Apr 2026 — 2 min read

llama.cpp 安装和配置指南

【免费下载链接】llama.cppPort of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp

1. 项目基础介绍和主要编程语言

项目介绍

llama.cpp 是一个开源的 C/C++ 库，旨在通过最小的设置和最先进的性能，在各种硬件上实现大型语言模型（LLM）的推理。该项目支持多种硬件加速后端，包括 Apple Silicon、x86 架构的 AVX、AVX2 和 AVX512，以及 NVIDIA 和 AMD 的 GPU。

主要编程语言

该项目主要使用 C 和 C++ 语言编写。

2. 项目使用的关键技术和框架

关键技术

ARM NEON：针对 Apple Silicon 的优化。
Accelerate 和 Metal 框架：用于 Apple 设备的加速。
AVX、AVX2 和 AVX512：用于 x86 架构的优化。
CUDA 和 HIP：用于 NVIDIA 和 AMD GPU 的加速。
Vulkan 和 SYCL：支持 GPU 和 CPU 的混合推理。

框架

CMake：用于项目的构建和配置。
GGML：用于模型量化和推理的核心库。

3. 项目安装和配置的准备工作和详细安装步骤

准备工作

安装 Git：用于克隆项目仓库。
安装 CMake：用于构建项目。
安装编译器：如 GCC 或 Clang，用于编译 C/C++ 代码。
安装 Python（可选）：如果需要使用 Python 绑定。

详细安装步骤

步骤 1：克隆项目仓库

首先，使用 Git 克隆 llama.cpp 仓库到本地：

git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp

步骤 2：配置和构建项目

使用 CMake 配置和构建项目：

mkdir build cd build cmake .. make

步骤 3：运行示例

构建完成后，可以运行示例程序来验证安装是否成功：

./llama-cli -m models/llama-13b-v2/ggml-model-q4_0.gguf -p "Building a website can be done in 10 simple steps:\nStep 1:" -n 400 -e I

步骤 4：配置 Python 绑定（可选）

如果需要使用 Python 绑定，可以按照以下步骤进行配置：

安装 llama-cpp-python：

pip install llama-cpp-python

配置环境变量（可选）：

export CMAKE_ARGS="-DGGML_BLAS=ON -DGGML_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python

总结

通过以上步骤，您已经成功安装并配置了 llama.cpp 项目。您现在可以在本地运行大型语言模型的推理，并根据需要进行进一步的优化和扩展。

【免费下载链接】llama.cppPort of Facebook's LLaMA model in C/C++ 项目地址: https://gitcode.com/GitHub_Trending/ll/llama.cpp

llama.cpp 安装和配置指南

优质文章学习记录

llama.cpp 安装和配置指南

1. 项目基础介绍和主要编程语言

项目介绍

主要编程语言

2. 项目使用的关键技术和框架

关键技术

框架

3. 项目安装和配置的准备工作和详细安装步骤

准备工作

详细安装步骤

步骤 1：克隆项目仓库

步骤 2：配置和构建项目

步骤 3：运行示例

步骤 4：配置 Python 绑定（可选）

总结

Read more

Flutter for OpenHarmony: Flutter 三方库 sanitize_html 彻底杜绝 XSS 注入风险（鸿蒙 Web 内容安全净化）

【Linux】教你在 Linux 上搭建 Web 服务器，步骤清晰无门槛

Lada本地一键启动包：AI视频马赛克去除神器

放弃无效编码！AI+SDD 重构复杂业务研发范式，新手也能落地