1. 环境准备:从零开始的硬件与软件栈
llama.cpp 是一个用 C/C++ 编写的轻量级推理引擎,能将 Hugging Face 上的模型转换为 GGUF 格式,在 CPU、Apple Silicon 或 NVIDIA GPU 上运行。
硬件需求分为三种情况:纯 CPU、苹果电脑 Metal(Apple Silicon M 系列芯片),或带有 NVIDIA 显卡的电脑。软件栈主要围绕 llama.cpp 的编译环境。对于大多数 Linux 和 macOS 用户,系统自带的终端和包管理器即可。Windows 用户建议使用 WSL2(Windows Subsystem for Linux)。
注意:确保系统有基础的编译工具链。输入
gcc --version或clang --version检查,若无则安装build-essential(Ubuntu)或xcode-select --install(macOS)。
2. 编译 llama.cpp:针对不同硬件的'定制化'构建
根据硬件环境编译生成最适合的可执行文件。
2.1 获取源代码与基础准备
bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
需要编译工具 make。Linux 通常自带,macOS 需安装 Xcode Command Line Tools。还需安装 cmake 和 pkg-config。
bash
# Ubuntu/Debian
sudo apt update && sudo apt install build-essential cmake pkg-config
# macOS (使用 Homebrew)
brew install cmake pkg-config
2.2 CPU 版本编译:最通用的起点
CPU 版本不依赖特殊图形 API,完全依靠中央处理器计算。
make
编译完成后运行 ./llama-cli -h 确认。对于无 GPU 机器或体验用途足够,但速度相对较慢。
2.3 Metal (Apple Silicon) 版本编译:榨干苹果芯片的性能
若使用搭载 M1、M2、M3 等 Apple Silicon 芯片的 Mac,Metal Performance Shaders (MPS) 允许计算任务直接跑在集成 GPU 上。编译时,我们需要显式地启用 Metal 支持。

