llama.cpp 多环境部署指南：从 CPU 到 CUDA/Metal 的推理实践

介绍 llama.cpp 在多环境下的部署流程，涵盖 CPU、Apple Metal 及 NVIDIA CUDA 的编译配置。内容包括环境准备、源码获取、基础依赖安装以及针对 CPU 和 Apple Silicon 的编译命令。旨在帮助用户在不同硬件平台上实现本地大模型的高效推理。

蜜桃汽水发布于 2026/4/6更新于 2026/4/187 浏览

1. 环境准备：从零开始的硬件与软件栈

llama.cpp 是一个用 C/C++ 编写的轻量级推理引擎，能将 Hugging Face 上的模型转换为 GGUF 格式，在 CPU、Apple Silicon 或 NVIDIA GPU 上运行。

硬件需求分为三种情况：纯 CPU、苹果电脑 Metal（Apple Silicon M 系列芯片），或带有 NVIDIA 显卡的电脑。软件栈主要围绕 llama.cpp 的编译环境。对于大多数 Linux 和 macOS 用户，系统自带的终端和包管理器即可。Windows 用户建议使用 WSL2（Windows Subsystem for Linux）。

注意：确保系统有基础的编译工具链。输入 gcc --version 或 clang --version 检查，若无则安装 build-essential（Ubuntu）或 xcode-select --install（macOS）。

2. 编译 llama.cpp：针对不同硬件的'定制化'构建

根据硬件环境编译生成最适合的可执行文件。

2.1 获取源代码与基础准备

bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

需要编译工具 make。Linux 通常自带，macOS 需安装 Xcode Command Line Tools。还需安装 cmake 和 pkg-config。

bash
# Ubuntu/Debian
sudo apt update && sudo apt install build-essential cmake pkg-config
# macOS (使用 Homebrew)
brew install cmake pkg-config

2.2 CPU 版本编译：最通用的起点

CPU 版本不依赖特殊图形 API，完全依靠中央处理器计算。

make

编译完成后运行 ./llama-cli -h 确认。对于无 GPU 机器或体验用途足够，但速度相对较慢。

2.3 Metal (Apple Silicon) 版本编译：榨干苹果芯片的性能

若使用搭载 M1、M2、M3 等 Apple Silicon 芯片的 Mac，Metal Performance Shaders (MPS) 允许计算任务直接跑在集成 GPU 上。编译时，我们需要显式地启用 Metal 支持。

llama.cpp 多环境部署指南：从 CPU 到 CUDA/Metal 的推理实践

1. 环境准备：从零开始的硬件与软件栈

2. 编译 llama.cpp：针对不同硬件的'定制化'构建

2.1 获取源代码与基础准备

2.2 CPU 版本编译：最通用的起点

2.3 Metal (Apple Silicon) 版本编译：榨干苹果芯片的性能

更多推荐文章

相关免费在线工具

llama.cpp 多环境部署指南：从 CPU 到 CUDA/Metal 的推理实践

1. 环境准备：从零开始的硬件与软件栈

2. 编译 llama.cpp：针对不同硬件的'定制化'构建

2.1 获取源代码与基础准备

2.2 CPU 版本编译：最通用的起点

2.3 Metal (Apple Silicon) 版本编译：榨干苹果芯片的性能

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具