【教程】如何在WSL2:Ubuntu上部署llama.cpp

Ne0inhk

23 Mar 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

【C++初阶】：C++类和对象（上）:类的定义 & 类的实例化 & this指针

🎈主页传送门:良木生香 🔥个人专栏:《C语言》《数据结构-初阶》《程序设计》《鼠鼠的C++学习之路》 🌟人为善,福随未至,祸已远行;人为恶,祸虽未至,福已远离前言：我们为了更加高效的入门C++，特意花费了三篇文章的篇幅讲解C语言和C++的不同之处，以及C++针对C语言的不足做出了哪些改变，有命名空间、输入输出、缺省参数等等方面的内容，具体的文章链接我会放在本篇文章的最后，大家可以继续参考。有了前三这篇文章的铺垫，我们就可以正式入门C++了！那么我们就从最基础的“类和对象”开始学习。在“类和对象这一板块中，我将花费大约三篇文章的篇幅进行讲解，话不多说，直接进入今天的主题吧：类和对象（上）。目录一、类的定义 1.1、类定义格式 1.2、访问限定符 1.3、成员命名

【2024 Year-End Summary】C++自学分享

目录 [ C 语言 ] [ 数据结构 ] [ 算法 ] [ C++ ] [Linux] [Mysql] [Redis 文档学习] [Docker 云原生] [Git] [Qt] 转眼大学就过了一年半，希望自己可以保持学习₍₍Ϡ(੭•̀ω•́)੭✧⃛ 在刚上大一的时候用的是纸质笔记本，后来东西越学越多，就开始使用语雀文档，文章也有部分同步到 ZEEKLOG 上了，很高兴能够对大家有所帮助~ 博客之星的文章一直不知道写些什么，想着对专栏做一个整理叭下面的标题/网课名就是学习链接的传送门，自学的资料也都是免费的，开头就不多说了，学就好啦 [ C 语言 ] hh 这是多少小伙伴梦开始的地方网课： * 【浙江大学】C语言入门与进阶翁恺（全129讲）_哔哩哔哩_bilibili 书籍： * C Primer Plus * C

【Linux系统】C/C++的调试器gdb/cgdb，从入门到精通

各位读者大佬好，我是落羽！一个坚持不断学习进步的学生。如果您觉得我的文章还不错，欢迎多多互三分享交流，一起学习进步！也欢迎关注我的blog主页:落羽的落羽文章目录 * 一、调试前的预备知识 * 二、gdb/cgdb的使用 * 1. 启动，查看代码 * 2. 基础调试命令 * 3. 监视变量相关命令 * 4. 设置条件断点一、调试前的预备知识程序发布的方式有两种，debug模式和release模式。 * debug模式：生成的可执行程序中会包含程序的调试信息，便于程序员进行调试代码。 * release模式：会剥离或不生成这些调试信息。这使得文件更小，但也意味着调试器几乎无法工作，release版本程序无法进行调试。 Linux的gcc/g++，按照我们之前的写法gcc -o $@ $^，默认生成的是release版本的程序，是无法进行调试的。要在命令后加-g选项，指定以debug方式发布，debug模式下的程序我们才能进行调试。 gcc -o $@ $^ -g 二、gdb/cgdb的使用

C++ 拷贝构造函数与赋值运算符：深拷贝与浅拷贝的核心辨析

C++ 拷贝构造函数与赋值运算符：深拷贝与浅拷贝的核心辨析 💡 学习目标：掌握拷贝构造函数与赋值运算符的定义及调用场景，理解深拷贝与浅拷贝的本质区别，能够在实际开发中避免内存泄漏与野指针问题。 💡 学习重点：拷贝构造函数的触发条件、浅拷贝的缺陷、深拷贝的实现方法、赋值运算符的重载原则。一、拷贝构造函数的概念与触发场景 ✅ 结论：拷贝构造函数是一种特殊的构造函数，用于通过一个已存在的对象创建一个新对象，其参数必须是本类对象的常量引用（const 类名&）。 1.1 拷贝构造函数的语法格式 class 类名 {public:// 普通构造函数类名(参数列表);// 拷贝构造函数类名(const 类名& other);}; ⚠️ 注意事项： 1. 拷贝构造函数的参数必须是常量引用，使用 const 防止实参被修改，使用引用避免无限递归调用拷贝构造函数。 2. 如果没有手动定义拷贝构造函数，编译器会自动生成一个默认拷贝构造函数，实现简单的成员变量值拷贝。 1.2 拷贝构造函数的触发条件