【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

09 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

AIGC工具平台-Edict 三省六部制 OpenClaw 集成封装版

Edict 是基于开源项目 cft0808/edict 二次开发后，集成到 tarui 工具箱中的功能模块。通过封装，用户无需直接接触源码，也不必手动处理复杂的部署和启动流程，即可在本地完成程序获取、服务启动和页面访问，整体使用门槛更低。本文将围绕该封装版本的实际使用方式展开，重点说明程序获取、本地启动、WebUI 访问和常见问题处理，帮助使用者快速完成上手并理解标准使用流程。目前已整理为一组连续教程，分别对应部署启动、使用实战、二开扩展和封装版本使用四个方向。若希望完整了解该项目的源码运行方式、实际操作流程以及封装版本的使用方法，建议结合以下文章按需阅读。文章说明【OpenClaw】Edict 三省六部制部署与启动介绍 Edict 三省六部制的基础部署方式、运行环境准备和启动流程【OpenClaw】Edict 三省六部制使用与实战流程介绍系统启动后的主要使用方式、核心流程和实战操作思路【OpenClaw】Edict 三省六部制二开与扩展介绍项目在源码层面的二次开发、扩展思路和能力接入方式AIGC工具平台-Edict 三省六部制 OpenClaw 集成封装版介绍封装后的

【文心智能体】使用文心一言来给智能体设计一段稳定调用工作流的提示词

🌹欢迎来到《小5讲堂》🌹 🌹这是《文心智能体》系列文章，每篇文章将以博主理解的角度展开讲解。🌹 🌹温馨提示：博主能力有限，理解水平有限，若有不对之处望指正！🌹 目录 * 前言 * 智能体信息 * 名称 * 简介 * 人设 * 开场白 * 工作流 * 消息节点 * 文本处理节点 * 插件节点 * 图片消息节点 * 输出效果 * 小技巧 * 一、结构化框架设计 * 1. **角色定位+任务拆解** * 2. **四要素公式法** * 二、多轮对话优化 * 1. **分步骤引导** * 2. **示例参考法** * 三、细节强化技巧 * 1. **输出格式标准化** * 2. **专业术语与风格** * 四、避免常见误区 * 1. **模糊需求导致输出偏差** * 2. **过度复杂导致理解困难** * 相关文章

2026年各大高校AIGC检测政策汇总（持续更新）

2026年各大高校AIGC检测政策汇总（持续更新） 2026年毕业季正式来临，AIGC检测已经不再是"可能会查"，而是"一定会查"。从去年下半年到现在，全国高校密集出台了一系列针对论文AI生成内容的检测政策。本文将为大家做一个尽可能全面的汇总，方便同学们快速了解自己学校的要求，提前做好准备。本文持续更新，建议收藏。 2026年高校AIGC检测的整体趋势在详细列出各高校政策之前，先给大家概括一下今年的整体形势：三大核心变化 1. 检测范围全覆盖：不再只是抽检，而是全部论文必查AIGC 2. 检测标准趋严：AI率阈值从去年普遍的30%收紧到20%甚至10% 3. 处罚力度加大：从"修改后重新提交"升级到"延期答辩"甚至"取消答辩资格" 主要检测平台分布 * 知网AIGC检测系统：覆盖约60%的985/211高校

Llama.cpp 全实战指南：跨平台部署本地大模型的零门槛方案

【个人主页：玄同765】大语言模型（LLM）开发工程师｜中国传媒大学·数字媒体技术（智能交互与游戏设计）深耕领域：大语言模型开发 / RAG知识库 / AI Agent落地 / 模型微调技术栈：Python / LangChain/RAG（Dify+Redis+Milvus）| SQL/NumPy | FastAPI+Docker ️ 工程能力：专注模型工程化部署、知识库构建与优化，擅长全流程解决方案「让AI交互更智能，让技术落地更高效」欢迎技术探讨/项目合作！关注我，解锁大模型与智能交互的无限可能！摘要本文全面解析轻量级大模型推理框架 Llama.cpp，详细讲解其在 Windows（Winget）、Linux、macOS 三大平台的安装步骤，针对新手优化了模型获取、文件整理、可视化部署的全流程，涵盖命令行交互、OpenAI