【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

07 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

Vitis使用教程：从零实现AI模型FPGA部署

从零开始：用Vitis把AI模型部署到FPGA上，我走过的每一步都算数最近在做边缘AI推理项目时，被一个现实问题卡住了：GPU功耗太高，端侧跑不动；云端延迟又太大，实时性扛不住。于是我把目光转向了FPGA——这块曾经“难啃”的硬件，如今在 Vitis 的加持下，竟然也能像写软件一样开发AI加速器。今天我想和你分享的，不是一篇冷冰冰的技术文档，而是一次真实的、手把手带你从模型训练到板级验证的全过程实战记录。如果你也想让自己的PyTorch模型在KV260开发板上跑出上千FPS，同时保持极低功耗，那这篇文值得你完整读一遍。为什么是FPGA？为什么是Vitis？先说结论： FPGA + Vitis AI = 边缘智能场景下的“黄金组合” 传统印象里，FPGA开发等于Verilog、时序约束、逻辑综合……门槛高得吓人。但Xilinx（现AMD）推出的 Vitis统一平台彻底改变了这一点。它允许我们用C/C++甚至Python来描述算法，再通过高层次综合（HLS）自动生成硬件电路。更关键的是，

论文阅读|基于机器学习的生态组合塘强化城市污水处理厂脱氮优化

🌞欢迎来到论文阅读的世界 🌈博客主页：卿云阁 💌欢迎关注🎉点赞👍收藏⭐️留言📝 🌟本文由卿云阁原创！ 🌠本阶段属于练气阶段，希望各位仙友顺利完成突破 📆首发时间：🌹2025年12月28日🌹 ✉️希望可以和大家一起完成进阶之路！ 🙏作者水平很有限，如果发现错误，请留言轰炸哦！万分感谢！论文信息题目：Machine learning-based optimization of enhanced nitrogen removal in a full-scale urban wastewater treatment plant with ecological combination ponds。期刊：Water Research https://doi.org/10.1016/j.watres.2025.123976 论文内容

YOLO+OpenClaw+SAM微调实战：工业缺陷自动标注的低代码落地

YOLO+OpenClaw+SAM微调实战：工业缺陷自动标注的低代码落地不能实时，不代表不能用。微调SAM+云端部署，让工业标注从“人工描边”变“一键验收”。大家好，我是AI小怪兽。上周有位做PCB质检的读者发来一段视频：标注员正对着一块电路板缺陷图，用鼠标一点点勾勒划痕的边界，一张图花了8分钟。他说：“YOLO能框，但框不准；SAM能分割，但通用模型到我们产线就水土不服。有没有办法让标注员少点鼠标？” 当然有。今天我就结合工业缺陷检测场景，展示一套低代码落地路径：YOLO粗定位 + 微调SAM精分割 + OpenClaw自动调度，让标注员从“动手画”变成“动口验收”。一、工业自动标注的三道坎坎1：OpenClaw无法实时推理 OpenClaw从接收指令到调用模型返回结果，5秒以上是常态。产线上的产品不可能等5秒，但标注任务可以——把数千张图丢给AI，让它半夜慢慢跑，员工早上来验收结果，不香吗？坎2：边缘端算力要求大，且存在安全风险 OpenClaw调用大模型需要至少8GB显存，

2025最新如何在本地部署 Stable Diffusion3.5超详细完整教程

在本地部署 Stable Diffusion 3.5：让 AI 绘图更便捷前言随着人工智能的快速发展，图像生成技术日益成熟，Stable Diffusion 3.5 作为一款强大的 AI 绘图工具，广泛应用于设计师、创作者等人群的视觉内容生成。它能够通过文本提示生成高质量图像，且具备较高的可控性和细腻的生成效果。然而，默认情况下，Stable Diffusion 3.5 仅能在局域网内运行，远程操作或者出门时调整参数、查看进度会受到限制。在本文中，我们将通过本地部署的方式，帮助您克服这一限制，实现更加灵活的使用。提示：不同型号的 Stable Diffusion 对硬件要求有所不同。以 Large Turbo 版本为例，推荐配备至少 8GB 显存以保证流畅运行。文章目录在本地部署 Stable Diffusion