【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

05 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

AI Agent 辅助工具体验 --- Superpowers 使用介绍及原理分析

Superpowers：面向编码 Agent 的技能框架与工作流 Superpowers 是一个基于**可组合技能（skills）**的 Agent 软件开发方法论与工作流框架，适用于 Claude Code、Cursor、Codex、OpenCode 等编码 Agent，强调「先澄清再实现」、测试驱动与子 Agent 协同。核心思路 * 不急于写代码：启动后先通过对话澄清目标，从对话中提炼出可评审的规格（spec），按小块呈现设计供确认。 * 规格驱动实现：在获得设计认可后，生成足够具体、可执行的实现计划（含文件路径、代码意图、验证步骤），再由子 Agent 按计划执行并做两阶段审查（先看是否符合规格，再看代码质量）。 * 技能自动触发：技能在适当时机自动激活，无需额外指令，即可让 Agent 按既定流程工作。典型工作流（节选）

人工智能（AI）常见面试题及答案汇总（2025最新版）

一、AI基础概念与核心原理 1. 人工智能、机器学习、深度学习的关系？答案：三者是包含与被包含的关系，核心聚焦“让机器具备智能”的不同实现层次： * 人工智能（AI）：广义是让机器模拟人类智能（如推理、学习、决策）的技术总称，涵盖机器学习、深度学习、专家系统、强化学习等多个分支，目标是解决“智能行为”问题； * 机器学习（ML）：AI的核心分支，是实现AI的一种手段，指机器通过数据学习规律（无需显式编程），并利用规律预测或决策。核心是“从数据中自动学习模型”，不依赖手动设计规则（如传统编程）； * 深度学习（DL）：机器学习的子集，以深度神经网络（DNN）为核心，通过多层网络结构自动提取数据的层级特征（从底层像素/字符到高层语义），擅长处理海量高维数据（如图像、语音、文本）。关系图示：

人工智能：多模态大模型原理与跨模态应用实战

人工智能：多模态大模型原理与跨模态应用实战 1.1 本章学习目标与重点 💡 学习目标：掌握多模态大模型的核心原理、跨模态特征融合方法，以及基于多模态模型的图文生成与理解任务实战流程。 💡 学习重点：理解多模态模型的架构设计，学会使用 Hugging Face 生态工具调用 CLIP 与 BLIP-2 模型，完成图文检索与图像描述生成任务。 1.2 多模态大模型的核心概念与发展背景 1.2.1 什么是多模态大模型 💡 多模态大模型是指能够同时处理文本、图像、音频、视频等多种不同类型数据的人工智能模型。它打破了传统单模态模型的信息壁垒，实现了跨模态的理解与生成。多模态大模型的核心能力体现在两个方面： * 跨模态理解：实现不同模态数据之间的关联分析，例如根据文本描述查找对应图像、根据图像内容生成文字摘要。 * 跨模态生成：以一种模态数据为输入，生成另一种模态的数据，例如文本生成图像、图像生成文本、语音生成视频等。与单模态大模型相比，多模态大模型更贴近人类的认知方式。人类在认识世界的过程中，本身就是通过视觉、听觉、语言等多种感官渠道接收和处理信息的。

Flutter 组件 tavily_dart 的适配鸿蒙Harmony 实战 - 驾驭 AI 搜索引擎集成、实现鸿蒙端互联网知识精密获取与语义增强方案

欢迎加入开源鸿蒙跨平台社区：https://openharmonycrossplatform.ZEEKLOG.net Flutter 组件 tavily_dart 的适配鸿蒙Harmony 实战 - 驾驭 AI 搜索引擎集成、实现鸿蒙端互联网知识精密获取与语义增强方案前言在鸿蒙（OpenHarmony）生态的智能个人助理、行业垂直类知识中枢以及需要实时获取互联网最新动态并进行 AI 语义加工的各种前沿应用开发中，“信息的有效检索与精准抽取”是决定 AI 应用是否具备“生命感”的关键泵口。面对浩如烟海且充满噪声的互联网网页。如果仅仅依靠传统的关键词匹配。那么不仅会导致应用返回大量无关紧要的垃圾信息。更会因为无法将网页内容转化为 AI 易于理解的结构化上下文（Context），引发严重的 LLM（大语言模型）幻觉风险。我们需要一种“AI 驱动、语义过滤”的搜索艺术。 tavily_dart 是一套专为 AI