【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

06 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

【机器人】具身导航 VLN 最新论文汇总 | Vision-and-Language Navigation

本文汇总了具身导航的论文，供大家参考学习，涵盖2026、2025、2024、2023等覆盖的会议和期刊：CVPR、IROS、ICRA、RSS、arXiv等等论文和方法会持续更新的～一、🏠 中文标题版 2026 ✨ * [2026] SeqWalker：基于分层规划的时序视野视觉语言导航方法 [ 论文 ] [ GitHub ] * [2026] UrbanNav：从网络规模人类轨迹中学习语言引导的城市导航方法 [ 论文 ] [ GitHub ] * [2026] VLN-MME：面向语言引导视觉导航智能体的多模态大语言模型诊断基准 [ 论文 ] [ GitHub ] * [2026] ASCENT: 实现楼层感知的零样本物体目标导航 [ 论文] [ GitHub ] 2025 😆 * [2025] ETP-R1：面向连续环境VLN的进化拓扑规划与强化微调方法 [ 论文 ] [ GitHub ] * [2025] NaviTrace：评估视觉语言模型在真实世界场景中的导航能力 [ 论文 ] [ GitHub ] * [2025]

【大模型教程——第二部分：Transformer架构揭秘】第1章：Transformer核心揭秘 (The Transformer Architecture)【上】

第1章：Transformer核心揭秘 (The Transformer Architecture) “Attention is all you need.” - Vaswani et al., 2017 重要提示：本章是全书中唯一详细讲解Transformer架构的章节。后续章节将直接引用本章内容，不再重复讲解核心机制。本章将带你深入Transformer的每一个核心组件，从数学原理到代码实现，从直觉理解到工程优化。掌握了这些，你就掌握了现代大语言模型的基石。目录 * 一、宏观蓝图：编码器-解码器架构 * 原始Transformer：翻译机器的设计 * 1. 编码器（Encoder）：理解输入 * 2. 解码器（Decoder）：生成输出 * 3. 信息流动：编码器到解码器 * 现代简化：为何只用编码器或解码器？ * 二、核心组件一：自注意力机制（Self-Attention） * 1. 为什么需要自注意力？从一个问题开始

【Project Aria】Meta新一代的AR眼镜及其数据集

Project Aria 新一代以自我为中心的数据集 Aria Docs datasets projectaria_tools 类别英文描述中文翻译数据集概述Aria’s original Pilot Dataset provided computer vision researchers access to anonymized Aria sequences, captured in a variety of scenarios, such as cooking, playing games, or exercising. In ‘Aria Everyday Activities (AEA)’, we have updated the original dataset to make it easier

Microi 吾码：低代码解锁服务器虚拟化的无限潜能

目录一、服务器虚拟化的时代浪潮与核心意义二、Microi 吾码在服务器虚拟化资源管理中的卓越表现虚拟机资源分配与监控的智能掌控资源调度与优化的精妙策略三、Microi 吾码助力服务器虚拟化的网络配置与优化虚拟网络架构的灵活构建网络流量优化与安全保障的双重守护四、Microi 吾码在服务器虚拟化高可用性与容错机制中的关键作用虚拟机备份与恢复的可靠保障故障转移与容错技术的智能应对五、Microi 吾码与不同服务器虚拟化平台的无缝集成与主流虚拟化平台的深度对接跨平台管理与资源整合的独特优势六、总结一、服务器虚拟化的时代浪潮与核心意义在当今数字化转型加速的时代背景下，服务器虚拟化技术已成为信息技术领域的关键驱动力之一。服务器虚拟化旨在通过软件技术将一台物理服务器划分为多个相互隔离且独立运行的虚拟服务器环境，也就是虚拟机（VM）。这一创新技术带来了诸多显著优势，如显著提高服务器资源利用率，使得企业能够在有限的硬件资源基础上运行更多的应用程序和服务；大幅降低硬件采购成本与数据中心能源消耗，为企业节省大量资金并助力环保事业；同时，