【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

06 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

我把OpenClaw调教成了能替我干活的AI员工，以后上班可以摸鱼了！

手把手教你一键部署OpenClaw（Clawdbot），2分钟搞定！网上教你装OpenClaw（小龙虾）的文章满大街都是，但装好后怎么让它真正派上用场，几乎没人讲透。这半个月我为了折腾搜索、浏览器、文件同步和人格配置，前前后后烧掉不少钱，最后理出了这份实战清单。文章挺长，建议把配置方法直接丢给你家的AI，让它手把手带你弄。动手之前，咱们先得换个思路：别把小龙虾当成ChatGPT那种助手，把它想成你刚招的一个远程员工。既然是员工，你就得给人家配电脑、开网络、装工具，还得讲清楚你是谁、你平时干活的习惯是什么。下面分享的，就是我给这位“远程同事”搭工位的全过程。手把手教你一键部署OpenClaw（Clawdbot），2分钟搞定！一、准备工作：电脑、大脑、部署 1、搞台云服务器首先，小龙虾得有个安身立命的电脑。虽然很多人喜欢部署在Mac mini或者闲置本子上，但我更建议买云服务器。服务器24小时不关机，你随时随地都能用，不像家里的电脑关了就断了。这里有两个坑得避开：第一，

AI大模型应用开发：从入门到精通！2026版体系化学习路线_2026年AI大模型应用开发保姆级教程

摘要：随着ChatGPT、文心一言、通义千问等大模型的爆发，掌握AI大模型应用开发已成为开发者进阶、获取高薪的黄金技能！本文由深耕AI领域的ZEEKLOG专家撰写，为你梳理一条清晰、高效、可落地的学习路线，涵盖必备基础、核心理论、关键技术、工具链、项目实战全流程，助你从“小白”快速成长为能独立开发AI应用的高手！文末附赠精选学习资源清单！ 📌 一、为什么学习AI大模型应用开发？ * 时代风口： AI大模型是当前科技革命的核心驱动力，重塑各行各业（办公、教育、医疗、金融、娱乐等），人才缺口巨大，薪资水平水涨船高。 * 降本增效：利用大模型强大的生成、理解、推理能力，可以自动化大量重复性工作，大幅提升开发效率和产品智能化水平。 * 创新机遇：大模型为开发者提供了前所未有的能力基石，催生无数创新应用场景（智能助手、个性化推荐、代码生成、内容创作、智能客服等）。 * 开发者必备技能：未来，理解和应用大模型将成为开发者的一项基础能力，如同现在的Web开发或移动开发。 🧭 二、

$19.99 订阅值不值？Google AI Pro 全面评测以及订阅会员权益功能解析详情

从单一工具到代理生态：Google AI Pro 深度评测报告写在前面：2025 年 11 月，这注定是 AI 发展史上的一个分水岭。当我们将目光聚焦在 Google 刚刚完成的消费者订阅服务重组时，会发现原来的 “Google One AI Premium” 已成历史，取而代之的是层级更分明、野心更大的 Google AI Pro 与 Google AI Ultra。这不只是改个名字那么简单。这代表了 Google 战略重心的根本性位移：从卖“聊天机器人”的访问权，转向构建一个由“智能代理（Agents）”驱动的生产力生态。本文将为你剥开营销术语的外衣，对 Google AI Pro（$19.99/月）

OpenClaw+优云智算Coding Plan：从灵感到成文，再到公众号发布的全流程AI自动化

1. 背景在自媒体运营、技术分享和日常内容创作中，许多从业者面临碎片化、低效率和重复劳动的问题。从灵感闪现到文章发布，整个过程涉及多个步骤如构思、撰写、排版及上传等，需要频繁切换工具与手动调整格式，耗时费力且容易出错。目前市面上的AI工具大多只能解决特定环节的问题，无法覆盖整个创作流程；而专业自动化平台要么操作复杂，要么成本高昂，难以普及使用。为此，我使用OpenClaw开源AI智能体（龙虾）和优云智算Coding Plan大模型服务搭建了一个流水线。通过OpenClaw的任务管理和工具调用能力，加上优云智算提供的稳定低价算力支持，实现了“灵感输入→文案生成→内容优化→公众号发布”的端到端全流程自动化，极大提高了效率，让创作者能够更加专注于创意本身。 2. AI大模型配置优云智算Coding Plan是聚合了OpenAI、Claude、DeepSeek、智谱GLM、MiniMax等全球主流大模型的订阅式算力服务，兼容OpenAI API协议，支持Claude Code/Codex/OpenClaw等AI工具，能完美对接OpenClaw，为内容创作提供稳定的AI生成能力，本