【教程】如何在WSL2:Ubuntu上部署llama.cpp

优质文章学习记录

09 Apr 2026 — 5 min read

WSL2:Ubuntu部署llama.cpp

llama.cpp 是一个完全由 C 与 C++ 编写的轻量级推理框架，支持在 CPU 或 GPU 上高效运行 Meta 的 LLaMA 等大语言模型（LLM），设计上尽可能减少外部依赖，能够轻松在多种后端与平台上运行。

安装llama.cpp

下面我们采用本地编译的方法在设备上安装llama.cpp

克隆`llama.cpp`仓库

在wsl中打开终端：

git clone https://github.com/ggml-org/llama.cpp cd llama.cpp

编译项目

编译项目前，先安装所需依赖项：

sudoapt update sudoaptinstall -y build-essential cmake git#llama.cpp的某些功能依赖libcurl#如llama-download 的自动下载模型sudoaptinstall -y libcurl4-openssl-dev #如果要使用python接口，还需要sudoaptinstall -y python3 python3-pip pip3 install numpy

CPU Backend

默认使用CPU版本编译

cmake -B build cmake --build build --config Release # cmake --build build --config Release -j 8 # -j 8 可加速编译过程，视你的 CPU 核心数而定

GPU Backend

如果你想使用GPU（推荐支持CUDA的NVIDA显卡），需要先安装CUDA Toolkit。由于WSL2默认不会自动识别WIndows主机上的CUDA Toolkit，因此需要特殊处理。

驱动版本 ≥ 465
从 NVIDIA 官网下载并安装最新版 CUDA Toolkit（但只需要驱动）。

重新编译带CUDA的llama.cpp

设置CUDA 环境变量

exportPATH=/usr/local/cuda/bin:$PATHexportLD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATHexportCUDACXX=/usr/local/cuda/bin/nvcc source ~/.bashrc

安装CUDA Toolkit的stub（轻量化开发头文件）虽然你已经有了 CUDA runtime（用于运行模型），但 llama.cpp 编译阶段还需要 C++ 头文件和 nvcc 编译器 —— 你需要在 WSL2 里补装开发包：

sudoapt update #这里直接安装了CUDA12的整个工具包sudoaptinstall -y cuda #验证 nvcc --version

在子系统中验证 GPU 是否可用在 WSL2 中运行：

nvidia-smi

如果成功看到你的 GPU 显示状态（如 RTX 3060、显存使用情况等），说明 CUDA 运行库已经桥接成功，可以继续。

在 Windows 主机 上确认：1）安装了支持 WSL 的 NVIDIA 驱动（必须是 DCH 驱动）：2）安装好 WSL CUDA Toolkit（可以只装驱动和运行库，不需要开发工具）。

 如何安装WSL CUDA Toolkit

i. 下载NVIDIA GeForce Game Ready（根据自己的GPU版本进行选择），下载网址:https://www.nvidia.com/Download/index.aspx ii. 移走原先的GPG key

sudo apt-key del 7fa2af80

iii. 下载CUDA Toolkit

$ wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin $ sudomv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/12.9.1/local_installers/cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudo dpkg -i cuda-repo-wsl-ubuntu-12-9-local_12.9.1-1_amd64.deb $ sudocp /var/cuda-repo-wsl-ubuntu-12-9-local/cuda-*-keyring.gpg /usr/share/keyrings/ $ sudoapt-get update $ sudoapt-get -y install cuda-toolkit-12-9

#如果你用CPU生成过编译文件，执行新的make指令时可能会报错#先使用 rm -rf build 把之前的清空rm -rf build cmake -B build -DGGML_CUDA=ON cmake --build build --config Release -j 8# -j 8 可加速编译过程，视你的 CPU 核心数而定# 其实重启电脑也可以达到一样的效果

从Hugging Face下载模型

选择合适的模型

进入网站查看 llama.cpp 支持的所有模型列表。

我们推荐首先尝试较为主流的 LLaMA 2、LLaMA 3、 Mistral、Qwen、ChatGLM 等系列模型。常见的 LLM 模型大小有 1B、7B、13B 等，一般来说，模型规模越大，生成的质量越好，但是运行时内存（推理时所需内存）也会随之增长。为避免频繁出现 OOM (Out of the memory) 的现象，我们推荐从较小的 LLM 开始调试。

注册Hugging Face账号后，可以添加自己的硬件设备信息，如下

之后Hugging Face会对你的硬件能力做出评估

此时再选择相应的模型，右侧Hardware Compatibility面板用于帮助用户根据自己设备的性能，选择合适的量化模型文件（GGUF 格式）

以第一行为例，Q4_K_M是模型的量化精度，数字越大精度越高，越接近原始模型，但也更占内存；2.5GB下载后模型文件所占空间，也是运行所需的最低内存估算

下载方法

1.使用Hugging Face下载

这里使用手动从 Hugging Face 官网下载的方法，打开你想下载的模型主页，如：
https://huggingface.co/Qwen/Qwen3-0.6B-GGUF

然后在 Files and versions 中找到对应的 .gguf文件下载并保存到你希望的目录即可。

2. 使用ModelScope下载

ModelScope 是阿里云提供的 AI 模型平台，也支持中文大模型。如果你无法访问 Hugging Face 或下载速度慢，推荐使用 ModelScope 下载

首先安装 ModelScope 所需库（推荐使用虚拟环境）：

pip install modelscope

然后运行以下 python 脚本

from modelscope import snapshot_download model_dir = snapshot_download('Qwen/Qwen3-0.6B-GGUF',#替换为你想要下载的模型名称，推荐下载 .gguf 格式的量化模型，适用于 llama.cpp cache_dir='./models/qwen-0.6b-gguf',#设置本地保存路径 revision='master',#可指定具体版本)print(f"Model saved at {model_dir}")

最后耐心等待即可。

Java 大视界 -- Java 大数据在智能家居环境监测与智能调节中的应用拓展（423）

Java 大视界 -- Java 大数据在智能家居环境监测与智能调节中的应用拓展（423） * 引言： * 快速上手指南：3 步跑通智能家居 Demo（新手友好） * Step 1：环境准备（必装软件清单） * Step 2：代码运行（按顺序执行） * Step 3：效果验证（用 Postman 模拟数据） * 正文： * 一、智能家居环境监测与调节的核心痛点 * 1.1 设备数据的 “异构化” 困境 * 1.1.1 多源数据的 “协议壁垒” * 1.1.2 数据规模的 “爆发式增长” * 1.2 实时调节的 “滞后性” 痛点 * 1.

飞书机器人插件开发：让HunyuanOCR自动识别群聊图片

飞书机器人插件开发：让HunyuanOCR自动识别群聊图片在企业协作越来越依赖即时通讯工具的今天，飞书早已不仅是聊天软件，而是组织内部信息流转、任务协同和知识沉淀的核心枢纽。然而一个长期被忽视的问题是：每天成千上万张在群聊中流转的图片——合同截图、发票照片、会议白板、产品原型图——它们所承载的关键信息，却像孤岛一样“沉睡”着。这些图像无法被搜索、难以归档、更无法参与自动化流程。要提取其中的文字内容，往往还得靠人工逐字抄录。效率低不说，还容易出错。有没有可能让系统自己“看懂”这些图片？答案是肯定的。随着多模态大模型的发展，OCR（光学字符识别）技术已经从传统的“检测+识别”两阶段流水线，进化为端到端的智能理解引擎。腾讯推出的 HunyuanOCR 正是这一趋势下的代表性成果：它基于混元大模型架构，仅用约10亿参数就实现了业界领先的识别精度，且支持复杂文档解析、字段抽取、多语言识别等全场景能力。更重要的是，这款模型可以部署在单卡4090D上，意味着中小企业也能低成本拥有自己的“视觉大脑”。如果再将它接入飞书机器人，就能实现这样一个理想场景：用户上传一张发票截图，

Java SpringBoot+Vue3+MyBatis Web宠物商城网站系统源码｜前后端分离+MySQL数据库

摘要随着互联网技术的快速发展，电子商务已成为人们日常生活中不可或缺的一部分。宠物行业作为新兴市场，近年来呈现出快速增长的趋势，宠物用品的线上购买需求显著提升。传统的宠物商店受限于地理位置和营业时间，难以满足消费者随时随地的购物需求。基于Web的宠物商城系统能够突破时空限制，为用户提供便捷的选购、支付和售后服务。此外，宠物商城系统还能通过数据分析优化库存管理和营销策略，提升商家的运营效率。该系统不仅满足了宠物爱好者的需求，也为宠物行业的数字化转型提供了技术支持。关键词：电子商务、宠物商城、Web系统、数字化转型、MySQL。本系统采用前后端分离架构，后端基于Java SpringBoot框架开发，提供稳定的RESTful API接口，确保系统的高效性和可扩展性。前端使用Vue3框架实现动态交互和响应式布局，提升用户体验。数据持久化层采用MyBatis框架，结合MySQL数据库存储和管理商品、订单及用户信息。系统主要功能包括用户注册与登录、商品分类展示、购物车管理、订单支付、评价反馈等。管理员模块支持商品管理、订单处理和数据统计分析。通过整合多种技术，系统实现了高性能、高安全性和良

苍穹外卖(前端)

前端环境搭建：技术选型：使用的前端技术栈：node.js、vue、ElementUI、axios、vuex、vue-router、typescript 代码结构：核心目录 / 文件：目录 / 文件说明apki封装 Ajax 请求的文件目录components公共组件存放目录views视图组件存放目录App.vue项目主组件、页面入口文件main.ts整个项目的入口文件router.ts路由配置文件环境准备：安装依赖包（生成 node_modules 目录）： npm install 启动前端项目（需同时启动后端 Java 服务）： npm run serve 员工管理：员工分页查询：需求分析和接口设计：代码开发：步骤一：制作页面头部 <div> <label> 员工姓名: