使用LLama.cpp本地部署大模型

优质文章学习记录

10 Apr 2026 — 5 min read

摘要

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动，核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤，包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

1. llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具

2.支持跨平台部署，也支持使用 Docker 快速启动

3.可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行。

支持模型包含：llama系列，qwen系列，gemma系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

4.开源地址参考：https://github.com/ggml-org/llama.cpp

5.支持模型格式：GUFF（llama提供了转换成GUFF格式的工具）

6.纯C/C++实现，没有任何依赖

7.对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

10.支持Vulkan和SYCL后端

11.CPU+GPU混合推理，可部分加速大于总VRAM容量的模型

12.工作流程图：

大模型下载

本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

1.huggingface官网官网下载，https://huggingface.co/models

2.modelscope（魔塔）下载

登录huggingface需要科学上网，所以这里选择modelscope下载。

第一，需要安装python，这个是基础，如果不会的话自己去搜索；

第二，安装modelscope，打开CMD命令行，输入pip install modelscope；

第三，在命令行中输入：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加--local_dir参数是为了指定到的地址。

下面是我的命令行：

通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体怎么操作可以去查看modelscope中的文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

llama.cpp有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址：

llama.cpp编译版本下载连接

运行大模型Llama-cli

使用llama-cli运行指定的大模型

这是运行成功后的界面：

然后就可以直接在上面输入信息与大模型对话了：

编译llama.cpp源码

需要的环境如下：

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码（也可以使用git下载），https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录：

先运行：cmake -B build

如果没有安装CURL，会出现如下提示：

禁用CURL即可，即使用下面的命令：

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告，不用管。

然后再运行：cmake --build build --config Release

大概10分钟左右，编译好的dll和可执行文件就好了，基本不会出现其他问题。

后记

如果大模型太大，导入时可能会提示缓存不够，那就换个小点的模型。

【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

论文信息论文标题： Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025 论文作者： Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU 论文链接：http://arxiv.org/abs/2505.15753 关键词： LLM Safety, Jailbreaking, RAG 研究背景尽管大语言模型（LLMs）经过了人类反馈强化学习（RLHF）等安全对齐技术处理，但仍易受到“越狱攻击”（Jailbreaking Attacks）的威胁，即通过精心设计的提示词诱导模型产生有害输出。

基于改进YOLOv11n的无人机红外目标检测算法

导读：面向无人机红外图像中目标尺度小、对比度低与边界模糊等问题，本文提出了一种基于YOLOv11n模型的多尺度注意力机制优化方法。首先，在引入小目标检测层的基础上，融合多分支与双向金字塔思想构建双向多分支辅助特征金字塔网络，通过可学习权重自适应融合各层特征，增强微小目标表征。其次，在检测头侧采用动态注意力检测头，从尺度、空间与通道三方面进行协同建模，提升关键区域聚焦与特征利用效率。最后，提出NWD-Inner-MPDIoU组合损失函数，协同提升低重叠、边界不清条件下的定位稳定性。在HIT-UAV红外小目标数据集上进行系统实验评估，结果表明：所提方法mAP50达92.8%，相比基线模型提升2.2%，且召回率与准确率分别提高1.6%和0.6%。同时，模型仅小幅增加复杂度，整体仍保持轻量化与可部署性。综上，本文方法在保证效率的同时有效提升了无人机红外目标的检测质量，为后续扩展研究提供了可靠的技术基础。作者信息：康泽韬, 董智红*, 王孜心：北京印刷学院信息工程学院，北京论文详情 YOLOv11n的网络架构如图1所示，由骨干网络、颈部网络、检测头三部分组成。针对红

YOLOv12官版镜像在农业无人机上的落地实践

YOLOv12官版镜像在农业无人机上的落地实践在华北平原某万亩智慧农场的春播季，一架搭载轻量边缘计算单元的四旋翼无人机正以3米/秒的速度低空巡航。镜头掠过刚覆膜的玉米田，系统在0.8毫秒内完成单帧推理——不仅精准框出杂草簇（准确率94.7%），还同步识别出三处早期玉米螟幼虫啃食痕迹，并自动标记坐标发送至农机调度平台。这不是实验室Demo，而是YOLOv12官版镜像在真实农业场景中稳定运行的日常。当目标检测技术从工业质检、城市安防走向广袤农田，对模型的要求悄然改变：它必须在Jetson Orin Nano的8GB显存限制下保持30+ FPS，能区分叶片背面的微小虫卵与露珠反光，还要在连续6小时飞行中不因温度升高导致精度衰减。正是这些严苛条件，让YOLOv12——这个以注意力机制重构实时检测范式的全新架构——展现出前所未有的农业适配性。 1. 为什么农业场景需要YOLOv12？传统方案的三大断点农业视觉应用长期困于“三难”：小目标难检、边缘难跑、环境难稳。我们梳理了过去两年在12个省级农技推广中心的实地反馈，发现现有方案存在三个结构性断点： 1.1 小目标识别失效：5像素

2026 年最值得关注的开源低代码 / 零代码平台推荐

无论是零代码小白还是资深开发者，都能在这些平台上找到适合自己的解决方案。今天，我们就来盘点一下 2026 年最值得关注的开源低代码 / 零代码平台，帮助您找到最适合的工具。一、敲敲云 - 永久免费开源零代码平台 2026 年 1 月 12 日，敲敲云全新版本 v2.3.0 正式发布！这一版本最大的亮点是正式宣布永久免费开放，彻底打破了传统零代码平台的用户数、应用数、表单数等多重限制，实现真正的零门槛、零成本使用。敲敲云专注于为企业快速构建应用和工作流，是一款强大且易用的零代码平台。用户无需编写任何代码，即可通过丰富的组件库轻松创建各类应用，真正做到了 "人人都是开发者"。产品特点： * 免费零代码使用，快速上手，无需开发背景 * 丰富的组件库和模板，满足多样化应用需求 * 可视化流程设计器，支持拖放式工作流设计 * 强大的工作流引擎，支持复杂流程逻辑与条件判断 * 优秀的团队协作功能，支持资源共享和协同开发 * 数据收集能力强，

摘要