使用LLama.cpp本地部署大模型

优质文章学习记录

07 Apr 2026 — 5 min read

摘要

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动，核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤，包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

1. llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具

2.支持跨平台部署，也支持使用 Docker 快速启动

3.可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行。

支持模型包含：llama系列，qwen系列，gemma系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

4.开源地址参考：https://github.com/ggml-org/llama.cpp

5.支持模型格式：GUFF（llama提供了转换成GUFF格式的工具）

6.纯C/C++实现，没有任何依赖

7.对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

10.支持Vulkan和SYCL后端

11.CPU+GPU混合推理，可部分加速大于总VRAM容量的模型

12.工作流程图：

大模型下载

本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

1.huggingface官网官网下载，https://huggingface.co/models

2.modelscope（魔塔）下载

登录huggingface需要科学上网，所以这里选择modelscope下载。

第一，需要安装python，这个是基础，如果不会的话自己去搜索；

第二，安装modelscope，打开CMD命令行，输入pip install modelscope；

第三，在命令行中输入：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加--local_dir参数是为了指定到的地址。

下面是我的命令行：

通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体怎么操作可以去查看modelscope中的文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

llama.cpp有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址：

llama.cpp编译版本下载连接

运行大模型Llama-cli

使用llama-cli运行指定的大模型

这是运行成功后的界面：

然后就可以直接在上面输入信息与大模型对话了：

编译llama.cpp源码

需要的环境如下：

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码（也可以使用git下载），https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录：

先运行：cmake -B build

如果没有安装CURL，会出现如下提示：

禁用CURL即可，即使用下面的命令：

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告，不用管。

然后再运行：cmake --build build --config Release

大概10分钟左右，编译好的dll和可执行文件就好了，基本不会出现其他问题。

后记

如果大模型太大，导入时可能会提示缓存不够，那就换个小点的模型。

Ubuntu 25.04私有大模型部署实战：Ollama+DeepSeek+OpenWebUI完全指南

Ubuntu 25.04私有大模型部署实战：Ollama+DeepSeek+OpenWebUI完全指南作为一名技术爱好者，我对本地部署大型语言模型充满热情。在Ubuntu 25.04上搭建完整的私有AI环境（Ollama + DeepSeek + OpenWebUI）让我收获颇丰，也踩过不少坑。本文将分享零基础搭建流程、性能调优技巧和实用问题解决方案，助你快速拥有专属AI助手。前置环境准备推荐使用Ubuntu 25.04 Server版（最小化安装），配置要求： * CPU：4核及以上（建议Intel i7+/Ryzen 5+） * 内存：32GB以上（运行32B模型需要） * 显卡：NVIDIA RTX 3060 12GB+（显存越大越好） * 存储：至少100GB SSD空间系统优化建议： # 禁用自动更新降低系统中断几率sudosed-i's/Update-Package-Lists "

【GitHub周榜】WrenAI：开源SQL AI代理，让Text-to-SQL轻松实现，开启自然语言与数据交互新时代

系列篇章💥 No.文章1【GitHub周榜】OpenHands：AI赋能，软件开发效率狂飙10倍2【GitHub周榜】Agno：快速构建多模态智能体的轻量级框架，开发提速 10000 倍3【GitHub周榜】WrenAI：开源SQL AI代理，让Text-to-SQL轻松实现，开启自然语言与数据交互新时代目录 * 系列篇章💥 * 前言 * 一、项目概述 * 二、主要功能 * 1、多语言自然对话 * 2、智能数据探索 * 3、语义索引系统 * 4、上下文 SQL 生成 * 5、无代码数据分析 * 6、AI 驱动可视化 * 7、数据导出集成 * 8、安全性保障 * 三、技术原理 * 四、应用场景 * 1、

Promptfoo：AI提示词测试与安全演练神器（以智普GLM为例）

1.认识Promptfoo 这是一款专门为LLM应用设计的测试和红队演练框架，目的是帮助开发者自动化评估提示词以及模型的表现。使用 promptfoo，可以批量测试成百上千个测试用例，快速发现模型在安全性、隐私政策、指令遵循方面存在的问题。 2.Promptfoo的核心功能 1. 多模型对比：支持OpenAI、Anthropic、Google、百度千帆等主流模型，也支持自定义API或者本地Python脚本，便于横向对比不同模型对相同提示词的响应； 2. 自动化测试与断言：可以定义大量测试用例，通过 assert 规则（包含特定词语、符合某种格式、通过LLM评判）自动验证输出是否符合预期； 3. 红队安全演练：内置了五十多种漏洞测试插件（越狱、提示注入、有害内容生成），可以模拟攻击者手法，自动生成对抗性输入来检测系统的安全边界； 4. 可视化：测试结果可以通过命令行查看，也可以启动 Web UI 来分析。 3.安装Promptfoo （1）Promptfoo 是基于

如何在 Ubuntu 上安装 OpenClaw (AI 龙虾)

如何在 Ubuntu 上安装 OpenClaw (AI 龙虾) OpenClaw 近期备受关注，它是一个能够进行对话、浏览网页和管理文件的 AI 助手。以下是在 Ubuntu 系统上安装 OpenClaw 的步骤，帮助用户避免常见问题，快速完成安装。 1. 准备工作：设置环境 OpenClaw 基于 Node.js。建议 Ubuntu 用户安装最新的 Node.js v22 以确保稳定性。 # 更新系统 sudo apt update && sudo apt upgrade -y sudo apt install -y curl git # 安装

摘要