使用LLama.cpp本地部署大模型

优质文章学习记录

07 Apr 2026 — 5 min read

摘要

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动，核心功能是在有限的计算资源情况下本地部署使用大模型。本文介绍了通过Docker方式部署llama.cpp的步骤，包括如何下载模型、CPU/GPU配置及启动参数说明。llama.cpp提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

LLama.cpp简介

1. llama.cpp 是一个在 C/C++ 中实现大型语言模型（LLM）推理的工具

2.支持跨平台部署，也支持使用 Docker 快速启动

3.可以运行多种量化模型，对电脑要求不高，CPU/GPU设备均可流畅运行。

支持模型包含：llama系列，qwen系列，gemma系列，Falcon、Alpaca、GPT4All、Chinese LLaMA、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion、Metharme、WizardLM、Baichuan、Aquila、Starcoder、Mistral AI、Refact、Persimmon、MPT、Bloom、StableLM-3b-4e1t等。

4.开源地址参考：https://github.com/ggml-org/llama.cpp

5.支持模型格式：GUFF（llama提供了转换成GUFF格式的工具）

6.纯C/C++实现，没有任何依赖

7.对Apple Silicon（如M1/M2/M3芯片）提供一流支持 - 通过ARM NEON、Accelerate和Metal框架优化

8.支持x86架构的AVX、AVX2、AVX512和AMX指令集

9.支持1.5位、2位、3位、4位、5位、6位和8位整数量化，实现更快的推理和更低的内存使用

为NVIDIA GPU提供自定义CUDA内核（通过HIP支持AMD GPU，通过MUSA支持摩尔线程MTT GPU）

10.支持Vulkan和SYCL后端

11.CPU+GPU混合推理，可部分加速大于总VRAM容量的模型

12.工作流程图：

大模型下载

本文以Qwen3-VL-8B-Instruct-GGUF为列演示如何下载大模型。

1.huggingface官网官网下载，https://huggingface.co/models

2.modelscope（魔塔）下载

登录huggingface需要科学上网，所以这里选择modelscope下载。

第一，需要安装python，这个是基础，如果不会的话自己去搜索；

第二，安装modelscope，打开CMD命令行，输入pip install modelscope；

第三，在命令行中输入：

modelscope download --model Qwen/Qwen3-VL-8B-Instruct-GGUF --local_dir qwen

加--local_dir参数是为了指定到的地址。

下面是我的命令行：

通过以上命令可以将Qwen3-VL-8B-Instruct-GGUF中的所有文件下载到d:/llm-models/qwen文件夹中，等待下载完成即可。如果只是下载部分文件也可以自己指定，具体怎么操作可以去查看modelscope中的文档说明：Qwen3-VL-8B-Instruct-GGUF · 模型库

下载llama.cpp

llama.cpp有已经编译好的可直接执行的程序，如果仅仅是部署使用，可直接下载对应版本，下载地址：

llama.cpp编译版本下载连接

运行大模型Llama-cli

使用llama-cli运行指定的大模型

这是运行成功后的界面：

然后就可以直接在上面输入信息与大模型对话了：

编译llama.cpp源码

需要的环境如下：

1.下载cmake,Download CMake

2.带有 "使用 C++ 的桌面开发" 工作负载的 Visual Studio Community Edition

3.下载llama.cpp源码（也可以使用git下载），https://github.com/ggerganov/llama.cpp

使用cmd进入llama.cpp的源码目录：

先运行：cmake -B build

如果没有安装CURL，会出现如下提示：

禁用CURL即可，即使用下面的命令：

cmake -B build -DLLAMA_CURL=OFF

会出现如下的警告，不用管。

然后再运行：cmake --build build --config Release

大概10分钟左右，编译好的dll和可执行文件就好了，基本不会出现其他问题。

后记

如果大模型太大，导入时可能会提示缓存不够，那就换个小点的模型。

【AI 风向标】一文讲清：大模型的上下文窗口 200k 到底指的是什么？

本文原创作者：姚瑞南 AI-agent 大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）目录一、先给结论二、什么是 Token？（通俗版）三、Token ≈ 多大文本？给你一个直觉四、为什么不是“文件大小”？五、200k / 1M 上下文窗口意味着什么？六、常见支持上下文 Token 的模型（示例）七、一个非常重要但常被忽略的点最近经常看到宣传说： “上下文窗口突破 200k，甚至 1M” 很多人第一反应是： 👉 这是字符数？文件大小？还是几百 MB 的文档？答案其实很简单，但也最容易被误解。一、先给结论

在魔乐社区使用llama-factory微调Qwen3.5-4B模型

微调前期准备下载qwen3.5-4B模型 # 首先保证已安装git-lfs（https://git-lfs.com）git lfs installgit clone https://modelers.cn/Qwen-AI/Qwen3.5-4B.git 下载Llama-factory git clone --depth1 https://gh.llkk.cc/https://github.com/hiyouga/LlamaFactory.git 微调环境搭建我们依然是搭建一个miniconda #清除当前shell会话中的PYTHONPATH环境变量unset PYTHONPATH # 安装minicondawget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-aarch64.sh bash Miniconda3-latest-Linux-aarch64.sh conda config --set

Whisper JAX时间戳功能：为语音内容添加精准时间标记的终极指南

Whisper JAX时间戳功能：为语音内容添加精准时间标记的终极指南【免费下载链接】whisper-jaxJAX implementation of OpenAI's Whisper model for up to 70x speed-up on TPU. 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-jax Whisper JAX是OpenAI Whisper模型的JAX实现，可在TPU上实现高达70倍的速度提升。作为一款高效的语音识别工具，其强大的时间戳功能能够为语音内容添加精准的时间标记，帮助用户轻松定位和管理音频中的关键信息。什么是Whisper JAX时间戳功能？ Whisper JAX的时间戳功能是一项强大的特性，它能够在语音转文字的过程中，为识别出的文本内容添加精确的时间标记。当启用时间戳功能后，系统会返回两个关键结果：包含完整转录文本的"text"字段，以及包含多个文本片段及其对应时间戳的"chunks&

告别复杂配置！Z-Image-Turbo镜像一键启动AI绘画

告别复杂配置！Z-Image-Turbo镜像一键启动AI绘画你是不是也经历过—— 想试试最新的AI绘画工具，结果卡在第一步：下载模型要等两小时、装依赖报错十七次、配CUDA版本像解谜、最后连WebUI的端口都映射不成功？别折腾了。今天介绍一个真正“开箱即用”的解决方案：Z-Image-Turbo镜像——阿里通义实验室开源的极速文生图模型，不用编译、不需联网、不改代码，三步启动，直接出图。这不是概念演示，也不是简化版Demo，而是一个完整封装、生产级稳定的本地AI绘画服务。它把原本需要半天才能跑通的流程，压缩成不到两分钟的操作。下面我就带你从零开始，亲手点亮这个“即插即画”的AI画板。 1. 为什么Z-Image-Turbo值得你立刻试试？ 1.1 它不是又一个“参数很大、速度很慢”的模型 Z-Image-Turbo是Z-Image的蒸馏版本，核心突破在于：用更少的计算，换更高的质量。官方实测数据很直观： * 仅需8步采样（NFEs）就能生成一张1024×1024高清图——主流SDXL模型通常需要30步以上； * 在H800上单图推理耗时低于0.8秒，

摘要