【保姆级教程】llama.cpp大模型部署全攻略:CPU/GPU全兼容,小白也能轻松上手!

【保姆级教程】llama.cpp大模型部署全攻略:CPU/GPU全兼容,小白也能轻松上手!

一、简介

  • • llama.cpp 是一个在 C/C++ 中实现大型语言模型(LLM)推理的工具
  • • 支持跨平台部署,也支持使用 Docker 快速启动
  • • 可以运行多种量化模型,对电脑要求不高,CPU/GPU设备均可流畅运行
  • • 开源地址参考:https://github.com/ggml-org/llama.cpp

• 核心工作流程参考:

二、安装与下载模型(Docker方式)

1. 搜索可用模型

• 这里以 qwen3-vl 模型为例,提供了多种量化版本,每种版本的大小不一样,根据自己的电脑性能做选择,如选择(模型+量化标签):Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0

• 可以在huggingface官网中搜索可用的量化模型:https://huggingface.co/models?search=gguf

2. 使用 docker-compose 安装启动 llama.cpp

  • • 提前安装好Docker、docker-compose软件环境
  • • (可选)如果有GPU,需要安装好 NVIDIA 驱动程序、NVIDIA Container Toolkit
    英伟达驱动安装参考文档: https://developer.nvidia.com/cuda-toolkit-archive
    NVIDIA Container Toolkit安装参考:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
//运行下面命令,如果输出显卡信息即Docker内可以正常使用GPUdocker run --rm --gpus all nvidia/cuda:12.5.0-runtime-ubuntu22.04 nvidia-smi 
  • • 新建docker-compose.yml配置文件,参考下面内容:
    CPU运行版本
services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 restart: unless-stopped 

GPU运行版本

services: llama-cpp-server: image: ghcr.io/ggml-org/llama.cpp:server-cuda ports: - "8000:8000" volumes: - ./cache:/root/.cache command: > -hf Qwen/Qwen3-VL-8B-Instruct-GGUF:Q8_0 --jinja -c 65535 --port "8000" --host 0.0.0.0 --n-gpu-layers 99 restart: unless-stopped deploy: #使用GPU主要增加这个配置 resources: reservations: devices: - driver: nvidia count: all #使用所有GPU,可以指定数量和特定GPU capabilities: [gpu] 

关键参数注解,参考如下

-hf # 从 HuggingFace 自动下载模型--jinja # 启用聊天格式模板(多轮对话必需)-c 65535 # 上下文窗口大小(tokens数量,越大占用越多显存)--port "8000" # 容器内监听端口--host 0.0.0.0 # 监听所有网络接口(Docker 容器必需)--n-gpu-layers 99 # GPU 加载层数(99=全部层,0=纯CPU)更多参数用法参考:https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md 
  • • 配置完,直接一键启动即可

docker-compose up -d
初次启动会自动从huggingface下载模型可能比较耗时(网络不好的话请自行配置加速代理),成功下载并启动截图如下:

三、使用

1. llama.cpp 默认提供的 Web Ui中使用

  • • 启动后,可直接访问:http://ip:8000/,进入对话页面

• 在对话界面,可以输入文本、文件、图片等直接和启动的模型进行对话
文本对话

多模态对话

2. 使用 llama.cpp 提供的 Openai 接口兼容 API

• 多模态对话示例
上面启动的 Qwen/Qwen3-VL 是非常强大的多模态模型,可以进行图片对话,输入下面手写文本图片

postman请求示例截图如下:

• 文本对话API,适合通用问题回答
postman请求示例截图如下:

四、总结

  • • llama.cpp 是个非常强大大语言模型启动工具,让普通电脑也能快速运行大语言模型,基于C/C++开发,性能比 Ollama 更优
  • • 安装依赖较少,兼容CPU/GPU,可跨平台部署,可Docker一键部署
  • • 提供Web Ui在线访问,也提供 Openai 接口兼容的 Api ,方便快速接入各种客户端
  • • 私有部署,完全免费且私密,可以满足各种应用场景,如询问一下私密问题、搭建本地AI笔记、搭建本地AI数据库应用、识别自己的图片内容等

五、AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

在这里插入图片描述


02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述


在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述


在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述
在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述


在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Read more

C++:set/multiset和map/multimap文档详细解析

C++:set/multiset和map/multimap文档详细解析

Hello大家好! 很高兴与大家见面! 给生活添点快乐,开始今天的编程之路。 我的博客:<但愿. 我的专栏:C语言、题目精讲、算法与数据结构、C++ 欢迎点赞,关注 目录   前言   一 容器的分类(根据容器中各个数据之间的关系)          1.1序列式容器                  1.1.1序列式容器的概念                  1.1.2序列式容器的例子           1.2关联式容器                  1.2.1关联式容器的概念                  1.2.2关联式容器的例子   二  set/multiset           2.1参考文档(multiset包在set中所以其没有头文件)           2.2set类的介绍                   2.2.1set类的实现的简单介绍                  2.2.2set类的接口介绍                           2.

By Ne0inhk
【C++】动态内存管理:织梦寻优,在代码世界中编织高效内存的诗篇

【C++】动态内存管理:织梦寻优,在代码世界中编织高效内存的诗篇

文章目录 * 一、复习C/C++内存分布 * 二、简单复习C语言动态内存管理 * 三、C++动态内存管理 * new与new[] * delete与delete[] * 四、operator new与operator delete(重点) * operator new * operator delete * 五、new与delete原理 * 内置类型 * 自定义类型 * new的原理 * delete的原理 * new T[N]的原理 * delete[]的原理 * 六、C++与C语言动态管理区别总结 一、复习C/C++内存分布 在之前C语言的文章中我们详细讲解了C语言的动态内存管理,其中也简单学习了C/C++的内存分布,接下来我们就来通过一些练习来复习一下,C语言动态内存管理文章:【C语言】动态内存管理及相关笔试题 接下来我们先来看看之前学过的内存分布图,然后再来做题:

By Ne0inhk
【C++】 map/multimap底层原理与逻辑详解

【C++】 map/multimap底层原理与逻辑详解

【C++】 map/multimap底层原理与逻辑详解 * 摘要 * 目录 * 一、`map` * 1. 类模板认识 * 2. 构造函数认识 * 3. 迭代器和范围for的使用 * 4. insert的使用 * 5. empty 和size的使用 * 6. erase的使用 * 7. swap 和 clear的使用 * 8. find的使用 * 9. count的使用 * 11. lower_bound 和 upper_bound的使用 * 12. equal_range的使用 * 13. operator= 的使用 * 14. operator[ ] 的使用 * 二、`multimap` * 1. 模板和类模板的认识 * 2. insert的使用 * 3.

By Ne0inhk
C++之《程序员自我修养》读书总结(5)

C++之《程序员自我修养》读书总结(5)

《程序员自我修养》读书总结(五) Author: Once Day Date: 2026年2月12日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: 书籍阅读_Once-Day的博客-ZEEKLOG博客 参考文章:《程序员的自我修养》读书笔记 | Zachary’s blog《程序员的自我修养》阅读笔记 - T0fV404 - 博客园读书笔记:《程序员的自我修养》 - 楷哥 - 博客园 文章目录 * 《程序员自我修养》读书总结(五) * 5. Windows PE/COFF 格式 * 5.1 发展历史 * 5.2 mingw-w64 工具链 * 5.

By Ne0inhk