Ollama 底层的 llama.cpp 和 GGUF

优质文章学习记录

07 Apr 2026 — 5 min read

GGUF = 大模型权重的「通用压缩格式」（类似视频的 MP4，适配所有播放器）
llama.cpp = 跑 GGUF 格式模型的「轻量级推理引擎」（类似视频播放器，能在低配电脑上流畅播 MP4）
两者配合：GGUF 让模型体积变小、适配性强，llama.cpp 让模型能在 CPU / 低配 GPU 上快速跑
这也是 Ollama 能做到 “一键本地运行” 的底层原因

GGUF 详解：大模型的 “通用压缩包”

核心定义

GGUF（Generic GGML Format）是 GGML 格式的升级版，是专门为大模型权重设计的二进制存储格式
核心目标是「通用、高效、压缩」

GGML 是什么？
GGML 最初是 Georgi Gerganov 为 llama.cpp 开发的轻量级机器学习张量库（核心是为 CPU 优化），早期大模型量化权重格式直接叫「GGML 格式」，但这个格式只适配 llama.cpp，通用性差

GGUF 为什么是 “升级版”？
随着 llama.cpp 支持的模型越来越多（Llama、Qwen、Phi 等），原 GGML 格式的局限性暴露（比如不支持多模态、跨框架适配差）
因此在 2023 年底推出 GGUF，把 “专属格式” 升级为 “通用格式”，全称里加「Generic」就是为了突出 “通用” 这个核心升级点

GGUF 的命名在 llama.cpp 官方仓库（https://github.com/ggerganov/llama.cpp）的 GGUF 规范文档中明确标注为「Generic GGML Format」

为什么需要 GGUF

早期大模型权重格式（如 PyTorch 的 .pth、Hugging Face 的 .bin）有如下问题：

体积大：7B 模型原生权重约 13GB，普通电脑装不下
适配差：不同推理框架（llama.cpp/transformers）需要转格式，门槛高
速度慢：原生权重不做优化，CPU 推理卡成幻灯片

GGUF 针对性解决

量化压缩支持 4bit/8bit/16bit 量化，7B 模型从 13GB → 4GB（4bit）低配电脑（8G 内存）也能装下
通用适配所有主流大模型（Llama 3/Qwen/Phi 3）都能转 GGUF，所有推理框架（llama.cpp/Ollama）都能读，不用为不同模型/框架反复转格式
加载加速预编译权重结构，模型启动时间从分钟级 → 秒级，本地调用模型响应更快
跨平台兼容 Windows/Mac/Linux/ 树莓派，甚至手机，任何设备都能跑

实战关联：Ollama 里的 GGUF
Ollama 下载的所有模型（如 llama3:7b），底层都是 GGUF 量化格式（默认 4bit/8bit），这也是它能在 Mac M1 / 老旧电脑上运行的关键

llama.cpp 详解：跑 GGUF 模型的 “轻量级引擎”

核心定义

llama.cpp 是由开发者 Georgi Gerganov 开源的 C/C++ 编写的大模型推理框架
最初只为跑 Llama 模型设计，现在支持所有 GGUF 格式的模型（Llama 3、Qwen、Gemini 等）

核心优势（为什么 Ollama 选它做底层）

优势具体效果对应 Ollama 的表现
纯 CPU 友好极致优化 CPU 推理（用 SIMD / 多线程），不用高端 GPU 也能跑 Ollama 不用装 CUDA，普通电脑直接运行
极简轻量化无依赖（不用装 Python/PyTorch/TensorFlow），编译后就一个可执行文件 Ollama 一键安装，不用配复杂环境
支持 GGUF 原生支持 GGUF 量化格式，推理速度比原生权重快 2-5 倍 Ollama 模型启动快、响应快
跨平台支持 x86/ARM 架构（Mac M 系列、树莓派、手机） Ollama 能跨 Windows/Mac/Linux 运行
低内存占用 4bit 量化的 7B 模型，仅需 4-6GB 内存就能跑老旧笔记本也能跑大模型

极简使用示例

不用 Ollama，直接用 llama.cpp 跑 GGUF 模型的核心步骤：

# 1. 下载 llama.cppgit clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp &&make# 编译（仅需 C 编译器，无其他依赖）# 2. 下载 GGUF 格式的模型（比如 Llama 3 7B 4bit）wget https://xxx.com/llama-3-7b-instruct-q4_0.gguf # 3. 运行模型（纯 CPU，无需 GPU） ./main -m llama-3-7b-instruct-q4_0.gguf -p "解释一下 Agent 集群"

执行后就能在终端看到模型的推理结果，这就是 Ollama 底层的核心操作（Ollama 只是把这些步骤封装成了 ollama run 命令）

llama.cpp + GGUF 与 Ollama 的关系

用户 → Ollama（一键命令/API）→ llama.cpp（推理引擎）→ GGUF 模型（量化压缩的权重）→ 本地硬件（CPU/GPU）

Ollama 是「用户友好的封装层」：把复杂的 llama.cpp 命令、GGUF 模型下载 / 管理封装成简单指令
llama.cpp 是「推理执行层」：负责实际的模型计算、token 生成
GGUF 是「模型存储层」：让模型体积小、加载快、适配性强

和其他推理框架的对比

框架 / 格式核心特点
GGUF + llama.cpp 轻量、纯 CPU、低内存、跨平台
Hugging Face Transformers 功能全、支持所有模型、GPU 优化好
vLLM 高吞吐、动态批处理、GPU 专用

框架 / 格式适用场景缺点
GGUF + llama.cpp 本地低配设备、离线运行、快速原型推理速度比 GPU 框架慢（适合轻量场景）
Hugging Face Transformers 云端 / 高端 GPU 部署、复杂微调依赖多、低配设备跑不动、体积大
vLLM 高并发 API 服务、云端部署仅支持 GPU、低配设备用不了

总结
GGUF 是大模型权重的通用量化格式，核心价值是「压缩体积、通用适配、加载加速」，让低配设备装得下模型
llama.cpp 是轻量级推理引擎，核心价值是「纯 CPU 优化、极简无依赖、跨平台」，让低配设备跑得动模型
两者是 Ollama 实现 “本地一键运行大模型” 的底层核心，也是目前本地 AI 部署的主流技术组合

Trae 高峰排队太难受？让 AI 编码从此告别等待！

手把手教你配置无问芯穹，享受丝滑 AI 编程体验最近在使用 Trae 进行 AI 辅助编程时，遇到了一个让人抓狂的问题——高峰期模型排队。相信很多 Trae 用户都有同感，当灵感迸发想要快速实现一个功能时，却要面对“前方排队 X 人的提示，这感觉就像写代码写到一半突然断网一样难受。今天，我就来教大家如何通过接入无问芯穹这个强大的 AI 聚合厂商，彻底解决这个痛点。文章最后还有专属福利，千万别错过！痛点：Trae 高峰期的“模型春运” Trae 作为一款优秀的 AI 编程助手，用户量增长非常快。每天下午和晚上，尤其是工作日的 14:00-17:00可以说是模型调用的“高峰期”。当你遇到以下场景时： * 调试一段怎么也找不到 bug 的代码 * 想要重构一个冗长的模块却只能对着屏幕干等，那种感觉真的很影响开发效率。排队等待不仅打断了思路，

AI算命大比拼：DeepSeek、豆包、Kimi在八字、紫微、梅花、六爻上的实测与避坑指南

1. AI算命初体验：当大模型遇上传统命理最近发现一个有趣的现象：身边搞技术的朋友突然开始研究八字排盘，产品经理的桌面上摆着《紫微斗数全书》，连程序员开会间隙都在讨论六爻卦象。仔细一问才知道，大家都在用AI工具辅助算命。作为常年混迹AI圈的老兵，我决定做个硬核实测——用DeepSeek、豆包、Kimi三大主流AI模型，分别测试八字、紫微、梅花易数、六爻这四大传统命理术数的表现。先说说测试方法：所有测试均使用相同生辰（1990年5月15日10时）和相同问题（"今年事业发展如何"），每个模型测试三轮取平均表现。为了控制变量，所有提示词都采用"用XX术数分析+具体问题"的标准化格式。测试过程中发现个有趣现象：AI算命和人类命理师完全不同，它们不会说"天机不可泄露"，但会一本正经地告诉你"基于概率模型的预测仅供参考"。 2. 八字排盘能力横评 2.1 DeepSeek的八字表现 DeepSeek在八字排盘上确实有两把刷子。

[特殊字符] CoPaw（阿里龙虾AI）Windows 安装及应用指南

1. 什么是 CoPaw？ CoPaw 是阿里云通义实验室推出的个人 AI 智能体，可以在电脑上帮你处理各种任务（如信息整理、定时提醒、文件处理等），并支持接入钉钉、飞书、QQ 等聊天软件，实现 24 小时在线办公助手。 2. 系统要求 * 操作系统：Windows 10 或 Windows 11（64位） * Python：3.9 或更高版本（推荐 3.10） * 内存：建议 4GB 以上（运行时占用约 200~500MB） * 磁盘空间：至少 500MB 可用空间 * 网络：需要能够访问外网（用于调用大模型 API） 3.

API 调用基础：执行式AI必备网络请求知识

API 调用基础：执行式AI必备网络请求知识 📝 本章学习目标：本章是入门认知部分，帮助零基础读者建立对AI Agent的初步认知。通过本章学习，你将全面掌握"API 调用基础：执行式AI必备网络请求知识"这一核心主题。一、引言：为什么这个话题如此重要在AI Agent快速发展的今天，API 调用基础：执行式AI必备网络请求知识已经成为每个开发者和研究者必须了解的核心知识。无论你是技术背景还是非技术背景，理解这一概念都将帮助你更好地把握AI时代的机遇。 1.1 背景与意义 💡 核心认知：AI Agent正在从"对话工具"进化为"执行引擎"，能够主动完成任务、调用工具、与外部世界交互。这一变革正在深刻改变我们的工作和生活方式。从2023年AutoGPT的横空出世，到如今百花齐放的Agent生态，短短一年多时间，执行式AI已经从概念走向落地。根据最新统计，全球AI Agent市场规模已突破百亿美元，年增长率超过100%

GGUF 详解：大模型的 “通用压缩包”

核心定义

为什么需要 GGUF

GGUF 针对性解决

llama.cpp 详解：跑 GGUF 模型的 “轻量级引擎”

核心定义

核心优势（为什么 Ollama 选它做底层）

极简使用示例

llama.cpp + GGUF 与 Ollama 的关系

和其他推理框架的对比

Read more

Trae 高峰排队太难受？让 AI 编码从此告别等待！

AI算命大比拼：DeepSeek、豆包、Kimi在八字、紫微、梅花、六爻上的实测与避坑指南

[特殊字符] CoPaw（阿里龙虾AI）Windows 安装及应用指南

API 调用基础：执行式AI必备网络请求知识