Ollama 底层的 llama.cpp 和 GGUF

优质文章学习记录

10 Apr 2026 — 5 min read

GGUF = 大模型权重的「通用压缩格式」（类似视频的 MP4，适配所有播放器）
llama.cpp = 跑 GGUF 格式模型的「轻量级推理引擎」（类似视频播放器，能在低配电脑上流畅播 MP4）
两者配合：GGUF 让模型体积变小、适配性强，llama.cpp 让模型能在 CPU / 低配 GPU 上快速跑
这也是 Ollama 能做到 “一键本地运行” 的底层原因

GGUF 详解：大模型的 “通用压缩包”

核心定义

GGUF（Generic GGML Format）是 GGML 格式的升级版，是专门为大模型权重设计的二进制存储格式
核心目标是「通用、高效、压缩」

GGML 是什么？
GGML 最初是 Georgi Gerganov 为 llama.cpp 开发的轻量级机器学习张量库（核心是为 CPU 优化），早期大模型量化权重格式直接叫「GGML 格式」，但这个格式只适配 llama.cpp，通用性差

GGUF 为什么是 “升级版”？
随着 llama.cpp 支持的模型越来越多（Llama、Qwen、Phi 等），原 GGML 格式的局限性暴露（比如不支持多模态、跨框架适配差）
因此在 2023 年底推出 GGUF，把 “专属格式” 升级为 “通用格式”，全称里加「Generic」就是为了突出 “通用” 这个核心升级点

GGUF 的命名在 llama.cpp 官方仓库（https://github.com/ggerganov/llama.cpp）的 GGUF 规范文档中明确标注为「Generic GGML Format」

为什么需要 GGUF

早期大模型权重格式（如 PyTorch 的 .pth、Hugging Face 的 .bin）有如下问题：

体积大：7B 模型原生权重约 13GB，普通电脑装不下
适配差：不同推理框架（llama.cpp/transformers）需要转格式，门槛高
速度慢：原生权重不做优化，CPU 推理卡成幻灯片

GGUF 针对性解决

量化压缩支持 4bit/8bit/16bit 量化，7B 模型从 13GB → 4GB（4bit）低配电脑（8G 内存）也能装下
通用适配所有主流大模型（Llama 3/Qwen/Phi 3）都能转 GGUF，所有推理框架（llama.cpp/Ollama）都能读，不用为不同模型/框架反复转格式
加载加速预编译权重结构，模型启动时间从分钟级 → 秒级，本地调用模型响应更快
跨平台兼容 Windows/Mac/Linux/ 树莓派，甚至手机，任何设备都能跑

实战关联：Ollama 里的 GGUF
Ollama 下载的所有模型（如 llama3:7b），底层都是 GGUF 量化格式（默认 4bit/8bit），这也是它能在 Mac M1 / 老旧电脑上运行的关键

llama.cpp 详解：跑 GGUF 模型的 “轻量级引擎”

核心定义

llama.cpp 是由开发者 Georgi Gerganov 开源的 C/C++ 编写的大模型推理框架
最初只为跑 Llama 模型设计，现在支持所有 GGUF 格式的模型（Llama 3、Qwen、Gemini 等）

核心优势（为什么 Ollama 选它做底层）

优势具体效果对应 Ollama 的表现
纯 CPU 友好极致优化 CPU 推理（用 SIMD / 多线程），不用高端 GPU 也能跑 Ollama 不用装 CUDA，普通电脑直接运行
极简轻量化无依赖（不用装 Python/PyTorch/TensorFlow），编译后就一个可执行文件 Ollama 一键安装，不用配复杂环境
支持 GGUF 原生支持 GGUF 量化格式，推理速度比原生权重快 2-5 倍 Ollama 模型启动快、响应快
跨平台支持 x86/ARM 架构（Mac M 系列、树莓派、手机） Ollama 能跨 Windows/Mac/Linux 运行
低内存占用 4bit 量化的 7B 模型，仅需 4-6GB 内存就能跑老旧笔记本也能跑大模型

极简使用示例

不用 Ollama，直接用 llama.cpp 跑 GGUF 模型的核心步骤：

# 1. 下载 llama.cppgit clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp &&make# 编译（仅需 C 编译器，无其他依赖）# 2. 下载 GGUF 格式的模型（比如 Llama 3 7B 4bit）wget https://xxx.com/llama-3-7b-instruct-q4_0.gguf # 3. 运行模型（纯 CPU，无需 GPU） ./main -m llama-3-7b-instruct-q4_0.gguf -p "解释一下 Agent 集群"

执行后就能在终端看到模型的推理结果，这就是 Ollama 底层的核心操作（Ollama 只是把这些步骤封装成了 ollama run 命令）

llama.cpp + GGUF 与 Ollama 的关系

用户 → Ollama（一键命令/API）→ llama.cpp（推理引擎）→ GGUF 模型（量化压缩的权重）→ 本地硬件（CPU/GPU）

Ollama 是「用户友好的封装层」：把复杂的 llama.cpp 命令、GGUF 模型下载 / 管理封装成简单指令
llama.cpp 是「推理执行层」：负责实际的模型计算、token 生成
GGUF 是「模型存储层」：让模型体积小、加载快、适配性强

和其他推理框架的对比

框架 / 格式核心特点
GGUF + llama.cpp 轻量、纯 CPU、低内存、跨平台
Hugging Face Transformers 功能全、支持所有模型、GPU 优化好
vLLM 高吞吐、动态批处理、GPU 专用

框架 / 格式适用场景缺点
GGUF + llama.cpp 本地低配设备、离线运行、快速原型推理速度比 GPU 框架慢（适合轻量场景）
Hugging Face Transformers 云端 / 高端 GPU 部署、复杂微调依赖多、低配设备跑不动、体积大
vLLM 高并发 API 服务、云端部署仅支持 GPU、低配设备用不了

总结
GGUF 是大模型权重的通用量化格式，核心价值是「压缩体积、通用适配、加载加速」，让低配设备装得下模型
llama.cpp 是轻量级推理引擎，核心价值是「纯 CPU 优化、极简无依赖、跨平台」，让低配设备跑得动模型
两者是 Ollama 实现 “本地一键运行大模型” 的底层核心，也是目前本地 AI 部署的主流技术组合

Pico 4XVR 1.10.13安装包下载与安装教程 ico 4XVR最新版下载、4XVR 1.10.13 APK安装包、Pico VR看电影软件、4XVR完整版安装教程、Pico 4播放器推荐、V

Pico 4XVR 1.10.13安装包下载与安装教程 SEO关键词：Pico 4XVR最新版下载、4XVR 1.10.13 APK安装包、Pico VR看电影软件、4XVR完整版安装教程、Pico 4播放器推荐、VR本地播放器APK 最近在折腾 Pico 设备本地观影方案时，测试了不少播放器，最终还是回到 4XVR。作为一个开发工程师，我对播放器的解码能力、格式兼容性、播放流畅度比较敏感。实测下来，4XVR 在高码率视频、蓝光原盘播放方面表现确实稳定。这篇文章整理一下 Pico 4XVR 最新版 1.10.13 的版本信息、下载方式以及安装流程，方便需要的朋友自行安装测试。一、版本信息说明 * 软件名称：4XVR * 版本号：1.10.

从社死边缘拯救我：用 AR 眼镜打造“亲戚称呼助手“

从社死边缘拯救我：用 AR 眼镜打造"亲戚称呼助手本文应用基于Rokid灵珠智能体/CXR SDK开发，开发指南https://forum.rokid.com/index 一个真实的新年灾难大年初二，我跟着新婚妻子回娘家。刚进门，七大姑八大姨就围了上来。一位头发花白的阿姨笑盈盈地递过来一个红包，我脑子里嗡的一声——这到底是妻子的哪位亲戚？大姨？小姨？还是什么远房表姑？ “小张啊，还认识我不？” 我支支吾吾半天，最后还是妻子打了圆场：“这是大姨，小时候还抱过你呢！” 那一刻，我看到了大姨眼里的失望。这种社死现场，相信很多人都经历过：春节期间，走亲访友是必修课，但那些一年见一次的亲戚，名字和称呼根本记不住。尤其是刚结婚的新人、不常回家的打工人，简直是"称呼灾难"高发人群。回家后，我下定决心：明年春节，我绝不能再叫错人。

【机器人数值优化】数值优化基础（一）从理论到实战全方位指南 | 解锁机器人技术的核心技能

💯 欢迎光临清流君的博客小天地，这里是我分享技术与心得的温馨角落 💯 🔥 个人主页:【清流君】🔥📚 系列专栏: 运动控制 | 决策规划 | 机器人数值优化 📚🌟始终保持好奇心，探索未知可能性🌟 文章目录 * 引言 * 一、参考书籍推荐 * 二、数值优化的定义与组成 * 2.1 数值优化组成部分 * (1) 优化变量 * (2) 目标函数 * (3) 不等式约束 * (4) 等式约束 * 2.2 数值优化前提假设 * 三、数值优化在机器人中的应用 * 3.1 平滑与映射：非线性最小二乘法 * 3.2 轨迹规划：非线性问题 * 3.3 点云配置：半定规划 * 3.4 时间最优路径参数化：二阶锥规划 * 四、数值优化基础

【显示系统真正扫盲】 VGA、HDMI、TFT、RGB TFT、LED 与显示器到底是什么关系？

文章目录 * 概要 * 一、显示器：最终的呈现设备 * 二、接口技术：设备之间的桥梁 * 三、显示技术：图像如何产生 * 四、背光技术：光从哪里来 * 场景：一台现代液晶显示器 * 常见误区 * 技术发展脉络与趋势概要走进显示系统的工程世界面向嵌入式 / FPGA 的显示技术一次性认知梳理在嵌入式系统和 FPGA 学习过程中，显示系统往往是一个“看似熟悉、实则混乱”的模块。我们每天都在使用显示器，但当真正需要自己去驱动一个屏幕时，VGA、HDMI、TFT、RGB TFT、LED 这些名词往往会同时出现，让人分不清谁是谁、该从哪里下手。很多初学者卡在显示这一关，并不是因为代码写不出来，而是没有弄清楚自己在整个显示系统中，究竟负责哪一部分。本文不从“名词解释”入手，而是从工程责任划分的角度，系统梳理显示技术在嵌入式

GGUF 详解：大模型的 “通用压缩包”

核心定义

为什么需要 GGUF

GGUF 针对性解决

llama.cpp 详解：跑 GGUF 模型的 “轻量级引擎”

核心定义

核心优势（为什么 Ollama 选它做底层）

极简使用示例

llama.cpp + GGUF 与 Ollama 的关系

和其他推理框架的对比

Read more

Pico 4XVR 1.10.13安装包下载与安装教程 ico 4XVR最新版下载、4XVR 1.10.13 APK安装包、Pico VR看电影软件、4XVR完整版安装教程、Pico 4播放器推荐、V

从社死边缘拯救我：用 AR 眼镜打造“亲戚称呼助手“

【机器人数值优化】数值优化基础（一）从理论到实战全方位指南 | 解锁机器人技术的核心技能

【显示系统真正扫盲】 VGA、HDMI、TFT、RGB TFT、LED 与显示器到底是什么关系？