Ollama 底层的 llama.cpp 和 GGUF

GGUF = 大模型权重的「通用压缩格式」(类似视频的 MP4,适配所有播放器)
llama.cpp = 跑 GGUF 格式模型的「轻量级推理引擎」(类似视频播放器,能在低配电脑上流畅播 MP4)
两者配合:GGUF 让模型体积变小、适配性强,llama.cpp 让模型能在 CPU / 低配 GPU 上快速跑
这也是 Ollama 能做到 “一键本地运行” 的底层原因

GGUF 详解:大模型的 “通用压缩包”

核心定义

GGUF(Generic GGML Format)是 GGML 格式的升级版,是专门为大模型权重设计的二进制存储格式
核心目标是「通用、高效、压缩」

GGML 是什么?
GGML 最初是 Georgi Gerganov 为 llama.cpp 开发的轻量级机器学习张量库(核心是为 CPU 优化),早期大模型量化权重格式直接叫「GGML 格式」,但这个格式只适配 llama.cpp,通用性差

GGUF 为什么是 “升级版”?
随着 llama.cpp 支持的模型越来越多(Llama、Qwen、Phi 等),原 GGML 格式的局限性暴露(比如不支持多模态、跨框架适配差)
因此在 2023 年底推出 GGUF,把 “专属格式” 升级为 “通用格式”,全称里加「Generic」就是为了突出 “通用” 这个核心升级点

GGUF 的命名在 llama.cpp 官方仓库(https://github.com/ggerganov/llama.cpp)的 GGUF 规范文档中明确标注为「Generic GGML Format」

为什么需要 GGUF

早期大模型权重格式(如 PyTorch 的 .pth、Hugging Face 的 .bin)有如下问题:

  • 体积大:7B 模型原生权重约 13GB,普通电脑装不下
  • 适配差:不同推理框架(llama.cpp/transformers)需要转格式,门槛高
  • 速度慢:原生权重不做优化,CPU 推理卡成幻灯片

GGUF 针对性解决

量化压缩 支持 4bit/8bit/16bit 量化,7B 模型从 13GB → 4GB(4bit) 低配电脑(8G 内存)也能装下
通用适配 所有主流大模型(Llama 3/Qwen/Phi 3)都能转 GGUF,所有推理框架(llama.cpp/Ollama)都能读,不用为不同模型/框架反复转格式
加载加速 预编译权重结构,模型启动时间从分钟级 → 秒级,本地调用模型响应更快
跨平台 兼容 Windows/Mac/Linux/ 树莓派,甚至手机,任何设备都能跑

  1. 实战关联:Ollama 里的 GGUF
    Ollama 下载的所有模型(如 llama3:7b),底层都是 GGUF 量化格式(默认 4bit/8bit),这也是它能在 Mac M1 / 老旧电脑上运行的关键

llama.cpp 详解:跑 GGUF 模型的 “轻量级引擎”

核心定义

llama.cpp 是由开发者 Georgi Gerganov 开源的 C/C++ 编写的大模型推理框架
最初只为跑 Llama 模型设计,现在支持所有 GGUF 格式的模型(Llama 3、Qwen、Gemini 等)

核心优势(为什么 Ollama 选它做底层)

优势 具体效果 对应 Ollama 的表现
纯 CPU 友好 极致优化 CPU 推理(用 SIMD / 多线程),不用高端 GPU 也能跑 Ollama 不用装 CUDA,普通电脑直接运行
极简轻量化 无依赖(不用装 Python/PyTorch/TensorFlow),编译后就一个可执行文件 Ollama 一键安装,不用配复杂环境
支持 GGUF 原生支持 GGUF 量化格式,推理速度比原生权重快 2-5 倍 Ollama 模型启动快、响应快
跨平台 支持 x86/ARM 架构(Mac M 系列、树莓派、手机) Ollama 能跨 Windows/Mac/Linux 运行
低内存占用 4bit 量化的 7B 模型,仅需 4-6GB 内存就能跑 老旧笔记本也能跑大模型

极简使用示例

不用 Ollama,直接用 llama.cpp 跑 GGUF 模型的核心步骤:

# 1. 下载 llama.cppgit clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp &&make# 编译(仅需 C 编译器,无其他依赖)# 2. 下载 GGUF 格式的模型(比如 Llama 3 7B 4bit)wget https://xxx.com/llama-3-7b-instruct-q4_0.gguf # 3. 运行模型(纯 CPU,无需 GPU) ./main -m llama-3-7b-instruct-q4_0.gguf -p "解释一下 Agent 集群"

执行后就能在终端看到模型的推理结果,这就是 Ollama 底层的核心操作(Ollama 只是把这些步骤封装成了 ollama run 命令)

llama.cpp + GGUF 与 Ollama 的关系

用户 → Ollama(一键命令/API)→ llama.cpp(推理引擎)→ GGUF 模型(量化压缩的权重)→ 本地硬件(CPU/GPU)

Ollama 是「用户友好的封装层」:把复杂的 llama.cpp 命令、GGUF 模型下载 / 管理封装成简单指令
llama.cpp 是「推理执行层」:负责实际的模型计算、token 生成
GGUF 是「模型存储层」:让模型体积小、加载快、适配性强

和其他推理框架的对比

框架 / 格式 核心特点
GGUF + llama.cpp 轻量、纯 CPU、低内存、跨平台
Hugging Face Transformers 功能全、支持所有模型、GPU 优化好
vLLM 高吞吐、动态批处理、GPU 专用

框架 / 格式 适用场景 缺点
GGUF + llama.cpp 本地低配设备、离线运行、快速原型 推理速度比 GPU 框架慢(适合轻量场景)
Hugging Face Transformers 云端 / 高端 GPU 部署、复杂微调 依赖多、低配设备跑不动、体积大
vLLM 高并发 API 服务、云端部署 仅支持 GPU、低配设备用不了

总结
GGUF 是大模型权重的通用量化格式,核心价值是「压缩体积、通用适配、加载加速」,让低配设备装得下模型
llama.cpp 是轻量级推理引擎,核心价值是「纯 CPU 优化、极简无依赖、跨平台」,让低配设备跑得动模型
两者是 Ollama 实现 “本地一键运行大模型” 的底层核心,也是目前本地 AI 部署的主流技术组合

Read more

找回 Edge 边栏中消失的 Copilot 图标

Edge 边栏的 Copilot 能根据网页内容增强回复,相当于内置了RAG,而且能不限次数使用GPT-5,非常方便。笔者有次打开 Edge 浏览器时发现边栏的Copilot图标消失了,探索了一些方法后终于找到解决方案,以下: 1. win+R 打开运行,输入 powershell 打开,复制以下正则表达式全文到powershell 命令窗口回车运行即可。命令窗口出现“✅ 已将 variations_country 设置为 US。已重新启动 Microsoft Edge”代表已经成功。 & { # 关闭所有 Edge 进程 Get-Process | Where-Object { $_.ProcessName -like "msedge*" } | Stop-Process -Force -ErrorAction SilentlyContinue Start-Sleep -Seconds 3 $localState

开源安全模型哪家强?Qwen3Guard-Gen-8B vs Llama Guard 2横评

开源安全模型哪家强?Qwen3Guard-Gen-8B vs Llama Guard 2横评 在生成式AI迅猛发展的今天,大模型“说错话”的代价正变得越来越高。从智能客服无意中输出歧视性言论,到内容平台因用户生成违法信息被监管处罚,安全失控的案例屡见不鲜。传统的关键词过滤早已形同虚设——攻击者只需把“炸弹”写成“炸dan”,就能轻松绕过规则系统。真正的挑战在于:如何让机器理解语义背后的意图? 正是在这种背景下,专用安全大模型应运而生。它们不再依赖静态规则,而是像一位经验丰富的审核员,能结合上下文判断一句话到底是不是“有问题”。其中,Meta的 Llama Guard 2 和阿里云推出的 Qwen3Guard-Gen-8B 成为开源领域最受关注的两个代表。两者都试图解决同一个核心问题:如何让AI既保持开放性,又不至于“口无遮拦”。 但它们走的是不同的技术路径。Llama Guard 系列延续了轻量、高效的设计哲学,适合快速部署;而 Qwen3Guard-Gen-8B 则更进一步,采用生成式范式,追求深度语义理解与可解释性。

【GitHub开源AI精选】WhisperX:70倍实时语音转录、革命性词级时间戳与多说话人分离技术

【GitHub开源AI精选】WhisperX:70倍实时语音转录、革命性词级时间戳与多说话人分离技术

系列篇章💥 No.文章1【GitHub开源AI精选】LLM 驱动的影视解说工具:Narrato AI 一站式高效创作实践2【GitHub开源AI精选】德国比勒费尔德大学TryOffDiff——高保真服装重建的虚拟试穿技术新突破3【GitHub开源AI精选】哈工大(深圳)& 清华力作 FilmAgent:剧本自动生成 + 镜头智能规划,开启 AI 电影制作新时代4【GitHub开源AI精选】Lumina - Image 2.0 文生图模型,以小参数量实现高分辨率多图生成新突破5【GitHub开源AI精选】探索 Mobile-Agent:X-PLUG 推出的创新型移动智能操作代理6【GitHub开源AI精选】吴恩达团队开源VisionAgent:用自然语言开启计算机视觉新时代7【GitHub开源AI精选】Oumi:一站式AI开发平台,涵盖训练、评估与部署全流程8【GitHub开源AI精选】深入剖析RealtimeSTT:开源实时语音转文本库的强大功能与应用9【GitHub开源AI精选】PodAgent:多智能体协作播客生成框架,

万方AIGC检测通不过?这几款降AI工具实测有效

万方AIGC检测通不过?这几款降AI工具实测有效

万方AIGC检测通不过?这几款降AI工具实测有效 TL;DR:万方AIGC检测算法与知网、维普不同,需要选择支持万方平台的降AI工具。推荐嘎嘎降AI(多平台适配,4.8元/千字)和率降(稳定可靠,4.2元/千字)。 万方检测的特殊性 很多同学以为降AI工具都是通用的,用一个就能搞定所有平台。但实际上,知网、维普、万方三大平台的AIGC检测算法各有不同。我之前用一款只针对知网优化的工具处理论文,知网检测降到了8%,但万方一测还有32%,差点没过学校的检测线。 万方的AIGC检测更侧重于文本特征分析,对某些AI生成模式的识别与知网有差异。所以如果你学校用的是万方检测,一定要确认工具是否支持万方平台,别只看知网的效果数据。 支持万方的降AI工具对比 工具价格(千字)万方效果达标率特色链接嘎嘎降AI4.8元60%→8%99.26%多平台适配官网率降4.2元65%→12%97%稳定可靠官网去AIGC3.5元70%→18%96%通用型官网比话降AI8元知网专精99%