01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

优质文章学习记录

10 Apr 2026 — 5 min read

01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

本文是《大模型推理框架深度解析》系列的第一篇，适合刚接触LLM部署的开发者阅读。

写在前面

随着大语言模型（LLM）的广泛应用，如何将模型高效地部署到生产环境成为每个AI工程师必须面对的问题。目前市面上主流的推理框架有Ollama、llama.cpp和vLLM，但它们的技术定位、适用场景差异巨大。

很多开发者在选型时容易陷入误区：

用Ollama部署高并发API服务，结果吞吐量上不去
用vLLM跑边缘设备，发现资源占用过高
混淆llama.cpp和vLLM的定位，不知道何时该用哪个

本文将从架构分层视角出发，帮你建立清晰的选型认知。

一、三大框架的技术定位

1.1 三层架构视角

如果把LLM推理技术栈比作一座大厦，三个框架分别位于不同的楼层：

┌─────────────────────────────────────────────────────────────┐ │ 应用层（第3层） │ │ ┌─────────────┐ │ │ │ Ollama │ ← 一键式模型管理，类似Docker的体验 │ │ └─────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 推理引擎层（第2层） │ │ ┌─────────────┐ ┌─────────────────────────────────────┐ │ │ │ llama.cpp │ │ vLLM │ │ │ │ C++引擎 │ │ Python推理服务平台 │ │ │ └─────────────┘ └─────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 硬件加速层（第1层） │ │ CUDA / Metal / ROCm / AVX512 │ └─────────────────────────────────────────────────────────────┘

核心区别一句话总结：

Ollama：让开发者"开箱即用"的工具层
llama.cpp：追求极致轻量的C++推理引擎
vLLM：面向生产的高吞吐推理服务平台

1.2 各框架的本质定位

维度	Ollama	llama.cpp	vLLM
本质	模型管理工具	推理引擎库	推理服务框架
设计目标	开发便捷	跨平台兼容	高吞吐服务化
核心用户	开发者/研究者	嵌入式工程师	SRE/运维工程师
部署形态	单二进制文件	静态库/可执行文件	Python服务+API

1.3 Ollama的真相：llama.cpp的封装层

很多开发者不知道的是，Ollama底层调用的正是llama.cpp：

Ollama CLI → Modelfile解析 → GGUF模型下载 → llama.cpp推理引擎

这意味着：

Ollama的"简单"是有代价的——它隐藏了llama.cpp的精细调参能力
在高并发场景下，Ollama的HTTP层成为瓶颈
生产环境建议绕过Ollama，直接使用底层引擎

二、适用场景速查表

2.1 按使用场景选型

场景	推荐框架	理由
本地开发测试	Ollama	一键安装，Modelfile灵活配置
MacBook Pro本地跑70B	llama.cpp	Metal后端优化，统一内存优势
边缘设备/嵌入式	llama.cpp	ARM NEON优化，低资源占用
高并发API服务	vLLM	连续批处理，PagedAttention
70B+大模型生产部署	vLLM	TP/PP分布式支持完善
MoE模型(DeepSeek)	vLLM	EP专家并行原生支持
CPU兜底/降级链路	llama.cpp	跨平台稳定，GGUF生态成熟

2.2 按硬件环境选型

无GPU环境：

# 唯一选择：llama.cpp ./llama-cli -m model.gguf --threads 32

单卡消费级GPU（RTX 4090 24GB）：

# 7B-13B模型：vLLM或llama.cpp均可# 70B模型：必须用量化版 + vLLM vllm serve --model llama-70b-awq --quantization awq

多卡数据中心GPU（A100/H100）：

# vLLM是最佳选择 vllm serve --model llama-405b --tensor-parallel-size 8

Apple Silicon（M1/M2/M3）：

# llama.cpp Metal后端最优 ./llama-cli -m model.gguf -ngl 99# 全部层卸载到GPU

三、快速上手示例

3.1 Ollama：5分钟跑起来

# 安装curl -fsSL https://ollama.com/install.sh |sh# 拉取并运行模型 ollama run llama3.1:70b # 自定义Modelfilecat> Modelfile <<'EOF' FROM llama3.1:70b PARAMETER temperature 0.7 PARAMETER top_p 0.9 SYSTEM "你是一个专业的编程助手" EOF ollama create my-model -f Modelfile

3.2 llama.cpp：从源码构建

# 克隆并编译git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp make -j LLAMA_CUDA=1# NVIDIA GPU# 下载GGUF模型并运行 ./llama-cli \ -m models/llama-3.1-70b-Q4_K_M.gguf \ --ctx-size 32768\ --threads 32\ -ngl 99# GPU层数，99表示全部

3.3 vLLM：生产级部署

# pip安装 pip install vllm # 启动服务 vllm serve meta-llama/Llama-3.1-70B \ --tensor-parallel-size 4\ --gpu-memory-utilization 0.85\ --max-model-len 32768\ --enable-prefix-caching # 调用APIcurl http://localhost:8000/v1/completions \ -H "Content-Type: application/json"\ -d '{ "model": "meta-llama/Llama-3.1-70B", "prompt": "Hello,", "max_tokens": 100 }'

四、常见误区澄清

误区1：Ollama可以替代vLLM用于生产

真相：Ollama的HTTP层和调度逻辑在高并发下会成为瓶颈。实测数据显示，相同硬件下vLLM的吞吐量是Ollama的3-5倍。

误区2：llama.cpp比vLLM慢，应该被淘汰

真相：llama.cpp在CPU推理和边缘设备场景下是最佳选择。它的跨平台能力和GGUF生态是vLLM无法替代的。

误区3：vLLM支持所有模型格式

真相：vLLM主要支持HuggingFace格式（safetensors/bin），而llama.cpp专注于GGUF。选型前需要确认模型格式支持。

五、系列文章预告

本文是系列的开篇，后续将深入各个技术细节：

02 - 量化与性能：GGUF、AWQ、GPTQ的原理差异与性能基准
03 - KV Cache与批处理：PagedAttention如何让内存利用率从60%提升到95%
04 - 分布式推理：TP/PP/EP并行策略的原理与配置
05 - 生产架构：Kubernetes部署与混合链路设计
06 - 故障排查：监控指标、性能调优与故障演练

参考资源

文章标签

大模型推理LLM部署vLLMllama.cppOllamaAI工程化模型量化

FPGA上实现AND/OR/NOT门的感知机模型：快速理解

FPGA上用逻辑门“搭”出感知机：从AND/OR/NOT到非线性分类的硬件实践你有没有想过，一个最简单的神经元—— 感知机，其实可以用几个基础逻辑门（AND、OR、NOT）在FPGA上“硬生生”搭出来？更神奇的是，这种看似原始的方法不仅能实现基本分类，还能突破线性限制，处理像XOR这样的复杂问题。这并不是理论推演，而是实实在在可以在FPGA上跑通的数字电路设计。它把抽象的机器学习模型拉回到晶体管和布尔代数的世界，让我们看清AI推理的本质：不过是加权决策 + 非线性组合。本文不讲复杂的矩阵运算或梯度下降，而是带你一步步从AND门开始，用纯硬件思维构建一个多层感知机系统。你会发现，所谓的“智能判断”，在底层可能就是几条Verilog语句和几个查找表（LUT）的事。 AND门：当两个条件必须同时满足我们先从最简单的开始—— AND门。 A B Output 0 0 0 0 1 0 1 0

FPGA 跨时钟域 CDC 处理：3 种最实用的工程方案

本人多年 FPGA 工程与教学经验，今天跟大家聊一个重点——跨时钟域 CDC，这可是项目里最容易出玄学 bug、最难复现、最难定位的一类问题，新手必踩坑，老手也得谨慎！还是老规矩，不搞虚的、不扯理论，只给大家工程里真正在用、稳定可靠、可直接复制上板的3种方案，不管是自学、做项目，还是面试，都能用得上、能拿分。 1. 什么是跨时钟域 CDC？不用记复杂定义，简单说清楚3个关键点，就完全够用： * 核心场景：信号从一个时钟域（比如clk_a）传到另一个时钟域（比如clk_b）； * 触发条件：两个时钟的频率不同，或者相位无关（没有固定的时间关系）； * 直接后果：如果不做处理，直接打拍会出现亚稳态，进而导致数据错误，严重的还会让整个系统死机。划重点：只要是多时钟系统，就必须做 CDC 处理，

无人机数据集汇总无人机航拍各个方面检测分割数据集合集

本数据集集合了面向无人机视觉任务的大规模、多场景、多目标标注数据资源，涵盖了地理环境、智慧城市、基础设施巡检、农业生产、公共安全与灾害监测等多个关键领域。数据主要以两种主流格式提供：适用于目标检测的VOC/YOLO格式与适用于像素级语义分割的LabelMe格式，为算法开发与模型训练提供了高度结构化的标注支持。在地理与农业监测方面，包含田地、道路、森林、水体等地理要素的分割数据集，以及作物病害、杂草识别、农田农机、牛羊牲畜等农业目标的检测数据，支持精准农业与生态研究。智慧城市与交通领域提供了丰富的城市街道场景数据，涵盖行人、车辆、交通标志、占道经营、消防通道、广告牌等目标的检测与分割，助力城市智能化管理。基础设施巡检是另一重点，覆盖电力线、光伏板、桥梁、铁路、风力发电机等设备的缺陷与异常检测，以及工地车辆、施工人员、物料垃圾的识别，满足工业自动化巡检需求。在灾害与安全监控中，包含滑坡、洪水、火灾烟雾、河道垃圾、违规建筑等应急场景的检测与分割数据，同时提供了溺水人员、海上救援、军事目标等特殊任务的专项数据集。此外，

Unitree Go2机器人ROS2仿真终极指南：从零构建完整四足机器人仿真方案

Unitree Go2机器人ROS2仿真终极指南：从零构建完整四足机器人仿真方案【免费下载链接】go2_ros2_sdkUnofficial ROS2 SDK support for Unitree GO2 AIR/PRO/EDU 项目地址: https://gitcode.com/gh_mirrors/go/go2_ros2_sdk 在机器人技术快速发展的今天，仿真环境已成为算法验证和系统测试不可或缺的环节。本文将为开发者提供完整的Unitree Go2四足机器人在ROS2框架下的Gazebo仿真集成方案，涵盖从基础部署到高级导航功能的完整实现路径。无论是进行步态算法研究、自主导航开发，还是多机器人协同测试，本指南都将为您提供可操作的技术方案。两种技术路线：轻量级快速部署 vs 全功能定制开发 💡 轻量级快速部署方案基于官方SDK的快速集成路径，适合需要快速验证基础功能的开发者：核心优势： * 5分钟完成环境部署 * 开箱即用的基础运动控制 * 完善的传感器数据流 * 多机器人协同支持技术实现： # 核心启动文件：go2_