01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

优质文章学习记录

07 Apr 2026 — 5 min read

01 - 大模型推理框架选型入门：Ollama、llama.cpp与vLLM全景对比

本文是《大模型推理框架深度解析》系列的第一篇，适合刚接触LLM部署的开发者阅读。

写在前面

随着大语言模型（LLM）的广泛应用，如何将模型高效地部署到生产环境成为每个AI工程师必须面对的问题。目前市面上主流的推理框架有Ollama、llama.cpp和vLLM，但它们的技术定位、适用场景差异巨大。

很多开发者在选型时容易陷入误区：

用Ollama部署高并发API服务，结果吞吐量上不去
用vLLM跑边缘设备，发现资源占用过高
混淆llama.cpp和vLLM的定位，不知道何时该用哪个

本文将从架构分层视角出发，帮你建立清晰的选型认知。

一、三大框架的技术定位

1.1 三层架构视角

如果把LLM推理技术栈比作一座大厦，三个框架分别位于不同的楼层：

┌─────────────────────────────────────────────────────────────┐ │ 应用层（第3层） │ │ ┌─────────────┐ │ │ │ Ollama │ ← 一键式模型管理，类似Docker的体验 │ │ └─────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 推理引擎层（第2层） │ │ ┌─────────────┐ ┌─────────────────────────────────────┐ │ │ │ llama.cpp │ │ vLLM │ │ │ │ C++引擎 │ │ Python推理服务平台 │ │ │ └─────────────┘ └─────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 硬件加速层（第1层） │ │ CUDA / Metal / ROCm / AVX512 │ └─────────────────────────────────────────────────────────────┘

核心区别一句话总结：

Ollama：让开发者"开箱即用"的工具层
llama.cpp：追求极致轻量的C++推理引擎
vLLM：面向生产的高吞吐推理服务平台

1.2 各框架的本质定位

维度	Ollama	llama.cpp	vLLM
本质	模型管理工具	推理引擎库	推理服务框架
设计目标	开发便捷	跨平台兼容	高吞吐服务化
核心用户	开发者/研究者	嵌入式工程师	SRE/运维工程师
部署形态	单二进制文件	静态库/可执行文件	Python服务+API

1.3 Ollama的真相：llama.cpp的封装层

很多开发者不知道的是，Ollama底层调用的正是llama.cpp：

Ollama CLI → Modelfile解析 → GGUF模型下载 → llama.cpp推理引擎

这意味着：

Ollama的"简单"是有代价的——它隐藏了llama.cpp的精细调参能力
在高并发场景下，Ollama的HTTP层成为瓶颈
生产环境建议绕过Ollama，直接使用底层引擎

二、适用场景速查表

2.1 按使用场景选型

场景	推荐框架	理由
本地开发测试	Ollama	一键安装，Modelfile灵活配置
MacBook Pro本地跑70B	llama.cpp	Metal后端优化，统一内存优势
边缘设备/嵌入式	llama.cpp	ARM NEON优化，低资源占用
高并发API服务	vLLM	连续批处理，PagedAttention
70B+大模型生产部署	vLLM	TP/PP分布式支持完善
MoE模型(DeepSeek)	vLLM	EP专家并行原生支持
CPU兜底/降级链路	llama.cpp	跨平台稳定，GGUF生态成熟

2.2 按硬件环境选型

无GPU环境：

# 唯一选择：llama.cpp ./llama-cli -m model.gguf --threads 32

单卡消费级GPU（RTX 4090 24GB）：

# 7B-13B模型：vLLM或llama.cpp均可# 70B模型：必须用量化版 + vLLM vllm serve --model llama-70b-awq --quantization awq

多卡数据中心GPU（A100/H100）：

# vLLM是最佳选择 vllm serve --model llama-405b --tensor-parallel-size 8

Apple Silicon（M1/M2/M3）：

# llama.cpp Metal后端最优 ./llama-cli -m model.gguf -ngl 99# 全部层卸载到GPU

三、快速上手示例

3.1 Ollama：5分钟跑起来

# 安装curl -fsSL https://ollama.com/install.sh |sh# 拉取并运行模型 ollama run llama3.1:70b # 自定义Modelfilecat> Modelfile <<'EOF' FROM llama3.1:70b PARAMETER temperature 0.7 PARAMETER top_p 0.9 SYSTEM "你是一个专业的编程助手" EOF ollama create my-model -f Modelfile

3.2 llama.cpp：从源码构建

# 克隆并编译git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp make -j LLAMA_CUDA=1# NVIDIA GPU# 下载GGUF模型并运行 ./llama-cli \ -m models/llama-3.1-70b-Q4_K_M.gguf \ --ctx-size 32768\ --threads 32\ -ngl 99# GPU层数，99表示全部

3.3 vLLM：生产级部署

# pip安装 pip install vllm # 启动服务 vllm serve meta-llama/Llama-3.1-70B \ --tensor-parallel-size 4\ --gpu-memory-utilization 0.85\ --max-model-len 32768\ --enable-prefix-caching # 调用APIcurl http://localhost:8000/v1/completions \ -H "Content-Type: application/json"\ -d '{ "model": "meta-llama/Llama-3.1-70B", "prompt": "Hello,", "max_tokens": 100 }'

四、常见误区澄清

误区1：Ollama可以替代vLLM用于生产

真相：Ollama的HTTP层和调度逻辑在高并发下会成为瓶颈。实测数据显示，相同硬件下vLLM的吞吐量是Ollama的3-5倍。

误区2：llama.cpp比vLLM慢，应该被淘汰

真相：llama.cpp在CPU推理和边缘设备场景下是最佳选择。它的跨平台能力和GGUF生态是vLLM无法替代的。

误区3：vLLM支持所有模型格式

真相：vLLM主要支持HuggingFace格式（safetensors/bin），而llama.cpp专注于GGUF。选型前需要确认模型格式支持。

五、系列文章预告

本文是系列的开篇，后续将深入各个技术细节：

02 - 量化与性能：GGUF、AWQ、GPTQ的原理差异与性能基准
03 - KV Cache与批处理：PagedAttention如何让内存利用率从60%提升到95%
04 - 分布式推理：TP/PP/EP并行策略的原理与配置
05 - 生产架构：Kubernetes部署与混合链路设计
06 - 故障排查：监控指标、性能调优与故障演练

参考资源

文章标签

大模型推理LLM部署vLLMllama.cppOllamaAI工程化模型量化

OpenClaw+优云智算Coding Plan：从灵感到成文，再到公众号发布的全流程AI自动化

1. 背景在自媒体运营、技术分享和日常内容创作中，许多从业者面临碎片化、低效率和重复劳动的问题。从灵感闪现到文章发布，整个过程涉及多个步骤如构思、撰写、排版及上传等，需要频繁切换工具与手动调整格式，耗时费力且容易出错。目前市面上的AI工具大多只能解决特定环节的问题，无法覆盖整个创作流程；而专业自动化平台要么操作复杂，要么成本高昂，难以普及使用。为此，我使用OpenClaw开源AI智能体（龙虾）和优云智算Coding Plan大模型服务搭建了一个流水线。通过OpenClaw的任务管理和工具调用能力，加上优云智算提供的稳定低价算力支持，实现了“灵感输入→文案生成→内容优化→公众号发布”的端到端全流程自动化，极大提高了效率，让创作者能够更加专注于创意本身。 2. AI大模型配置优云智算Coding Plan是聚合了OpenAI、Claude、DeepSeek、智谱GLM、MiniMax等全球主流大模型的订阅式算力服务，兼容OpenAI API协议，支持Claude Code/Codex/OpenClaw等AI工具，能完美对接OpenClaw，为内容创作提供稳定的AI生成能力，本

如何借助AI完成测试用例的生成？实测高效落地指南

作为一名测试从业者，想必你也有过这样的困扰：重复编写常规功能的测试用例，耗时又耗力；面对复杂业务逻辑，容易遗漏边缘场景；需求频繁迭代时，用例更新跟不上节奏，常常陷入“加班写用例、熬夜改用例”的内耗里。而现在，生成式AI的爆发的已经彻底改变了测试用例生成的传统模式——它能快速批量生成用例、覆盖更多人工易忽略的场景，还能适配需求迭代快速更新，将测试人员从重复劳动中解放出来，转向更核心的质量策略设计。但很多人尝试后却反馈：“把需求丢给AI，生成的用例驴唇不对马嘴”“看似全面，实际很多无法执行”。其实，AI生成测试用例的核心不是“输入→输出”的简单操作，而是“人机协同”的高效配合：AI负责规模化生产，人负责搭建框架、把控质量。今天就结合我的实测经验，手把手教你如何借助AI高效生成测试用例，避开常见坑，真正实现提效不内耗。一、先搞懂：AI生成测试用例的底层逻辑（避免踩错第一步）很多人用不好AI的核心原因，是误以为AI能“读懂所有需求”，其实它的本质是“基于已有规则和数据，模仿人类测试思维生成用例”。其底层主要依赖三大技术，

Openclaw高星开源框架：三省六部·用古代官制设计的 AI Agent 协作架构

作者：cft0808 项目地址：https://github.com/cft0808/edict |许可：MIT 概述三省六部·Edict 是一个基于中国古代官制设计的 AI 多 Agent 协作架构。它把唐朝以来运行了一千多年的三省六部制搬到了 AI 世界，创建了一套具有分权制衡、专职审核、完全可观测特性的 Agent 协作系统。项目目前 6.9k+ Stars，581 Fork，Star 增长很快。核心设计思想问题：为什么大多数 Multi-Agent 框架不好用？当前主流的多 Agent 框架（CrewAI、AutoGen、LangGraph）通常采用「自由对话」模式： Agent A

2026最新Python+AI入门指南：从零基础到实战落地，避开90%新手坑

🎁个人主页：User_芊芊君子 🎉欢迎大家点赞👍评论📝收藏⭐文章 🔍系列专栏：AI 【前言】哈喽，各位想入门AI的小伙伴！随着生成式AI、大模型应用的爆发，Python+AI已成为最热门的技术组合，无论应届生求职、职场人转型还是兴趣探索，掌握这门技能都能打开新赛道。但很多新手都会陷入“先学Python还是先学AI”“数学不好能不能学”“学完不会实战”的困境。本文结合2026年AI技术趋势，用「知识点+核心代码+流程图+表格」的形式，从零基础打通Python+AI入门全链路，聚焦热门易上手方向，全程干货，新手可直接跟着练，老司机可查漏补缺～一、为什么2026年入门AI，首选Python？很多新手会问：“学AI一定要用Python吗？Java、C++不行吗？” 答案是：不是不行，但Python是效率最高、门槛最低、生态最完善的选择，