如何在ubuntu上安装并使用llama.cpp

优质文章学习记录

06 Apr 2026 — 2 min read

如何在ubuntu上安装使用llama.cpp

1.安装依赖

sudoapt update &&sudoapt upgrade -ysudoaptinstall build-essential cmake git libopenblas-dev libcurl4-openssl-dev

2.获取llama.cpp的源文件

git clone https://github.com/ggerganov/llama.cpp

3.开始编译

#进入目录cd llama.cpp/ mkdir build cd build #带openblas加速库进行编译# cmake .. -DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS cmake ..-DGGML_CUDA=ON cmake --build.--config Release -j

4.模型格式转换

#进入工作目录cd llama.cpp/build/bin #将huggingface格式的模型转化从gguf python3 convert_hf_to_gguf.py /path/to/src_model \--outtype f16 --outfile /path/to/target_model.gguf

注意此处src_model不是单个文件，包含包括模型结构配置，权重配置，分词器配置在内的完整模型目录。taget_model.gguf是单个文件

量化
如果需要运行更小的模型文件，可以使用llama.cpp自带的量化工具

#进入工作目录cd llama.cpp/build/bin #将原来的模型量化成Q3_K_S ./llama-quantize src_model.gguf target_model_Q3_K_S.gguf Q3_K_S #可以查看其他可用的量化方案 ./llama-quantize --help

如果上述工具运行报错，记得安装好依赖

#建议用conda做好环境隔离后再安装下列依赖，避免污染系统的基础环境 pip install transformers torch mistral_common sentencepiece \-i https://pypi.tuna.tsinghua.edu.cn/simple \ --trusted-host https://pypi.tuna.tsinghua.edu.cn

5.运行
直接使用llama-server

./llama-server -m model.gguf -c4096--host0.0.0.0

在浏览器上打开下列链接，即可开始对话

http://localhost:8080

获取模型

由于huggingface下载太慢，本文选择使用阿里的魔塔社区

这里以下载llama3.1-8B的模型为例

#0.安装modelscope工具 pip install modelscope #1.下载完整模型文件 modelscope download --model LLM-Research/Meta-Llama-3-8B-Instruct #2.查看模型位置，默认会存放在缓存目录ls ~/.cache/modelscope/hub/

如何在ubuntu上安装并使用llama.cpp

优质文章学习记录

如何在ubuntu上安装使用llama.cpp

获取模型

Read more

AI学习第一站：从感知到认知，AI到底是什么？

Lada v0.10.1最新版本地一键启动包教程：AI去马赛克神器实测 Lada去马赛克工具、AI视频去马赛克、本地AI视频修复、一键启动AI工具、视频像素恢复神器

在trae、qoder、Claude Code、Cursor等AI IDE中使用ui-ux-pro-max-skill

OpenClaw 实战：5 分钟用 AI Agent 自动生成规范测试用例并写入 Excel