llama.cpp + llama-server 的安装部署验证

优质文章学习记录

11 Apr 2026 — 4 min read

用的是魔塔的免费资源不太稳定

cat /etc/os-release

Ubuntu 22.04.5 LTS (Jammy Jellyfish) —— 这是一个长期支持（LTS）且完全受支持的现代 Linux 发行版，非常适合部署 llama.cpp + llama-server。Ubuntu 22.04 自带较新的 GCC（11+）、CMake（3.22+）和 Python 3.10+，无需手动升级工具链，部署过程非常顺畅。

一、安装系统依赖
sudo apt update

sudo apt install -y git build-essential cmake libssl-dev

二、克隆并编译 llama.cpp

1. 克隆仓库

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

步骤 3：使用 CMake 构建 `server`

mkdir build

sudo apt install -y ninja-build

cd build

cmake .. -G Ninja

ninja server 报错了

rm -rf build
重新来
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_BUILD_SERVER=ON

make -j $(nproc) llama-server

三、准备 GGUF 模型

下载量化模型（以 Llama-3-8B-Instruct Q4_K_M 为例）
cd /mnt/data/

pip install --upgrade pip

pip install modelscope

modelscope download --model QuantFactory/Llama-3-8B-Instruct-Coder-GGUF Llama-3-8B-Instruct-Coder.Q6_K.gguf --local_dir /mnt/data

modelscope download --model ngxson/Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF qwen2.5-7b-instruct-1m-q4_k_m.gguf --local_dir /mnt/data

Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF · 模型库

Llama-3-8B-Instruct-Coder-GGUF · 模型库

# 启动

/mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 2048 --threads 8

# 1. 后台启动

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/qwen2.5-7b-instruct-1m-q4_k_m.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

# 2. 验证

curl http://localhost:8080/health

# 3. 查日志

tail -f /mnt/workspace/llama-server.log

# 4. 停止

pkill -f llama-server

curl http://localhost:8080/completion \ -H "Content-Type: application/json" \ -d '{ "prompt": "<|start_header_id|>user<|end_header_id|>\n\n你好，请写一首关于春天的诗。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", "n_predict": 150, "stop": ["<|eot_id|>"] }'

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "messages": [{"role": "user", "content": "你好！"}], "temperature": 0.7, "max_tokens": 50 }'

聊聊天 AI 自己能干活！影刀 6.0 解锁化学资讯整理新姿势

谁懂啊！想从化学专业网页扒取资讯标题和链接，还要按主题分类生成带时间戳的 PDF或HTML，放在以前得敲半天代码、调无数参数，现在和影刀 RPA6.0 聊聊天，电脑直接自己把活干完了，甚至报错都能自动解决，这 AI 自动化也太香了！✨ 作为常年和各类化学资讯打交道的人，日常需要从专业化工网页提取信息、分类整理并归档，重复的操作不仅耗时，还容易因为细节出错。直到试了影刀 RPA6.0 的全新 AI 功能，才发现原来自动化可以这么简单 —— 不用学编程，不用搭复杂流程，只需要用自然语言把需求说清楚，剩下的全交给 AI 就够了。这次我的需求很明确：访问这个化学资讯网页，抓取页面所有咨询的标题和对应链接，按照我关注的化学主题按相似度自动分类，最后将结果保存到电脑桌面，以当前年月日时分秒命名为 PDF或HTML 文件。原本以为会遇到元素定位失败、分类逻辑混乱、文件命名出错等问题，没想到影刀 6.0 的 AI 能力直接把这些难题全解决了！

基于ModelEngine快速搭建AI智能体，打造你的专属旅行顾问

大家好，我是herosunly。985院校硕士毕业，现担任算法工程师一职，获得ZEEKLOG博客之星第一名，热衷于大模型算法的研究与应用。曾担任百度千帆AI应用挑战赛、英特尔AI创新应用大赛等比赛评委，科大讯飞AI大学堂荣誉讲师，编写微软OpenAI考试认证指导手册。曾获得多项AI顶级比赛的Top名次，其中包括阿里云天池比赛第一名，科大讯飞分类挑战赛第一名。在技术创新领域拥有多项授权发明。本文详细介绍了基于ModelEngine快速搭建AI智能体，打造你的专属旅行顾问，希望能对搭建AI智能体的同学们有所帮助。文章目录 * 1. 前言：打造更懂你的“智能旅行助手” * 1.1 思考：从导航进化为向导 * 1.2 破局：华为 ModelEngine 的可视化方案 * 2. 环境准备与应用初始化 * 2.1 平台登录与入口 * 2.2 创建应用 * 2.3 智能生成框架 * 3. 核心能力配置 * 3.1 提示词优化 * 3.2

LLM - 10分钟安装 OpenClaw：把 AI 管家跑在你自己的电脑上

文章目录 * 概述 * 一句话安装（推荐） * 1）安装前检查（避坑） * 2）安装后验证：确认"真的跑起来了" * 2.1 诊断（强烈建议） * 2.2 查看运行状态 * 2.3 打开仪表盘 * 3）备选安装方式 * 方式 A：手动全局安装（你已经有 Node/npm） * macOS 上 `sharp` 相关报错怎么办？ * 方式 B：从源码安装（适合贡献/二开） * 4）常见问题排错（最常见就这一个） * "安装成功但提示 openclaw: command not found"

Trae AI 保姆级教程：从安装到调试全流程指南

Trae AI 保姆级教程：从安装到调试全流程指南 Trae AI 是字节跳动推出的一款 AI 原生集成开发环境(IDE)，专为中文开发者设计，集成了 Claude 3.5 和 GPT-4o 等先进 AI 模型，支持通过自然语言交互实现代码生成、项目构建与调试。本教程将详细介绍 Trae AI 的安装、配置、使用和调试全流程，帮助您快速上手这款强大的开发工具。一、Trae AI 安装指南 1. 系统要求在安装 Trae AI 前，请确保您的系统满足以下最低配置要求： * 操作系统：macOS 10.15+ 或 Windows 10/11（Linux 版本暂未推出）