llama.cpp + llama-server 的安装部署验证

优质文章学习记录

09 Apr 2026 — 4 min read

用的是魔塔的免费资源不太稳定

cat /etc/os-release

Ubuntu 22.04.5 LTS (Jammy Jellyfish) —— 这是一个长期支持（LTS）且完全受支持的现代 Linux 发行版，非常适合部署 llama.cpp + llama-server。Ubuntu 22.04 自带较新的 GCC（11+）、CMake（3.22+）和 Python 3.10+，无需手动升级工具链，部署过程非常顺畅。

一、安装系统依赖
sudo apt update

sudo apt install -y git build-essential cmake libssl-dev

二、克隆并编译 llama.cpp

1. 克隆仓库

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

步骤 3：使用 CMake 构建 `server`

mkdir build

sudo apt install -y ninja-build

cd build

cmake .. -G Ninja

ninja server 报错了

rm -rf build
重新来
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_BUILD_SERVER=ON

make -j $(nproc) llama-server

三、准备 GGUF 模型

下载量化模型（以 Llama-3-8B-Instruct Q4_K_M 为例）
cd /mnt/data/

pip install --upgrade pip

pip install modelscope

modelscope download --model QuantFactory/Llama-3-8B-Instruct-Coder-GGUF Llama-3-8B-Instruct-Coder.Q6_K.gguf --local_dir /mnt/data

modelscope download --model ngxson/Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF qwen2.5-7b-instruct-1m-q4_k_m.gguf --local_dir /mnt/data

Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF · 模型库

Llama-3-8B-Instruct-Coder-GGUF · 模型库

# 启动

/mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 2048 --threads 8

# 1. 后台启动

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/qwen2.5-7b-instruct-1m-q4_k_m.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

# 2. 验证

curl http://localhost:8080/health

# 3. 查日志

tail -f /mnt/workspace/llama-server.log

# 4. 停止

pkill -f llama-server

curl http://localhost:8080/completion \ -H "Content-Type: application/json" \ -d '{ "prompt": "<|start_header_id|>user<|end_header_id|>\n\n你好，请写一首关于春天的诗。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", "n_predict": 150, "stop": ["<|eot_id|>"] }'

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "messages": [{"role": "user", "content": "你好！"}], "temperature": 0.7, "max_tokens": 50 }'

【Coze-AI智能体平台】低门槛玩转Coze工作流！基础创建+五大核心节点+新闻扩展实战，新手直接抄作业

🔥小龙报：个人主页 🎬作者简介：C++研发，嵌入式，机器人方向学习者 ❄️个人专栏：《coze智能体开发平台》 ✨ 永远相信美好的事情即将发生文章目录 * 前言 * 一、创建工作流 * 1.1 操作路径：从登录到进入创建界面 * 1.2 配置规范：名称与描述的设置规则 * 1.2.1 工作流名称要求： * 1.2.2 工作流描述 * 1.3 初始界面：默认节点与编辑区域 * 1.3.1 默认节点 * 1.3.2 编辑区域 * 二、节点系统详解 * 2.1 基础节点 * 2.1.1

保姆级教程：25个降AI提示词大全，手把手教你去AI味

保姆级教程：25个降AI提示词大全，手把手教你去AI味 TL;DR：本文整理了25个实测有效的降AI提示词，涵盖角色设定法、语义重构法、口语化改写法等多种技巧，配合嘎嘎降AI等专业工具使用，可以把AI率从92%降到5%以下。每个指令都附带使用场景和效果说明，直接复制就能用。为什么需要降AI提示词用DeepSeek、ChatGPT这些AI写论文确实方便，但生成的内容有个致命问题：AI味太重。什么是AI味？简单说就是句式过于工整、用词过于精准、缺乏个人表达痕迹。现在的AIGC检测系统正是抓住这些特征来识别AI生成内容，所以哪怕你让AI帮你写的内容在专业上没问题，检测一看AI率照样飙到90%以上。很多同学的第一反应是手动改，但改来改去AI率还是降不下来，因为你改的只是表面词汇，深层的「机器表达模式」根本没变。这时候就需要用专门的降AI提示词，从源头上让AI输出更「人」的内容。提示词使用前的准备工作在开始使用降AI提示词之前，有几件事一定要先做。第一，先检测一下你的原文AI率是多少，心里有个底。如果AI率在30%以下，直接用提示词润色可能就够了；如果在80%以上，建议提示

OpenClaw Java — 用 Java 全栈实现一个 AI Agent Gateway

项目简介大家好，分享一下我最近在做的开源项目 OpenClaw Java —— 基于 Spring Boot 3.3 的 AI Agent Gateway 全栈实现，通过 WebSocket 自定义帧协议提供全功能 Agent 接口。项目地址：https://github.com/yuenkang/openclaw-java 当前规模: 594 个 Java 源文件 + 17 个测试文件，约 88,500 行代码为什么做这个项目？目前 AI Agent 框架大多集中在 Python 和 TypeScript 生态，Java 社区相对缺少成熟的 Agent 运行时方案。

2026 Python+AI入门｜0基础速通，吃透热门轻量化玩法

🎁个人主页：User_芊芊君子 🎉欢迎大家点赞👍评论📝收藏⭐文章 🔍系列专栏：AI 文章目录： * 一、2026 Python+AI入门，必抓3个热门新趋势 * 二、入门前提：不用啃硬骨头，掌握这2点就够了 * 环境搭建（10分钟搞定，Windows/Mac通用） * 三、3个实战案例 * 案例1：30行代码开发AI文本总结工具（轻量化工具，最易上手） * 案例2：大模型微调入门（Llama 3微调，2026热门） * 案例3：AI自动数据标注（图像标注，企业刚需） * 四、Python+AI入门学习流程图（2026最新，不绕路） * 五、2026新手避坑指南 * 六、总结【前言】大家好，我是一名深耕AI入门教学的开发者，