llama.cpp + llama-server 的安装部署验证

飞桨AI Studio星河社区-人工智能学习与实训社区

用的是 魔塔的免费资源 不太稳定

我的Notebook · 魔搭社区

cat /etc/os-release

 Ubuntu 22.04.5 LTS (Jammy Jellyfish) —— 这是一个长期支持(LTS)且完全受支持的现代 Linux 发行版,非常适合部署 llama.cpp + llama-server。Ubuntu 22.04 自带较新的 GCC(11+)、CMake(3.22+)和 Python 3.10+,无需手动升级工具链,部署过程非常顺畅。

一、安装系统依赖
sudo apt update

sudo apt install -y git build-essential cmake libssl-dev

二、克隆并编译 llama.cpp

1. 克隆仓库

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

步骤 3:使用 CMake 构建 server

mkdir build

sudo apt install -y ninja-build

cd build

cmake .. -G Ninja

ninja server  报错了

rm -rf build  
重新来
mkdir build && cd build
cmake .. -DCMAKE_BUILD_TYPE=Release -DLLAMA_BUILD_SERVER=ON


make -j $(nproc) llama-server

三、准备 GGUF 模型

下载量化模型(以 Llama-3-8B-Instruct Q4_K_M 为例)
cd /mnt/data/

pip install --upgrade pip

pip install modelscope

modelscope download --model QuantFactory/Llama-3-8B-Instruct-Coder-GGUF Llama-3-8B-Instruct-Coder.Q6_K.gguf --local_dir /mnt/data

modelscope download --model ngxson/Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF qwen2.5-7b-instruct-1m-q4_k_m.gguf --local_dir /mnt/data

Qwen2.5-7B-Instruct-1M-Q4_K_M-GGUF · 模型库

Llama-3-8B-Instruct-Coder-GGUF · 模型库


# 启动

/mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 2048 --threads 8

# 1. 后台启动

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/Llama-3-8B-Instruct-Coder.Q6_K.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

nohup /mnt/workspace/llama.cpp/build/bin/llama-server -m /mnt/data/qwen2.5-7b-instruct-1m-q4_k_m.gguf --port 8080 --host 0.0.0.0 --ctx-size 8192 --threads 8 > /mnt/workspace/llama-server.log 2>&1 &

# 2. 验证

curl http://localhost:8080/health

# 3. 查日志

tail -f /mnt/workspace/llama-server.log

# 4. 停止

pkill -f llama-server

curl http://localhost:8080/completion \ -H "Content-Type: application/json" \ -d '{ "prompt": "<|start_header_id|>user<|end_header_id|>\n\n你好,请写一首关于春天的诗。<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n", "n_predict": 150, "stop": ["<|eot_id|>"] }'

curl http://localhost:8080/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "messages": [{"role": "user", "content": "你好!"}], "temperature": 0.7, "max_tokens": 50 }'

Read more

Gemma-3-270m Vue.js前端集成:浏览器端AI应用开发

Gemma-3-270m Vue.js前端集成:浏览器端AI应用开发 1. 为什么要在浏览器里跑AI模型 你有没有想过,当用户打开一个网页,不需要下载App、不用配置环境、甚至不联网也能和AI对话?这听起来像未来科技,但其实已经可以实现了。最近Google发布的Gemma-3-270m模型,只有270M参数,轻量得像一张高清图片,却能在浏览器里完成文本生成、问答、代码辅助等任务。 过去我们总以为AI必须跑在服务器上,前端只是个“花瓶”界面。但现实是,很多场景根本不需要把数据传到云端——比如个人笔记里的智能摘要、设计稿旁的文案建议、学习资料的即时问答。这些需求对响应速度敏感,对隐私要求高,还希望离线可用。 Vue.js作为国内最常用的前端框架之一,生态成熟、上手简单、文档友好,特别适合快速搭建这类轻量AI应用。它不像React那样需要大量配置,也不像Svelte那样学习曲线陡峭,而是用一种“写HTML就能动起来”的直觉方式,让开发者能把精力集中在AI能力本身,而不是框架折腾上。 实际测试中,一个基于Vue的Gemma-3-270m应用,在普通笔记本上首次加载模型约8秒,后续推

全面掌握WebDAV客户端工具:从入门到精通实战指南

全面掌握WebDAV客户端工具:从入门到精通实战指南 【免费下载链接】webdavSimple Go WebDAV server. 项目地址: https://gitcode.com/gh_mirrors/we/webdav WebDAV作为现代远程文件管理的核心技术,能够将远程服务器文件操作变得如同本地操作一样直观便捷。无论您是个人用户还是企业团队,掌握WebDAV客户端工具都能极大提升工作效率。🎯 WebDAV协议的核心价值与应用场景 WebDAV协议基于HTTP/HTTPS构建,提供了超越传统FTP的丰富功能特性。在日常工作中,WebDAV能够完美解决以下痛点: * 跨平台文件同步:在Windows、macOS、Linux系统间无缝传输文件 * 团队协作管理:支持文件锁定功能,避免多人同时编辑冲突 * 远程办公支持:通过互联网安全访问公司内部文件资源 * 移动设备集成:手机平板轻松连接服务器,随时随地访问文档 专业级WebDAV客户端工具深度评测 Windows平台首选工具 RaiDrive - 革命性的网络驱动器映射方案 * 将WebDAV服务

SenseVoice-small WebUI保姆级:Linux服务器防火墙端口开放配置

SenseVoice-small WebUI保姆级:Linux服务器防火墙端口开放配置 1. 引言:为什么需要配置防火墙端口? 想象一下,你刚刚在Linux服务器上成功部署了SenseVoice-small语音识别服务,心情激动地打开浏览器,输入 http://你的服务器IP:7860,结果页面一片空白,或者直接提示“无法访问此网站”。 是不是瞬间感觉像被泼了一盆冷水?别着急,这很可能不是你的部署出了问题,而是服务器的“门卫”——防火墙,把访问请求给拦住了。 今天这篇文章,就是来帮你解决这个问题的。我会用最直白的方式,带你一步步搞定Linux服务器的防火墙端口配置,让你能顺利访问到SenseVoice-small的WebUI界面。无论你是刚接触Linux的新手,还是有一定经验但对防火墙配置不太熟悉的开发者,这篇文章都能帮到你。 我们先来快速了解一下SenseVoice-small是什么。它是一个轻量级的多任务语音模型,专门针对ONNX格式做了量化优化,所以能在手机、平板、嵌入式设备这些资源有限的环境里离线运行。它的WebUI界面设计得很友好,支持上传音频文件或者直接录音,然

C++ 方向 Web 自动化测试入门指南:从概念到 Selenium 实战

C++ 方向 Web 自动化测试入门指南:从概念到 Selenium 实战

🔥草莓熊Lotso:个人主页 ❄️个人专栏: 《C++知识分享》《Linux 入门到实践:零基础也能懂》 ✨生活是默默的坚持,毅力是永久的享受! 🎬 博主简介: 文章目录 * 前言: * 一. 自动化测试基础:先搞懂"为什么"和"做什么" * 1.1 自动化测试的核心目标:回归测试 * 1.2 自动化测试分类:别把 “不同自动化” 混为一谈 * 1.3 自动化测试金字塔:如何分配测试资源? * 二. Web 自动化测试核心:环境搭建与驱动管理 * 2.1 核心组件原理:三者如何协同工作? * 2.2 环境搭建:3 步搞定依赖安装