昇腾设备部署llama.cpp

优质文章学习记录

07 Apr 2026 — 1 min read

硬件环境：

Atlas 800I A2

CPU：KunPeng920 * 192

NPU：Atlas 910B4-1 * 8

内存：1000G

软件环境

操作系统：OpenEuler22.03 LTS

内核：5.10.0-186.0.0.2.1.oe2203sp3.galaxy.aarch64

驱动：24.1.rc2

docker：26.1.3

为了不影响物理环境，安装是在docker容器环境中进行，

由于目前llama.cpp只支持openeuler22.03和ubuntu 22.04，可以下载一个对应操作系统的镜像

此处以vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64镜像为例

拉取镜像：

docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/openeuler/vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64

支持Atlas 300I Duo Atlas 300T A2（Ascend 910B4）

起容器：

docker run -it -d --net=host --shm-size=500g \ --privileged \ --name vllm-ascend \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ --device=/dev/devmm_svm \ -v /usr/local/Ascend/driver:/usr/local/

Read more

深入 llama.cpp：llama-server-- 从命令行到HTTP Server(2)

深入 llama.cpp：llama-server-- 从命令行到HTTP Server(2)

前言 llama-server是llama.cpp中用于发布大模型服务的工具。它通过极简的命令行配置，将复杂的模型推理过程封装为通用的 HTTP 接口；在底层，它选择以纯 C++ 编写的 cpp-httplib 作为服务框架的底层。本章分为应用实战与底层架构两部分。首先，我们将介绍不同参数下的大模型服务发布；接着，我们将详细解析 cpp-httplib 在项目中的具体实现，帮助读者掌握该服务端在网络调度层面的运行逻辑。目录 * 1 应用实战：启动大模型服务 * 2 架构解析：基于cpp-httplib的运行机制 1 应用实战：启动大模型服务 llama-server是一款轻量级、兼容 OpenAI API、用于提供大语言模型服务的 HTTP 服务器。在上节中，我们启动了llama-server，构建了本地的大模型服务。本节将在此基础上，进一步深入llama-server启动过程的参数设置，同时演示如何利用curl工具发起网络请求，以实测并验证服务的接口响应。 1.1 模型服务参数设置 llama-server支持自定义

Copilot “Plan Mode“ + 多模型协同实战：让复杂项目开发丝滑起飞

在 AI 辅助编程普及的今天，我们似乎习惯了“Tab 键一路狂飙”的快感。但在面对大型存量项目（Legacy Code）时，这种快感往往会变成惊吓——AI 生成的代码看似完美，实则破坏了原有的架构逻辑，或者引入了难以排查的幻觉（Hallucinations）。作为一名后端开发者，我在工具链的探索上走了不少弯路。从 Spec Kit 到 Gemini Conductor，再到如今的 GitHub Copilot Plan Mode，我终于找到了一套适合复杂业务架构的“最佳实践”。今天想和大家分享这套 “Plan + Implement” 模式配合 “多模型路由” 的打法，它让我的开发体验发生了质变。一、引言：寻找大型复杂项目的“银弹” 在探索 AI 编程工具的过程中，我经历了三个阶段的心态变化：

Meta-Llama-3-8B-Instruct效果展示：多轮对话不断片的惊艳表现

Meta-Llama-3-8B-Instruct效果展示：多轮对话不断片的惊艳表现 1. 引言：为什么这款模型值得你关注？你有没有遇到过这样的情况：和AI聊着聊着，它突然“失忆”了？前一句还在讨论旅行计划，后一句就问你“我们刚才说到哪儿了？”——这种断片式的对话体验，简直让人抓狂。今天要展示的 Meta-Llama-3-8B-Instruct，正是为解决这个问题而生。它不仅能在单张消费级显卡（如RTX 3060）上流畅运行，更凭借原生支持 8k上下文长度的能力，实现了真正意义上的“长记忆”多轮对话。哪怕你输入一整篇技术文档、一段复杂需求描述，甚至连续十几轮闲聊，它都能记住关键信息，不丢不漏。这不仅仅是一个参数升级，而是对话体验的一次质变。本文将通过真实交互案例，带你直观感受这款模型在多轮对话中的稳定输出与上下文连贯性，看看它是如何做到“不断片”的。 2. 模型核心亮点速览 2.1 参数与部署友好性 * 80亿参数，属于Llama 3系列中的中等规模版本 * 支持 GPTQ-INT4量化压缩，

GitHub Copilot Pro 学生认证免费订阅及VS Code集成完整教程

GitHub Copilot Pro 学生认证免费订阅及VS Code集成完整教程

GitHub Copilot Pro 学生认证免费订阅及VS Code集成完整教程一、学生认证资格与前期准备 1.1 认证资格要求 GitHub Copilot Pro 为经官方验证的全日制学生、在职教师及热门开源项目维护者提供免费订阅权限。认证需满足以下核心条件： * 学生需提供有效学籍证明（学生卡/学信网认证） * 教师需提供工作证/教师资格证 * 使用学校官方邮箱（以.edu或.edu.cn结尾） * 账户需通过双重身份认证（2FA） 1.2 账户设置准备 1. 绑定教育邮箱在GitHub账户设置中添加学校邮箱，并完成验证： * 进入Settings → Emails → Add email address * 输入形如[email protected]的邮箱 * 登录学校邮箱查收验证邮件并确认 2. 完善个人信息在Profile → Edit profile中填写：