昇腾设备部署llama.cpp

硬件环境:

Atlas 800I A2

CPU:KunPeng920 * 192

NPU:Atlas 910B4-1 * 8

内存:1000G

软件环境

操作系统:OpenEuler22.03 LTS

内核:5.10.0-186.0.0.2.1.oe2203sp3.galaxy.aarch64

驱动:24.1.rc2

docker:26.1.3

为了不影响物理环境,安装是在docker容器环境中进行,

由于目前llama.cpp只支持openeuler22.03和ubuntu 22.04,可以下载一个对应操作系统的镜像

此处以vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64镜像为例

拉取镜像:

docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/openeuler/vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64

支持Atlas 300I Duo Atlas 300T A2(Ascend 910B4)

起容器:

docker run -it -d --net=host --shm-size=500g \ --privileged \ --name vllm-ascend \ --device=/dev/davinci_manager \ --device=/dev/hisi_hdc \ --device=/dev/devmm_svm \ -v /usr/local/Ascend/driver:/usr/local/

Read more

深入 llama.cpp:llama-server-- 从命令行到HTTP Server(2)

深入 llama.cpp:llama-server-- 从命令行到HTTP Server(2)

前言        llama-server是llama.cpp中用于发布大模型服务的工具。它通过极简的命令行配置,将复杂的模型推理过程封装为通用的 HTTP 接口;在底层,它选择以纯 C++ 编写的 cpp-httplib 作为服务框架的底层。本章分为应用实战与底层架构两部分。首先,我们将介绍不同参数下的大模型服务发布;接着,我们将详细解析 cpp-httplib 在项目中的具体实现,帮助读者掌握该服务端在网络调度层面的运行逻辑。 目录 * 1 应用实战:启动大模型服务 * 2 架构解析:基于cpp-httplib的运行机制 1 应用实战:启动大模型服务        llama-server是一款轻量级、兼容 OpenAI API、用于提供大语言模型服务的 HTTP 服务器。在上节中,我们启动了llama-server,构建了本地的大模型服务。本节将在此基础上,进一步深入llama-server启动过程的参数设置,同时演示如何利用curl工具发起网络请求,以实测并验证服务的接口响应。 1.1 模型服务参数设置        llama-server支持自定义

Copilot “Plan Mode“ + 多模型协同实战:让复杂项目开发丝滑起飞

在 AI 辅助编程普及的今天,我们似乎习惯了“Tab 键一路狂飙”的快感。但在面对大型存量项目(Legacy Code)时,这种快感往往会变成惊吓——AI 生成的代码看似完美,实则破坏了原有的架构逻辑,或者引入了难以排查的幻觉(Hallucinations)。 作为一名后端开发者,我在工具链的探索上走了不少弯路。从 Spec Kit 到 Gemini Conductor,再到如今的 GitHub Copilot Plan Mode,我终于找到了一套适合 复杂业务架构 的“最佳实践”。 今天想和大家分享这套 “Plan + Implement” 模式 配合 “多模型路由” 的打法,它让我的开发体验发生了质变。 一、 引言:寻找大型复杂项目的“银弹” 在探索 AI 编程工具的过程中,我经历了三个阶段的心态变化:

Meta-Llama-3-8B-Instruct效果展示:多轮对话不断片的惊艳表现

Meta-Llama-3-8B-Instruct效果展示:多轮对话不断片的惊艳表现 1. 引言:为什么这款模型值得你关注? 你有没有遇到过这样的情况:和AI聊着聊着,它突然“失忆”了?前一句还在讨论旅行计划,后一句就问你“我们刚才说到哪儿了?”——这种断片式的对话体验,简直让人抓狂。 今天要展示的 Meta-Llama-3-8B-Instruct,正是为解决这个问题而生。它不仅能在单张消费级显卡(如RTX 3060)上流畅运行,更凭借原生支持 8k上下文长度 的能力,实现了真正意义上的“长记忆”多轮对话。哪怕你输入一整篇技术文档、一段复杂需求描述,甚至连续十几轮闲聊,它都能记住关键信息,不丢不漏。 这不仅仅是一个参数升级,而是对话体验的一次质变。本文将通过真实交互案例,带你直观感受这款模型在多轮对话中的稳定输出与上下文连贯性,看看它是如何做到“不断片”的。 2. 模型核心亮点速览 2.1 参数与部署友好性 * 80亿参数,属于Llama 3系列中的中等规模版本 * 支持 GPTQ-INT4量化压缩,

GitHub Copilot Pro 学生认证免费订阅及VS Code集成完整教程

GitHub Copilot Pro 学生认证免费订阅及VS Code集成完整教程

GitHub Copilot Pro 学生认证免费订阅及VS Code集成完整教程 一、学生认证资格与前期准备 1.1 认证资格要求 GitHub Copilot Pro 为经官方验证的全日制学生、在职教师及热门开源项目维护者提供免费订阅权限。认证需满足以下核心条件: * 学生需提供有效学籍证明(学生卡/学信网认证) * 教师需提供工作证/教师资格证 * 使用学校官方邮箱(以.edu或.edu.cn结尾) * 账户需通过双重身份认证(2FA) 1.2 账户设置准备 1. 绑定教育邮箱 在GitHub账户设置中添加学校邮箱,并完成验证: * 进入Settings → Emails → Add email address * 输入形如[email protected]的邮箱 * 登录学校邮箱查收验证邮件并确认 2. 完善个人信息 在Profile → Edit profile中填写: