硬件环境
- 服务器型号:Atlas 800I A2
- CPU:Kunpeng 920 * 192
- NPU:Atlas 910B4-1 * 8
- 内存:1000G
软件环境
- 操作系统:OpenEuler 22.03 LTS
- 内核:5.10.0-186.0.0.2.1.oe2203sp3.galaxy.aarch64
- 驱动版本:24.1.rc2
- Docker 版本:26.1.3
为不影响物理环境,安装将在 Docker 容器中进行。由于目前 llama.cpp 仅支持 OpenEuler 22.03 和 Ubuntu 22.04,需下载对应操作系统的镜像。
此处以 vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64 镜像为例(支持 Atlas 300I Duo、Atlas 300T A2/Ascend 910B4)。
拉取镜像
docker pull swr.cn-north-4.myhuaweicloud.com/ddn-k8s/docker.io/openeuler/vllm-ascend:0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts-linuxarm64
启动容器
docker run -it -d --net=host --shm-size=500g \
--privileged \
--name vllm-ascend \
--device=/dev/davinci_manager \
--device=/dev/hisi_hdc \
--device=/dev/devmm_svm \
-v /usr/local/Ascend/driver:/usr/local/

