海光 DUC 环境(海光 DCU K100_AI)部署 ollama+deepseek

看到 ZEEKLOG 上好多的这个部署流程不是要收费就是写的不清不楚,所以决定将我的部署流程写出来,明明所有的官方文档都是免费的。

“不太懂为什么吃了别人免费的饭,现在拉出来的屎要收费!”

声明:本人不是专业运维实施人员,所有的流程都是靠试或直觉,还有一点点的知识

正式开始:

系统:Kylin Linux Advanced Server V10(Lance)

CPU:海光 C86 7360(24 核)

内存:256GB

内核:Linux-4.19.90-52.48.v2207.ky10.x86_64

显卡:海光 DCU K100_AI(Co-processor)

1. 环境部署

1.1 驱动安装

光合开发者社区下载驱动

通过显卡型号选择驱动

驱动版本

支持硬件

推荐DTK版本

rock-4.0-23-5.6.25

Z100/Z100L

21.04/21.10/22.04

rock-4.5.2-5.11.40

Z100/Z100L

22.04/22.10/23.04

rock-5.2.0-5.16.18

Z100/Z100L

22.10/23.04

rock-5.2.0-5.16.29

Z100/Z100L/K100

23.04/23.10

rock-5.7.1-6.2.26+

Z100/Z100L/K100/K100-AI

24.04/25.04

rock-6.3.8+

BW1000/K100-AI/K100/Z100L/Z100

25.04

安装驱动环境

centos:yum install -y rpm-build gcc-c++ cmake automake elfutils-libelf-devel libdrm libdrm-devel pciutils ubuntu:apt install -y gcc g++ cmake automake libelf-dev libdrm_amdgpu1或libdrm-amdgpu1 libtinfo5 pciutils libdrm-dev Centos:yum install -y kernel-devel-`uname -r` kernel-modules-extra ubuntu:apt install -y linux-headers-`uname -r` linux-modules-extra
chmod +x rock*.run systemctl restart hymgr
我这里选择安装 6.2.x 以下的驱动,因为 6.2.x 以上的驱动标识为hycu,以下的标识为hydcu,ollama 检测驱动时会检测标识为hydcu的驱动,如果安装新的会出现找不到 GPU 的问题。

以上内容是通过 ollama 日志猜测。。。
光合官方备注:

1)新版本驱动依赖cmake版本要高于3.2,gcc版本要大于7.3

2)kernel 版本要与kernel-devel版本一致

3)6.2.以前的驱动显示的模块名称是hydcu,6.3.以后的驱动模块是hycu。

4)6.3.*驱动下,docker调用时,推荐挂载/sys/kernel/debug路径,不然,容器内无法获取到dcu进程信息

1.2 DCU 环境安装

https://sourcefind.cn/#/image/dcu/pytorch?activeName=overview

拉取镜像要注意dtk的版本要跟你自己驱动的版本相匹配,上面有对应版本的表格,尽量新一点

推荐容器化部署,如果手动安装坑太多了!

docker run \ --shm-size 64g \ --network=host \ --name=test \ --privileged \ --device=/dev/kfd \ --device=/dev/dri \ --group-add video \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ -v {宿主机工作目录}:/home/ \ -v /opt/hyhal:/opt/hyhal:ro \ --it {镜像 id} bash
  • --shm-size 64g
    • 缓存区大小,默认好像是 64M
容器化部署就是这么简单,有兴趣可以了解下手动部署的流程

2. ollama 安装

进入容器内部 docker exec -it test bash

https://sourcefind.cn/#/model-zoo/1888167889015537665

下载模型和 ollma 用到的inference文件

cd inference pip install -r requirements.txt

这里有警告不要紧,因为有些环境在容器中已经包含,再次安装就是会有警告

2.1 编译 ollama

因为 ollama 默认适配的是英伟达的 CUDA 架构,并没有默认适配海光,所以还是得从光源下载

http://developer.sourcefind.cn/codes/OpenDAS

# 注意,这里的代码版本和 go 的版本是强绑定的,这里如果更换,下面的流程就会发生变化!!! git clone -b 0.5.7 http://developer.sourcefind.cn/codes/OpenDAS/ollama.git --depth=1 cd ollama # 编译 wget https://go.dev/dl/go1.23.4.linux-amd64.tar.gz tar -C /usr/local -xzf go1.23.4.linux-amd64.tar.gz export PATH=$PATH:/usr/local/go/bin # 修改go下载源,提升速度(按需设置) go env -w GOPROXY=https://goproxy.cn,direct # 运行编译 export LIBRARY_PATH=/opt/dtk/lib:$LIBRARY_PATH make -j 16 go build .

这时 ollama 文件夹中会出现一个 ollama 可执行文件

2.2 运行

设备可以通过 rocminforocm-smi查询

export HSA_OVERRIDE_GFX_VERSION=设备型号(如: Z100L gfx906对应9.0.6;K100 gfx926对应9.2.6;K100AI gfx928对应9.2.8) # 例如 export HSA_OVERRIDE_GFX_VERSION=9.2.8 export ROCR_VISIBLE_DEVICES=显卡序号(0,1,2,3,4,5,6,...) # 例如 export ROCR_VISIBLE_DEVICES=0,1,2,3 ./ollama serve # 另开一个窗口 ./ollama run deepseek-r1:14b

注意:ollama 启动后,要确认显卡启用,ollama 日志中会有

测试是否可以正常使用

curl http://localhost:11434/api/chat -d '{"model":"deepseek-r1:14b","messages":[{"role":"user","content":"为什么天空是蓝色的?"}]}' curl http://localhost:11434/api/generate -d '{"model":"deepseek-r1:14b","prompt":"为什么天空是蓝色的?"}' curl http://172.30.0.217:11434/api/chat -d '{"model":"deepseek-r1:14b","messages":[{"role":"user","content":"为什么天空是蓝色的?"}]}' curl http://172.30.0.217:11434/api/generate -d '{"model":"deepseek-r1:14b","prompt":"为什么天空是蓝色的?"}'

如果其它服务器无法访问,添加环境变量

OLLAMA_HOST=0.0.0.0:11434

# 监听所有 ip,默认监听 127.0.0.1:11434

3. 制作 docker 镜像

为了方便使用,这里将已经成功运行并已经部署好 ollama 和模型的容器只作为镜像

docker commit \ --change 'ENV PATH=$PATH:/usr/local/go/bin' \ --change 'ENV LIBRARY_PATH=/opt/dtk/lib:$LIBRARY_PATH' \ --change 'ENV HSA_OVERRIDE_GFX_VERSION=9.2.8' \ --change 'ENV ROCR_VISIBLE_DEVICES=0' \ --change 'CMD ["/workspace/ollama/ollama", "serve"]' \ test dcu-ollama-deepseek:0.0.1

运行:dcu-ollama-deepseek:0.0.1

docker run \ -d \ --restart=always \ --shm-size 64g \ --network=host \ --name=ollama \ --privileged \ --device=/dev/kfd \ --device=/dev/dri \ --group-add video \ --cap-add=SYS_PTRACE \ --security-opt seccomp=unconfined \ -e OLLAMA_HOST=0.0.0.0:11434 \ -v /usr/local/develop/data/ollama:/home/ \ -v /opt/hyhal:/opt/hyhal:ro \ dcu-ollama-deepseek:0.0.1

4. 参考

https://developer.sourcefind.cn/tool

https://developer.sourcefind.cn/gitbook//dcu_tutorial/#15

https://sourcefind.cn/#/image/dcu/pytorch?activeName=overview

https://download.sourcefind.cn:65024/6/main/

https://sourcefind.cn/#/model-zoo/1888167889015537665

国产化硬件任重道远,我们开发的关键是要保持好心态,耐心点,总能将问题解决🙂

Read more

MuJoCo Menagerie 模型对比分析:四大机器人平台的性能差异与选择指南

MuJoCo Menagerie 模型对比分析:四大机器人平台的性能差异与选择指南 【免费下载链接】mujoco_menagerieA collection of high-quality models for the MuJoCo physics engine, curated by Google DeepMind. 项目地址: https://gitcode.com/gh_mirrors/mu/mujoco_menagerie MuJoCo Menagerie 是由 Google DeepMind 精心打造的高质量机器人模型集合,为 MuJoCo 物理引擎提供了丰富的仿真资源。本文将深入对比分析四个主流机器人平台——AgileX Piper 机械臂、Agility Cassie 双足机器人、ANYbotics ANYmal B 四足机器人和 Unitree

5.1 机器人正运动学与逆运动学

5.1 机器人正运动学与逆运动学

5.1 机器人正运动学与逆运动学 机器人运动学是研究机器人运动特性,而不考虑产生运动的力或力矩的几何学分支。它建立了机器人关节空间与操作空间之间的映射关系,是机器人轨迹规划、控制和仿真的基础。本节将系统阐述正运动学与逆运动学的核心概念、建模方法(重点介绍D-H参数法)、求解算法及其在机器人编程与控制中的关键作用。 5.1.1 概述:关节空间与操作空间 机器人的运动描述在两个不同的空间中: * 关节空间:由机器人的所有关节变量(如旋转关节的角度 θi\theta_iθi 、移动关节的位移 did_idi )所张成的空间。一个 nnn 自由度机器人的构型可由关节矢量 q=[q1,q2,...,qn]Tq = [q_1, q_2, ..., q_n]^Tq=[q1 ,q2 ,...,qn ]T 唯一确定,其中 qiq_

AiOnly大模型深度测评:调用GPT-5 API+RAG知识库,快速构建智能客服机器人

AiOnly大模型深度测评:调用GPT-5 API+RAG知识库,快速构建智能客服机器人

声明:本测试报告系作者基于个人兴趣及使用场景开展的非专业测评,测试过程中所涉及的方法、数据及结论均为个人观点,不代表任何官方立场或行业标准。 引言 AI 技术加速渗透各行各业的今天,你是否也面临这样的困境:想调用 GPT-5、Claude4.5等顶尖模型却被海外注册、跨平台适配搞得焦头烂额?想快速搭建智能客服、内容生成工具,却因模型接口差异、成本不可控而望而却步?或是作为中小团队,既想享受 AI 红利,又受限于技术门槛和预算压力? AiOnly平台的出现,正是为了打破这些壁垒。 本文将从实战角度出发,带你全方位解锁这个「全球顶尖大模型 MaaS 平台」:从 5 分钟完成注册到 API 密钥创建,从单模型调用到融合 RAG 知识库的智能体开发,然后手把手教你在 Windows 环境部署一个日均成本不足 0.5 元的电商客服机器人。无论你是 AI 开发者、企业运营者,还是想低成本尝试 AI

安路Anlogic FPGA下载器的驱动安装与测试教程

安路Anlogic FPGA下载器的驱动安装与测试教程

参考链接:安路下载器JTAG驱动安装 - 米联客(milianke) - 博客园 安路支持几款下载器: AL-LINK在线下载器是基于上海安路信息科技股份科技有限公司全系列 CPLD/FPGA 器件,结合公司自研的 TD 软件,可实现在线 JTAG 程序下载、ChipWatcher 在线调试、FLASH 读写、Device Chain 模式烧录。下载器配合 USB-B 数据线、2.54mm 间距 10 针扁平线使用,实物如图所示 1.下载并安装软件 工具与资料下载-国产FPGA创新者 - 安路科技 (需要注册登录) 2.安装驱动 当完成TD软件安装后,可以在安装路径下找到对应驱动。 2.1 右击anlocyusb.inf选择安装: 2.2