制作Ubuntu 24.04-GPU服务器测试系统盘

制作Ubuntu 24.04-GPU服务器测试系统盘

介绍

本文章详细说明如何为NVIDIA DGX B200系列服务器制作测试系统盘。DGX B200是NVIDIA推出的高性能AI服务器产品线,专为深度学习训练和推理任务优化。



测试盘中包含有:ipmitool,gpu-burn,Fieldiag,DCGMi,NCCL等测试工具。



文章包含安装方法,使用方法,以及注意事项!!

制作系统盘

通过工具写入Ubuntu 24.04.2版本的ISO镜像。

此文章通过Ventoy启动盘写入的镜像文件,如有需要请自行通过浏览器查阅相关资料。

Ventoy是一个开源的多系统启动盘制作工具,它支持将多个ISO/WIM/IMG/VHD(x)/EFI文件直接拷贝到U盘中即可启动,无需反复格式化U盘。

官网镜像地址:

Ubuntu Releaseshttps://releases.ubuntu.com/

基本配置与下载

配置允许root用户远程

Ubuntu 系统出于安全考虑默认禁止 root 用户通过 SSH 进行远程登录。若确实需要开启 root 用户的远程登录权限,可以按照以下步骤操作:

设置root密码
#调用root权限修改root密码 sudo passwd root #调用root权限输入当前用户密码 #若有提示密码需要满足8个字符不用理会,root可以强制修改 #切换用户尝试密码 sudo su - root 
修改ssh配置文件
#编辑ssh配置文件 vim /etc/ssh/sshd_config #取消注释并修改一下内容 Port 22 ...... PermitRootLogin yes #重启ssh服务 systemctl restart ssh

测试网络连通性

配置网络IP

查看网卡名称和IP,若没有IP请如下配置:

#查看网卡名称 ip add #启用网卡并分配IP ip link set <网卡名称> up dhcpcd <网卡名称>
配置DNS解析

本文章是通过本机1.1转发的DNS,所以没有配置DNS解析地址,若有需要请参考一下配置:

#查看当前DNS配置 resolvectl status #尝试解析网址 nslookup baidu.com #配置DNS文件 #取消注释并添加解析地址 DNS=8.8.8.8 114.114.114 202.96.134.133

安装基本工具

#更新并下载工具包 apt update #更新中若有报错,只要不影响下载就不用理会 apt install -y net-tools ipmitool unzip apt install -y build-essential # build-essential中以包含部署的主要工具,所以其他部署工具不许要另外下载。 (含有:gcc,g++,make,libc6-dev,dpkg-dev等基础编译工具)

系统环境安装

安装NVIDIA驱动

官方驱动下载地址:

NVIDIA官方驱动https://www.nvidia.cn/drivers/lookup/执行安装即可

#下载后导入系统并赋予权限执行即可 chmod +x NVIDIA-Linux-x86_64-580.65.06.run ./NVIDIA-Linux-x86_64-580.65.06.run #安装中提示选择默认第一个即可!

安装迈络思驱动

官方下载地址:

迈络思官方驱动https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/解压执行安装即可

NVIDIA官方下载地址

安装CUDA

NVIDIA官方下载地址https://developer.nvidia.com/cuda-toolkit-archive执行安装即可

#下载后赋予执行权限,执行即可 chmod +x cuda_13.0.0_580.65.06_linux.run ./cuda_13.0.0_580.65.06_linux.run #中途输入accetp,回车和选择install继续安装,回车 #安装完成后配置CUDA设置全局配置(直接输入) export CUDA_HOME=/usr/local/cuda-13.0 export PATH=${CUDA_HOME}/bin:${PATH} export LD_LIBRARY_PATH=${CUDA_HOME}/Iib64:${LD_LIBRARY_PATH} #更新全局变量并查看CUDA版本 apt install -y nvidia-cuda-toolkit cd source .bashrc nvcc -V

安装gpu-burn压测工具

解压编译安装即可

#解压压缩文件 unzip gpu-burn-master.zip #进入文件目录并编译 cd gpu-burn-master.zip make #编译完成后文件目录内会出现gpu-brun的可执行文件

安装nvidia-fabricmanager服务

#直接网络下载即可 apt install -y nvidia-fabricmanager-580 #下载后需要在有模组的物理服务器环境上才能开启并查看此服务状态。 #如果有模组环境下活动(Active)属性哪里会显示活动已激活状态,没有模组的话会显示失败。 systemctl status nvidia-fabricmanager.service systemctl start nvidia-fabricmanager.service #如果安装时有提示缺少安装依赖的话,可以nvidia官网下载相关包安装既可。 dpkg -i <文件名称>.deb #安装完成后再次查看状态,状态正常就说明没有问题了

安装完后就可以测试gpu-burn压测了,有问题时尝试重新安装nvidia-fabricmanager.service服务。

#执行文件即可,-t表示多多线程,-c表示测试算力,最后压测时间单位为s/秒。 ./gpu-burn -tc 3600 

安装Fieldiag(FLD)

安装nvidia-imex服务

官方下载地址:https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/

nvidia-imex服务是用于NVLink Multi-Node CUDA作业的关键组件,主要负责节点间的消息交换和通信管理,如果不安装的话Fieldiag测试可能会出错

#下载导入后dpkg安装即可 dpkg -i nvidia-imex_580.65.06-1_amd64.deb 

安装FLD

#解压既可,不同版本看后缀格式解压 unzip 629-26287-0001-FLD-42704.zip tar -zxvf 629-26287-0102-FLD-43576.tar.gz #进入目录赋予全部文件执行权限即可,FLD属于脚本文件免安装文件,不需要安装编译。 chmod +x ./* 

安装DCGM

#直接dpkg安装即可 dpkg -i datacenter-gpu-manager-4-core_4.1.1_amd64.deb dpkg -i datacenter-gpu-manager-4-cuda12_4.1.1_amd64.deb #直接测试使用即可,如果安装成功会显示没有测试实体 dcgmi diag -r 4
子命令参数 / 用法作用说明
dcgmi health

-i <GPU编号>:指定 GPU

-s:检查并输出健康状态(PASS/FAIL)

-v:详细健康报告(含故障码)

检测 GPU 硬件健康状态(显存、供电、散热、PCIe 链路等),输出故障原因。
dcgmi diag

-i <GPU编号>:指定 GPU

-r:运行完整诊断(含压力测试)

-f <文件>:输出诊断报告到文件

执行 GPU 深度诊断(比 health 更全面),包含显存读写测试、算力验证等。
dcgmi errors

-i <GPU编号>:指定 GPU

-c:清空错误日志

-l:列出所有错误日志(含时间 / 类型)

查看 / 清理 GPU 错误日志(硬件错误、驱动错误、CUDA 错误等)。

安装nccl

安装openmpi

官方下载地址https://www.open-mpi.org/software/ompi/v3.1/openmpi-4.1.8的包可能与nccl相关联,直接下载解压执行安装文件即可

#解压进入目录 tar -zxvf openmpi-4.1.8.tar.gz cd openmpi-4.1.8/ #执行文件自带安装文件即可(若无执行权限,赋予权限既可) ./configure 

安装nccl

#dpkg安装deb格式文件 dpkg -i libnccl2_2.28.3-1+cuda13.0_amd64.deb dpkg -i libnccl-dev_2.28.3-1+cuda13.0_amd64.deb #unzip解压zip格式文件并编译安装 unzip nccl-tests-master.zip cd nccl-tests-master/ && make 

Read more

将现有 REST API 转换为 MCP Server工具 -higress

将现有 REST API 转换为 MCP Server工具 -higress

Higress 是一款云原生 API 网关,集成了流量网关、微服务网关、安全网关和 AI 网关的功能。 它基于 Istio 和 Envoy 开发,支持使用 Go/Rust/JS 等语言编写 Wasm 插件。 提供了数十个通用插件和开箱即用的控制台。 Higress AI 网关支持多种 AI 服务提供商,如 OpenAI、DeepSeek、通义千问等,并具备令牌限流、消费者鉴权、WAF 防护、语义缓存等功能。 MCP Server 插件配置 higress 功能说明 * mcp-server 插件基于 Model Context Protocol (MCP),专为 AI 助手设计,

By Ne0inhk
MCP 工具速成:npx vs. uvx 全流程安装指南

MCP 工具速成:npx vs. uvx 全流程安装指南

在现代 AI 开发中,Model Context Protocol(MCP)允许通过外部进程扩展模型能力,而 npx(Node.js 生态)和 uvx(Python 生态)则是两种即装即用的客户端工具,帮助你快速下载并运行 MCP 服务器或工具包,无需全局安装。本文将从原理和对比入手,提供面向 Windows、macOS、Linux 的详细安装、验证及使用示例,确保你能在本地或 CI/CD 流程中无缝集成 MCP 服务器。 1. 工具简介 1.1 npx(Node.js/npm) npx 是 npm CLI(≥v5.2.0)

By Ne0inhk
解锁Dify与MySQL的深度融合:MCP魔法开启数据新旅程

解锁Dify与MySQL的深度融合:MCP魔法开启数据新旅程

文章目录 * 解锁Dify与MySQL的深度融合:MCP魔法开启数据新旅程 * 引言:技术融合的奇妙开篇 * 认识主角:Dify、MCP 与 MySQL * (一)Dify:大语言模型应用开发利器 * (二)MCP:连接的桥梁 * (三)MySQL:经典数据库 * 准备工作:搭建融合舞台 * (一)环境搭建 * (二)安装与配置 Dify * (三)安装与配置 MySQL * 关键步骤:Dify 与 MySQL 的牵手过程 * (一)安装必要插件 * (二)配置 MCP SSE * (三)创建 Dify 工作流 * (四)配置 Agent 策略 * (五)搭建MCP

By Ne0inhk
如何在Cursor中使用MCP服务

如何在Cursor中使用MCP服务

前言 随着AI编程助手的普及,越来越多开发者选择在Cursor等智能IDE中进行高效开发。Cursor不仅支持代码补全、智能搜索,还能通过MCP(Multi-Cloud Platform)服务,轻松调用如高德地图API、数据库等多种外部服务,实现数据采集、处理和自动化办公。 本文以“北京一日游自动化攻略”为例,详细讲解如何在 Cursor 中使用 MCP 服务,完成数据采集、数据库操作、文件生成和前端页面展示的全流程。 学习视频:cursor中使用MCP服务 一、什么是MCP服务? MCP(Multi-Cloud Platform)是Cursor内置的多云服务接口,支持调用地图、数据库、文件系统等多种API。通过MCP,开发者无需手动写HTTP请求或繁琐配置,只需在对话中描述需求,AI助手即可自动调用相关服务,极大提升开发效率。 二、环境准备 2.1 cursor Cursor重置机器码-解决Too many free trials. 2.

By Ne0inhk