Ubuntu 24.04 系统下 AMD 显卡监控工具 amdgpu_top 部署及显存突破
在 Ubuntu 24.04 环境下,为突破 AMD 显卡显存限制并监控硬件状态,需部署 amdgpu_top 工具。由于默认 apt 软件源中缺失该工具,无法直接安装,推荐通过源码编译方式部署。
设置显存突破 96GB 限制
部分 AMD 显卡 BIOS 中可分配的最大显存有限(如 96GB),若需运行更大模型权重,可通过 Linux GTT 修改参数突破限制。
编辑 GRUB 配置文件:
vim /etc/default/grub
修改 GRUB_CMDLINE_LINUX_DEFAULT 参数,添加以下配置:
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=31457280 ttm.page_pool_size=31457280 amdttm.pages_limit=31457280 amdttm.page_pool_size=31457280 apparmor=0 zswap.enabled=1 zswap.compressor=zstd zswap.zpool=zsmalloc zswap.max_pool_percent=5"
保存后执行更新命令并重启:
update-grub
reboot
重启后验证 rocm-smi 回显信息。
amdgpu_top 监控工具部署
安装基础依赖
以 root 身份执行以下命令更新系统并安装核心编译依赖:
apt update && apt upgrade -y
apt install -y git cmake g++ libdrm-dev libncurses-dev libncursesw5-dev pkg-config
源码编译安装
克隆官方源码仓库:
git clone https://github.com/Umio-Yasuno/amdgpu_top.git
进入源码目录并创建构建目录:
cd amdgpu_top
mkdir build && cd build
配置 Rust 环境
amdgpu_top 采用 Rust 开发,需通过 cargo 工具构建。若系统已预装 Rust,安装 rustup 时可能触发路径检查报错。解决方案是跳过路径检查直接安装:
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh -s -- -y
验证项目文件完整性:
ls -l
安装完成后加载环境变量:
source "$HOME/.cargo/env"
echo >> ~/.bashrc
~/.bashrc


