MS-S1 MAX，AI MAX 395在Ubuntu24利用Vulkan版llama.cpp运行gpt-oss 120b

优质文章学习记录

07 Apr 2026 — 2 min read

1、安装amd gpu驱动和Rocm

wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb sudo apt update sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)" sudo apt install amdgpu-dkms sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,video $LOGNAME sudo apt install rocm

参考官网

2、通过GTT解锁96G显存

1、进入bios->setup->advanced->NBIO common options->GFX configuration->UMA Frame buffer size改显存
2、修改grub

vim /etc/default/grub #设置保存 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0" update-grub

重启生效
参考b站大佬

3、安装vulkan

sudo apt install vulkan-tools

4、下载llama.cpp release，硬要自己编译也可以

下载页

wget https://github.com/ggml-org/llama.cpp/releases/download/b7503/llama-b7503-bin-ubuntu-vulkan-x64.tar.gz #进入目录 #去https://hf-mirror.com/ggml-org/collections中找自己想要部署的模型，里边有运行命令 ./llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 --jinja #文件下载到~/.cache/llama.cpp/目录中

5、安装amdgpu_top

sudo dpkg -i amdgpu-top_0.11.0-1_amd64.deb sudo amdgpu_top

6、最终效果

如果你的token速度只有二十几，那就是纯cpu算的没跑了

amdgpu_top验证

注意，如果你要用其他电脑访问，需要增加参数–host 0.0.0.0，具体参考文档

MS-S1 MAX，AI MAX 395在Ubuntu24利用Vulkan版llama.cpp运行gpt-oss 120b

优质文章学习记录

1、安装amd gpu驱动和Rocm

2、通过GTT解锁96G显存

3、安装vulkan

4、下载llama.cpp release，硬要自己编译也可以

5、安装amdgpu_top

6、最终效果

Read more

零基础快速入门前端蓝桥杯 Web 备考：AJAX 与 XMLHttpRequest 核心知识点及实战(可用于备赛蓝桥杯Web应用开发)

【AI深究】支持向量机（SVM, Support Vector Machine）全网最详细全流程详解与案例（附Python代码演示）|SVM、SVR|分类、回归任务流程|优、缺点|例子案例及数据演示

AI 龙虾第一天就给我写了个程序，还会定时爬数据

【AI视频】从单模型，到AI Agent工作流