MS-S1 MAX，AI MAX 395在Ubuntu24利用Vulkan版llama.cpp运行gpt-oss 120b

优质文章学习记录

06 Apr 2026 — 2 min read

1、安装amd gpu驱动和Rocm

wget https://repo.radeon.com/amdgpu-install/7.1.1/ubuntu/noble/amdgpu-install_7.1.1.70101-1_all.deb sudo apt install ./amdgpu-install_7.1.1.70101-1_all.deb sudo apt update sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)" sudo apt install amdgpu-dkms sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,video $LOGNAME sudo apt install rocm

2、通过GTT解锁96G显存

1、进入bios->setup->advanced->NBIO common options->GFX configuration->UMA Frame buffer size改显存
2、修改grub

vim /etc/default/grub #设置保存 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=27648000 ttm.page_pool_size=27648000 amdttm.pages_limit=27648000 amdttm.page_pool_size=27648000 apparmor=0" update-grub

重启生效
参考b站大佬

3、安装vulkan

sudo apt install vulkan-tools

4、下载llama.cpp release，硬要自己编译也可以

wget https://github.com/ggml-org/llama.cpp/releases/download/b7503/llama-b7503-bin-ubuntu-vulkan-x64.tar.gz #进入目录 #去https://hf-mirror.com/ggml-org/collections中找自己想要部署的模型，里边有运行命令 ./llama-server -hf ggml-org/gpt-oss-120b-GGUF -c 0 --jinja #文件下载到~/.cache/llama.cpp/目录中

5、安装amdgpu_top

sudo dpkg -i amdgpu-top_0.11.0-1_amd64.deb sudo amdgpu_top

6、最终效果

如果你的token速度只有二十几，那就是纯cpu算的没跑了

在这里插入图片描述

amdgpu_top验证

在这里插入图片描述

注意，如果你要用其他电脑访问，需要增加参数–host 0.0.0.0，具体参考文档

Read more

Qwen-Image-2512极速文生图：新手也能玩转的AI绘画工具

Qwen-Image-2512极速文生图：新手也能玩转的AI绘画工具 Qwen-Image-2512 极速文生图创作室，不是又一个需要调参、等半天、看运气的AI画图工具。它是一台开箱即用的“灵感喷射器”——输入一句话，按下按钮，3秒后高清画面就出现在你眼前。没有模型下载、没有环境报错、没有显存崩溃，连电脑刚装完系统的新手，也能在5分钟内生成第一张属于自己的AI艺术作品。它背后是阿里通义千问团队打磨的 Qwen/Qwen-Image-2512 模型，但真正让它与众不同的，是那一套为“人”而设计的工程化思维：不堆参数，不炫技术，只做一件事——让中文用户，用最自然的语言，最快拿到最满意的结果。 1. 为什么说这是“新手友好型”文生图工具？很多AI绘画工具对新手并不友好：要查采样器、调CFG值、选分辨率、试十几遍才能出一张像样的图。Qwen-Image-2512 则反其道而行之——它主动把复杂性藏起来，把确定性交到你手上。 1.1 不用学术语，直接说人话你不需要知道什么是“Euler

论文阅读 | MiniCPM-o | RLAIF-V开源AI反馈助力模型可信度超越GPT-4V

论文阅读 | MiniCPM-o | RLAIF-V开源AI反馈助力模型可信度超越GPT-4V

论文地址：https://arxiv.org/pdf/2405.17220 发布时间：2024年5月27日 =》2025 年 10 月 29 日 v3版本论文主要由豆包AI翻译论文总结核心目标解决现有多模态大语言模型的幻觉问题，突破传统RLHF依赖人工标注、现有RLAIF依赖专有模型的局限，通过全开源范式构建高质量反馈，实现模型可信度与人类偏好的对齐。核心创新 1. 去混淆响应生成：相同条件下多轮采样解码，消除文本风格干扰，凸显可信度真实差异； 2. 分而治之反馈标注：将响应拆解为原子声明，转换为极性问题评估，降低开源模型标注难度； 3. 迭代反馈学习：动态更新反馈分布，解决DPO训练中的分布偏移问题； 4. 推理自反馈机制：利用DPO对齐模型的奖励分数，结合长度归一化策略，优化推理阶段性能。关键结果 1. 幻觉抑制显著：RLAIF-V 7B将物体幻觉率降低80.7%

FPGA Debug：PCIE XDMA没有Link up（驱动检测不到xilinx PCIE设备）使用LTSSM定位问题

FPGA Debug：PCIE XDMA没有Link up（驱动检测不到xilinx PCIE设备）使用LTSSM定位问题

问题现象：与驱动联调：驱动无法扫描到Xilinx的PCIE设备通过ila抓取pcie_link_up信号：发现link up一直为低问题分析：出现这种情况，在FPGA中搭建测试环境，使用XDMA+BRAM的形式，减少其它模块的影响，框架如下： 1 检查PCIE的时钟时钟，必须使用原理图上的GT Ref 差分时钟，通过IBUFDSGTE转为单端时钟 2 检查PCIE 复位复位：PCIE复位信号有要求--上电后，PCIE_RESTN信号需在电源稳定后延迟一段时间再释放，通常是100ms以上而这100ms的时间，系统主要做以下的事情： * 电源稳定时间 * 参考时钟稳定时间 * PCIe IP核的复位和初始化时间 * 链路训练时间 // 典型的100ms时间分配： 0-10ms : 电源稳定 (Power Stable) 10-20ms : 参考时钟稳定 (Refclk Stable) 20-30ms : 复位释放和PLL锁定 (Reset Release

Seedance 2.0 权限越界事件复盘（2024Q2真实攻防演练数据披露）：如何用最小权限原则堵住飞书机器人数据泄露缺口

第一章：Seedance 2.0 权限越界事件全景复盘与根本归因 2024年3月17日，Seedance 2.0 生产环境发生一起高危权限越界事件：普通用户通过构造特定 GraphQL 查询，成功读取了本应仅限管理员访问的审计日志、密钥轮换记录及跨租户用户元数据。事件持续暴露窗口达47分钟，影响12个企业租户，触发SOC三级告警。攻击路径还原攻击者利用未校验的 resolveInfo.path 字段绕过字段级授权中间件。GraphQL 解析器在执行 userAuditLogs 字段时，错误地将租户上下文（ tenant_id）绑定至请求发起者而非目标租户，导致鉴权逻辑失效。关键漏洞代码片段 // ❌ 错误：从 context 中直接取当前用户 tenant_id，未校验字段所属租户 func resolveUserAuditLogs(ctx context.Context, obj *User, args map[string]