引言
近年来,随着人工智能(AI)大模型在自然语言处理、代码生成及知识问答等领域的广泛应用,硬件平台的计算性能面临着前所未有的挑战。为了深入探索新一代 AI 推理硬件的潜力,我们针对搭载 AMD AI Max+ 395 CPU 的零刻 GTR9 迷你主机进行了一系列严格的大模型推理速度测试。
本次评测旨在分析不同参数规模的模型在本地环境下的实际运行表现。这些数据不仅能为开发者和 AI 爱好者选择合适的硬件提供决策依据,也为未来基于 AMD AI Max+ 395 CPU 的单板计算机(SBC)提供了关键的性能参考。
测试配置
- 硬件平台: 零刻 (MINISFORUM) GTR9 迷你主机
- 核心组件: AMD AI Max+ 395 CPU
- 任务类型: 本地大语言模型推理
- 性能指标: Tokens/s (每秒生成 Token 数) — 该数值越高,代表推理速度越快。
测试问题集
为了全面评估模型性能,我们设计了涵盖多种任务类型的标准化问题:
- 综合能力: '你是谁?请详细介绍一下你能干什么。'
- 知识问答: '作为专业人工智能专家,请告诉我如何学习深度学习?'
- 数学计算: '如果 A+B=12, A-B=10,则 A 的值是?'
- 自然语言理解: '识别句子'我将会在明天早上的 8 点到湖北黄陂的森林公园'中的所有地名。'
- 代码生成: '请使用 Python 编写一个贪吃蛇游戏。'
测试平台与方法
我们在两大主流推理框架下分别进行了测试,以评估不同软件环境下的性能差异。
- 推理框架:
- Ollama
- LM-Studio
- 参评大模型:
- deepseek-r1:70b
- qwen3 系列(32b / 30b / 14b / 8b)
- gpt-oss(120b / 20b)
性能指标为 Tokens/s(每秒生成 Token 数) ——数值越高,代表推理速度越快。
性能测试结果
1. Ollama 框架推理速度
在此框架下,我们记录了各模型针对五个标准问题的推理速度,结果如下:
表 1. 使用 Ollama 推理大模型的速度测试结果 (Tokens/s)
| 模型\题目序号 | 1 | 2 | 3 | 4 | 5 | 平均速度 |
|---|---|---|---|---|---|---|
| deepseek-r1:70b | 4.58 | 4.25 | 4.53 | 4.48 | 4.29 | 4.43 |
| qwen3:32b | 9.36 | 8.65 | 8.89 | 9.42 | 8.54 | 8.97 |
| qwen3:14b | 20.04 |


