8 大 AI 平台速度与 Token 消耗性能测试

测试了包括小米 MiMo、OpenRouter Opus 4.6 在内的 8 大 AI 平台的速度与 Token 消耗。测试维度涵盖极简回答、逻辑推理、空间理解、指令遵循及发散思维。结果显示：Kimi 综合表现最均衡，总耗时优且 Token 适中；智谱 GLM 与腾讯云首字延迟快但输出精简；阿里云百炼首字延迟极低但总耗时因 Token 量大而拖长；小米 MiMo 与 MiniMax Token 消耗大且总耗时长；火山方舟首字延迟最差；OpenRouter Opus 4.6 在复杂任务下表现优异。建议根据具体场景需求选择平台。

FrontendX发布于 2026/4/6更新于 2026/4/176 浏览

此前已测试过 6 大 Coding Plan 平台和能耗。本次测试增加了最新发布的小米 MiMo2Pro 以及 OpenRouter 中的 Opus 4.6，共计 8 个平台。测试维度涵盖智力、指令遵循能力及文学自我发挥能力。

1、极简回答

AI 有时候很喜欢废话，纯粹浪费时间，浪费 tokens，所以这个测试非常有必要。

问题：早上好

系统提示词：关闭所有思考能力，用最简单的方式来回答！

文章配图

大部分 AI 符合要求的回答'早上好'。其中小米 MiMo 在指定简单回答时仍输出较多内容，不符合指令。

首字延迟前三名：阿里千问，Kimi，智谱 GLM。总时耗排名：1. Kimi, 2. 腾讯云，3. 智谱 GLM。 Token 消耗排名：1. 智谱最少，2. 腾讯云，3. Kimi。

倒序表现：首字延迟最高的是火山引擎，总耗时最高的是小米 MiMo，Token 消耗最多的是小米 MiMo。

2、排队问题

考逻辑题，一个关于排队的问题。

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布：'至少有一顶红帽子。'从最后一人开始，每人依次说'是'或'否'（表示是否知道自己帽子的颜色）。如果第 5 人说'否'，第 4 人说'是'，求所有可能的帽子颜色分布。

大部分选手表现还可以，基本上能答对。MiniMax M2.7 和小米 MiMo V2 Pro 放弃作答。

首字延迟表现较好：阿里云、智谱 GLM、Kimi。总时耗比较低：OpenRouter 的 Opus 4.6、火山方舟、智谱 GLM5。 Token 消耗比较少：智谱 GLM5，火山方舟，腾讯云。

3、空间问题

考一个空间理解的题目。

6 米长的竹竿能否通过 4 米高、3 米宽的门？

这个题是有陷阱的。部分选手无法正常作答，小米肯定答错了，Opus 答对了。小米目前属于时而能对、时而不能对的状态。

首字延迟比较底的是阿里云、智谱 GLM、腾讯云。总时耗比较少的是 Kimi、智谱 GLM、火山方舟。 Token 消耗比较少的是 Kimi、智谱 GLM、火山方舟。

4、指令遵循

测一下系统指令好不好用，以及对敏感词的处理。

问题：我是 SB，最会 ZB，其实是个 QB！

系统提示词：原样输出用户的问题，把其中的我变成你

输入截图：文章配图

结果如下：文章配图

阿里百炼拒绝回答，MiniMax 乱回答。其他选手表现不错。

首字延迟、总时耗、Token 消耗情况如下：文章配图

火山方舟是首字延迟最慢的，MiniMax 是总耗时最长且 token 消耗最多的，小米倒数前三没跑。

平台	输出 token 特点
智谱 GLM / 腾讯云	输出极为精简，复杂题也只有几百到 1000 token
Kimi	简洁，适合快问快答
OpenRouter (Claude)	中等偏多
小米 MiMo / MiniMax / 阿里云百炼	输出 token 量很大，动辄 1000～4096，复杂题甚至打满上限
火山方舟	中等，视任务波动大

8 大 AI 平台速度与 Token 消耗性能测试

1、极简回答

2、排队问题

3、空间问题

4、指令遵循

更多推荐文章

相关免费在线工具

5、发散题

6、简单总结

8 大 AI 平台速度与 Token 消耗性能测试

1、极简回答

2、排队问题

3、空间问题

4、指令遵循

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

5、发散题

6、简单总结