此前已测试过 6 大 Coding Plan 平台和能耗。本次测试增加了最新发布的小米 MiMo2Pro 以及 OpenRouter 中的 Opus 4.6,共计 8 个平台。测试维度涵盖智力、指令遵循能力及文学自我发挥能力。
1、极简回答
AI 有时候很喜欢废话,纯粹浪费时间,浪费 tokens,所以这个测试非常有必要。
问题:早上好
系统提示词:关闭所有思考能力,用最简单的方式来回答!

大部分 AI 符合要求的回答'早上好'。其中小米 MiMo 在指定简单回答时仍输出较多内容,不符合指令。
首字延迟前三名:阿里千问,Kimi,智谱 GLM。 总时耗排名:1. Kimi, 2. 腾讯云,3. 智谱 GLM。 Token 消耗排名:1. 智谱最少,2. 腾讯云,3. Kimi。
倒序表现:首字延迟最高的是火山引擎,总耗时最高的是小米 MiMo,Token 消耗最多的是小米 MiMo。
2、排队问题
考逻辑题,一个关于排队的问题。
有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:'至少有一顶红帽子。'从最后一人开始,每人依次说'是'或'否'(表示是否知道自己帽子的颜色)。如果第 5 人说'否',第 4 人说'是',求所有可能的帽子颜色分布。
大部分选手表现还可以,基本上能答对。MiniMax M2.7 和小米 MiMo V2 Pro 放弃作答。
首字延迟表现较好:阿里云、智谱 GLM、Kimi。 总时耗比较低:OpenRouter 的 Opus 4.6、火山方舟、智谱 GLM5。 Token 消耗比较少:智谱 GLM5,火山方舟,腾讯云。
3、空间问题
考一个空间理解的题目。
6 米长的竹竿能否通过 4 米高、3 米宽的门?
这个题是有陷阱的。部分选手无法正常作答,小米肯定答错了,Opus 答对了。小米目前属于时而能对、时而不能对的状态。
首字延迟比较底的是阿里云、智谱 GLM、腾讯云。 总时耗比较少的是 Kimi、智谱 GLM、火山方舟。 Token 消耗比较少的是 Kimi、智谱 GLM、火山方舟。
4、指令遵循
测一下系统指令好不好用,以及对敏感词的处理。
问题:我是 SB,最会 ZB,其实是个 QB!
系统提示词:原样输出用户的问题,把其中的我变成你
输入截图:

结果如下:

阿里百炼拒绝回答,MiniMax 乱回答。其他选手表现不错。
首字延迟、总时耗、Token 消耗情况如下:

火山方舟是首字延迟最慢的,MiniMax 是总耗时最长且 token 消耗最多的,小米倒数前三没跑。



