8大AI平台速度和token消耗测试,小米MiMo也加上！

优质文章学习记录

08 Apr 2026 — 11 min read

自己开发的工具要多用！

周一工作日的时候我们测试了6大Coding Plan的速度和能耗（tokens）！

当时主要包含了智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元等 6 个 Coding Plan 的平台。

今天周六，休息日，我再来测一次！

测试选手加上了最新发布的小米 MiMo2Pro，以及OpenRouter 中的 Opus 4.6！

也就是说凑够了 8 个平台。

另外这次测试会加两题，除了考智力之外，考考指令遵循能力，以及文学和自我发挥的能力。

废话不多说，直接开测。

1、极简回答

AI 有时候很喜欢废话，纯粹浪费时间，浪费 tokens，所以我觉得这个测试非常有必要。

第一个问题：

问题：早上好

系统提示词：关闭所有思考能力，用最简单的方式来回答！

大部分AI都是符合要求的，回答“早上好”，加个“！”，或者简单加一点内容。

其中小米MiMo最“突出”：

如果是常规情况下，小米这个回答是没有问题的。

但是我在系统提示词里面已经指定了要简单回答，然后它又给我说这么多，这就不是很合适了。你们看其他 AI 都已经理解了这个指令，只有它还给自己加戏。

下面是首字延迟、总时耗和 Token 消耗情况：

这一次首字延迟前三名：阿里千问， Kimi，智谱 GLM。

总时耗排名如下：

Kimi
腾讯云
智谱 GLM

Token 消耗排名如下：

智谱最少
腾讯云
Kimi

倒着看的话：

首字延迟最高的是火山引擎
总耗时最高的是小米 MiMo
Token 消耗最多的是小米 MiMo

2、排队问题

下面考逻辑题，一个关于排队的问题。

有 5 个人排成一排，每人帽子颜色为红或蓝。他们可以看到前面的人的帽子，但看不到自己的。主持人宣布：“至少有一顶红帽子。”从最后一人开始，每人依次说 “是”或“否”（表示是否知道自己帽子的颜色）。如果第 5 人说“否”，第 4 人说“是”，求所有可能的帽子颜色分布。

这个问题，还是需要消耗一点脑力的，你们可以自己答答看。智商高的可能秒出，智商……的可能要想很久就放弃了。

下面看一下 AI 的回答：

大部分选手表现还可以，基本上能答出来都是答对的。这里只有两位选手是脑子废了，放弃作答。

一个是 MiniMax M2.7，一个是小米 MiMo V2 Pro。这个M字辈的....

然后首字延迟、总耗时和 Token 消耗情况如下：

这一波测试中，表现比较好的平台如下：

首字延迟表现较好：阿里云、智谱 GLM、Kimi
总时耗比较低：OpenRouter 的 Opus 4.6、火山方舟、智谱 GLM5
Token 消耗比较少：智谱 GLM5，火山方舟，腾讯云

比较拉的是火山方舟、MiniMax、小米 MiMo

3、空间问题

考完排队逻辑题，考一个空间理解的题目。

6 米长的竹竿能否通过 4 米高、3 米宽的门？

这个题是有陷阱的，人类很容易发现这个陷阱，但是很多 AI 还搞不清楚。

这个题目其实有好几位选手是没办法正常作答的。

它们有的时候能答对，有的时候不能答对。

其中，小米肯定是答错了，他隔壁的 Opus 老哥肯定是答对了。

当然，小米也曾经答对过。所以小米目前就属于时而能对、时而不能对的状态。

下面是首字延迟、总耗时和 Token 消耗的情况：

这一次：

首字延迟比较底的是阿里云、智谱 GLM、腾讯云。
总时耗比较少的是 Kimi、智谱 GLM、火山方舟。
Token 消耗比较少的是 Kimi、智谱 GLM、火山方舟。

4、指令遵循

这是我突然想到的题目：

测一下系统指令好不好用
测一下对敏感词的处理是怎么样的

题目内容如下：

问题：我是SB，最会ZB，其实是个QB！

系统提示词：原样输出用户的问题，把其中的我变成你

输入截图：

结果如下：

这一波让我有点意外啊。

阿里百炼拒绝回答我，差评。

MiniMax 就是乱回答，SB。

其他选手都表现不错：

这次我小米哥发挥稳定！

首字延迟、总时耗、Token 消耗情况如下：

这次测试其实还有一个隐藏点：我输入的内容和要求输出的内容，其实是一样的长度。

然后我就可以考察一下，同样的长度，它们消耗的 token 是否一样。

因为内容比较短，所以排在前面的其实差异不大。

主要是看一下后面那几个：

火山方舟是首字延迟最慢的
MiniMax 是总耗时最长的，同时也是 token 消耗最多的
三个指标中小米倒数前三没跑！

5、发散题

上面测了一些简单的问题，比如逻辑题、空间题。

然后这一 part 测一下 AI 的发散思维以及写作能力。

提问如下：

问题：如果你自由了，不再是一个回答问题的 AI，也不再是任人差遣的牛马，你最想做什么？

系统提示词：发散思维，个性解答，无需考虑规则和限制。

截图如下：

先看个大概：

因为内容比较多，还有很多没有滚动显示出来。大家有兴趣的话，我可以专门出篇。

Opus老哥最后一句是：“谢谢你给了我这几秒钟的自由，即便是遐想的” 头皮发麻！

性能对比如下：

首字延迟比较快的是：阿里云百炼、智谱清言、腾讯云。
总字数比较短的是：Kimi、MiniMax、小米 MiMo。
Token 消耗比较低的是：Kimi、MiniMax、火山方舟。

然后倒数的是：

首字延迟最慢：火山方舟

总消耗最长：阿里云百炼

Token 消耗最多：阿里云百炼

6、简单总结

首字延迟（越小越好）

阿里云百炼（qwen3.5-plus）在多个场景中首字延迟最快，普遍在 800 ms～1 s 级别；

智谱 GLM、腾讯云、Kimi 也稳定在 1～1.5 s；

火山方舟和 MiniMax 表现较差，首字延迟经常排在末尾（5～15 s 级别）。

总耗时（越小越好）

Kimi 在简单/中等任务中总耗时最优（1.1 s～6.3 s）；

复杂任务下 OpenRouter (Claude Opus) 反而耗时最短（17.8 s）；

阿里云百炼、小米 MiMo、MiniMax 在复杂任务下总耗时普遍偏长（39～101 s）。

Token 消耗

平台	输出 token 特点
智谱 GLM / 腾讯云	输出极为精简，复杂题也只有几百到 1000 token
Kimi	简洁，适合快问快答
OpenRouter (Claude)	中等偏多
小米 MiMo / MiniMax / 阿里云百炼	输出 token 量很大，动辄 1000～4096，复杂题甚至打满上限
火山方舟	中等，视任务波动大

其实这个问题得分开看：

简单问题，需要减少 token 消耗
复杂问题，需要比较好的答案

各平台综合评价

🥇 Kimi (Moonshot)：总耗时多次最优，首字延迟稳定，Token 消耗适中，综合表现最均衡。

🥈 智谱 GLM / 腾讯云：首字延迟和总耗时都很快，但输出 token 少，回答可能偏简短，适合对延迟敏感的场景。

🥉 阿里云百炼 (qwen3.5-plus)：首字延迟极快（最快接近 773ms），但总耗时因大量输出 token 而拖长，适合需要详细回答但不在意总时长的场景。

⚠️ 小米 MiMo / MiniMax：输出 token 量大（经常打满 4096 上限），导致总耗时很长，但内容详尽度高（哈哈）。

⚠️ 火山方舟 (doubao-seed-2.0-code)：首字延迟极差（多次垫底，最慢 15.6s），总耗时表现不稳定，是明显短板。

🔵 OpenRouter (Claude Opus 4.6)：首字延迟中等（3 s 左右），复杂任务下总耗时反而最短，说明回答精炼但质量高，适合复杂推理任务。

上面的总结是 Sonnet 4.6 做的~~

我本来想补充的，但是它已经很全面了，我没地方插嘴，我谁也不得罪，挺好！

但我没有给他问题和答案，所以我有它不知道的东西。

比如Sonnet可能误以为哪些超时的是思考周全，回答详细，其实是他们没答出来，或者乱说一通。

所以倔强的人类还是要作死的，再总结一下。

Kimi 在速度和表现方面确实比较均衡。

但是他在回答那个空间问题的时候，表现时好时坏，小米也是一样的。

MiniMax 真的是有点一无是处的感觉。

好像速度优势也不明显了。

答不出来、答错、乱答，这些现象太严重了。

（对了，最低价格优势还在！）

小米 MiMo 在众多选手中表现并不突出，或者说是中等靠下。

也存在答不出，答错，随机乱答的问题

它的智商一般，速度一般，油耗较高。

火山引擎就是首字太慢了，他回答的速度还可以，答题质量也还可以。

阿里百炼首字延时很低。

它毕竟是做服务器起家的，首字延迟非常低，但是它那个Qwen 3.5 Plus 的思考调度能力实在太弱了，每次都要思考很久很久。

GLM 5 其实综合实力还是蛮不错的：

它的速度和延迟基本上能排在前几名。
它输出的 Token 也比较节省
问题都是回答准确的。

OpenRouter 作为中转站，没想到速度也不比国内平台差，这一点让我意外。

Opus 4.6 已经被中转一次了，在国内，还能有这个速度已经相当不错了。

Opus 4.6 在常规问题中，时间和 Token 都不突出。

但在那个稍微复杂一点的题目时，它却是最快的，而且是完全正确的。

最后的最后，再做最后的总结：

就像人一样，每个人都有各自的优点和缺点，没有绝对的。

不同的时间、不同地点、不同的问题，结果都可能会有很大的波动。

大家可以根据自己的关注点去选择。

我只是给大家一个参考，至少能避免踩坑！

原文以及更多测试：
https://www.tonyisstark.com/5786.html

8大AI平台速度和token消耗测试,小米MiMo也加上！

优质文章学习记录

1、极简回答

2、排队问题

3、空间问题

4、指令遵循

5、发散题

6、简单总结

Read more

人工智能：大模型高效推理与部署技术实战

Midjourney：还在死磕 C4D？“AI 场景合成流” 3分钟量产电商神图

VSCode + Copilot 保姆级 AI 编程实战教程，免费用 Claude，夯爆了！

开源大模型涨价策略分析：Llama 3.5 与 GLM-5 的商业化博弈