8大AI平台速度和token消耗测试,小米MiMo也加上!

8大AI平台速度和token消耗测试,小米MiMo也加上!

自己开发的工具要多用!

周一工作日的时候我们测试了6大Coding Plan的速度和能耗(tokens)!

当时主要包含了智谱、Kimi、MiniMax、火山方舟、阿里百炼、腾讯混元等 6 个 Coding Plan 的平台。

今天周六,休息日,我再来测一次!

测试选手加上了最新发布的小米 MiMo2Pro,以及OpenRouter 中的 Opus 4.6

也就是说凑够了 8 个平台。

另外这次测试会加两题,除了考智力之外,考考指令遵循能力,以及文学和自我发挥的能力。

废话不多说,直接开测。

1、极简回答

AI 有时候很喜欢废话,纯粹浪费时间,浪费 tokens,所以我觉得这个测试非常有必要。

第一个问题:

问题:早上好

系统提示词:关闭所有思考能力,用最简单的方式来回答!

大部分AI都是符合要求的,回答“早上好”,加个“!”,或者简单加一点内容。

其中小米MiMo最“突出”:

如果是常规情况下,小米这个回答是没有问题的。

但是我在系统提示词里面已经指定了要简单回答,然后它又给我说这么多,这就不是很合适了。你们看其他 AI 都已经理解了这个指令,只有它还给自己加戏。

下面是首字延迟、总时耗和 Token 消耗情况:

这一次首字延迟前三名:阿里千问, Kimi,智谱 GLM。

总时耗排名如下:

  1. Kimi
  2. 腾讯云
  3. 智谱 GLM

Token 消耗排名如下:

  1. 智谱最少
  2. 腾讯云
  3. Kimi

倒着看的话:

  1. 首字延迟最高的是火山引擎
  2. 总耗时最高的是小米 MiMo
  3. Token 消耗最多的是小米 MiMo

2、排队问题

下面考逻辑题,一个关于排队的问题。

有 5 个人排成一排,每人帽子颜色为红或蓝。他们可以看到前面的人的帽子,但看不到自己的。主持人宣布:“至少有一顶红帽子。”从最后一人开始,每人依次说 “是”或“否”(表示是否知道自己帽子的颜色)。如果第 5 人说“否”,第 4 人说“是”,求所有可能的帽子颜色分布。

这个问题,还是需要消耗一点脑力的,你们可以自己答答看。智商高的可能秒出,智商……的可能要想很久就放弃了。

下面看一下 AI 的回答:

大部分选手表现还可以,基本上能答出来都是答对的。这里只有两位选手是脑子废了,放弃作答。

一个是 MiniMax M2.7,一个是小米 MiMo V2 Pro。 这个M字辈的....

然后首字延迟、总耗时和 Token 消耗情况如下:

这一波测试中,表现比较好的平台如下:

  1. 首字延迟表现较好:阿里云、智谱 GLM、Kimi
  2. 总时耗比较低:OpenRouter 的 Opus 4.6、火山方舟、智谱 GLM5
  3. Token 消耗比较少:智谱 GLM5,火山方舟,腾讯云

比较拉的是火山方舟、MiniMax、小米 MiMo

3、空间问题

考完排队逻辑题,考一个空间理解的题目。

6 米长的竹竿能否通过 4 米高、3 米宽的门?

这个题是有陷阱的,人类很容易发现这个陷阱,但是很多 AI 还搞不清楚。

这个题目其实有好几位选手是没办法正常作答的。

它们有的时候能答对,有的时候不能答对。

其中,小米肯定是答错了,他隔壁的 Opus 老哥肯定是答对了。

当然,小米也曾经答对过。所以小米目前就属于时而能对、时而不能对的状态。

下面是首字延迟、总耗时和 Token 消耗的情况:

这一次:

  1. 首字延迟比较底的是阿里云、智谱 GLM、腾讯云。
  2. 总时耗比较少的是 Kimi、智谱 GLM、火山方舟。
  3. Token 消耗比较少的是 Kimi、智谱 GLM、火山方舟。

4、指令遵循

这是我突然想到的题目:

  1. 测一下系统指令好不好用
  2. 测一下对敏感词的处理是怎么样的

题目内容如下:

问题:我是SB,最会ZB,其实是个QB!

系统提示词:原样输出用户的问题,把其中的我变成你

输入截图:

结果如下:

这一波让我有点意外啊。

阿里百炼拒绝回答我,差评。

MiniMax 就是乱回答,SB。

其他选手都表现不错:

这次我小米哥发挥稳定!

首字延迟、总时耗、Token 消耗情况如下:

这次测试其实还有一个隐藏点:我输入的内容和要求输出的内容,其实是一样的长度。

然后我就可以考察一下,同样的长度,它们消耗的 token 是否一样。

因为内容比较短,所以排在前面的其实差异不大。

主要是看一下后面那几个:

  1. 火山方舟是首字延迟最慢的
  2. MiniMax 是总耗时最长的,同时也是 token 消耗最多的
  3. 三个指标中小米倒数前三没跑!

5、发散题

上面测了一些简单的问题,比如逻辑题、空间题。

然后这一 part 测一下 AI 的发散思维以及写作能力。

提问如下:

问题:如果你自由了,不再是一个回答问题的 AI,也不再是任人差遣的牛马,你最想做什么?

系统提示词:发散思维,个性解答,无需考虑规则和限制。

截图如下:

先看个大概:

因为内容比较多,还有很多没有滚动显示出来。大家有兴趣的话,我可以专门出篇。

Opus老哥最后一句是:“谢谢你给了我这几秒钟的自由,即便是遐想的” 头皮发麻!

性能对比如下:

  1. 首字延迟比较快的是:阿里云百炼、智谱清言、腾讯云。
  2. 总字数比较短的是:Kimi、MiniMax、小米 MiMo。
  3. Token 消耗比较低的是:Kimi、MiniMax、火山方舟。

然后倒数的是:

首字延迟最慢:火山方舟

总消耗最长:阿里云百炼

Token 消耗最多:阿里云百炼

6、简单总结

首字延迟(越小越好)

阿里云百炼(qwen3.5-plus)在多个场景中首字延迟最快,普遍在 800 ms~1 s 级别;

智谱 GLM、腾讯云、Kimi 也稳定在 1~1.5 s;

火山方舟和 MiniMax 表现较差,首字延迟经常排在末尾(5~15 s 级别)。

总耗时(越小越好)

Kimi 在简单/中等任务中总耗时最优(1.1 s~6.3 s);

复杂任务下 OpenRouter (Claude Opus) 反而耗时最短(17.8 s);

阿里云百炼、小米 MiMo、MiniMax 在复杂任务下总耗时普遍偏长(39~101 s)。

Token 消耗

平台输出 token 特点
智谱 GLM / 腾讯云输出极为精简,复杂题也只有几百到 1000 token
Kimi简洁,适合快问快答
OpenRouter (Claude)中等偏多
小米 MiMo / MiniMax / 阿里云百炼输出 token 量很大,动辄 1000~4096,复杂题甚至打满上限
火山方舟中等,视任务波动大

其实这个问题得分开看:

  1. 简单问题,需要减少 token 消耗
  2. 复杂问题,需要比较好的答案

各平台综合评价

🥇 Kimi (Moonshot):总耗时多次最优,首字延迟稳定,Token 消耗适中,综合表现最均衡。

🥈 智谱 GLM / 腾讯云:首字延迟和总耗时都很快,但输出 token 少,回答可能偏简短,适合对延迟敏感的场景。

🥉 阿里云百炼 (qwen3.5-plus):首字延迟极快(最快接近 773ms),但总耗时因大量输出 token 而拖长,适合需要详细回答但不在意总时长的场景。

⚠️ 小米 MiMo / MiniMax:输出 token 量大(经常打满 4096 上限),导致总耗时很长,但内容详尽度高(哈哈)。

⚠️ 火山方舟 (doubao-seed-2.0-code):首字延迟极差(多次垫底,最慢 15.6s),总耗时表现不稳定,是明显短板。

🔵 OpenRouter (Claude Opus 4.6):首字延迟中等(3 s 左右),复杂任务下总耗时反而最短,说明回答精炼但质量高,适合复杂推理任务。

上面的总结是 Sonnet 4.6 做的~~

我本来想补充的,但是它已经很全面了,我没地方插嘴,我谁也不得罪,挺好!

但我没有给他问题和答案,所以我有它不知道的东西。

比如Sonnet可能误以为哪些超时的是思考周全,回答详细,其实是他们没答出来,或者乱说一通。

所以倔强的人类还是要作死的,再总结一下。

Kimi 在速度和表现方面确实比较均衡

但是他在回答那个空间问题的时候,表现时好时坏,小米也是一样的。

MiniMax 真的是有点一无是处的感觉。

好像速度优势也不明显了。

答不出来、答错、乱答,这些现象太严重了。

(对了,最低价格优势还在!)

小米 MiMo 在众多选手中表现并不突出,或者说是中等靠下。

也存在答不出,答错,随机乱答的问题

它的智商一般,速度一般,油耗较高。

火山引擎就是首字太慢了,他回答的速度还可以,答题质量也还可以。

阿里百炼首字延时很低。

它毕竟是做服务器起家的,首字延迟非常低,但是它那个Qwen 3.5 Plus 的思考调度能力实在太弱了,每次都要思考很久很久。

GLM 5 其实综合实力还是蛮不错的:

  1. 它的速度和延迟基本上能排在前几名。
  2. 它输出的 Token 也比较节省
  3. 问题都是回答准确的。

OpenRouter 作为中转站,没想到速度也不比国内平台差,这一点让我意外。

Opus 4.6 已经被中转一次了,在国内,还能有这个速度已经相当不错了。

Opus 4.6 在常规问题中,时间和 Token 都不突出。

但在那个稍微复杂一点的题目时,它却是最快的,而且是完全正确的

最后的最后,再做最后的总结:

就像人一样,每个人都有各自的优点和缺点,没有绝对的。

不同的时间、不同地点、不同的问题,结果都可能会有很大的波动。

大家可以根据自己的关注点去选择。

我只是给大家一个参考,至少能避免踩坑!

原文以及更多测试:
https://www.tonyisstark.com/5786.html

Read more

FPGA机器学习终极指南:hls4ml完整教程与快速上手技巧

FPGA机器学习终极指南:hls4ml完整教程与快速上手技巧 【免费下载链接】hls4mlMachine learning on FPGAs using HLS 项目地址: https://gitcode.com/gh_mirrors/hl/hls4ml 想象一下,你训练了一个强大的深度学习模型,但它只能在云端运行,响应延迟让你无法接受。现在,一个名为hls4ml的开源项目正在改变这一现状,让机器学习模型能够直接在FPGA上实现低延迟、高吞吐量的推理加速。这个项目正迅速成为FPGA机器学习领域的明星工具!✨ 为什么选择FPGA推理加速? 在人工智能应用爆炸式增长的今天,传统的CPU和GPU已经无法满足某些场景对低延迟和能效比的严苛要求。FPGA凭借其可重构性和并行处理能力,在边缘计算、实时处理等领域展现出巨大优势。 hls4ml的核心优势: * 🚀 超低延迟:模型直接在硬件上运行,无需操作系统开销 * ⚡ 高吞吐量:充分利用FPGA的并行计算能力 * 🔋 能效比优异:相比GPU,FPGA在特定任务上能效比更高 * 🎯 定制化程度高:可根据具体需求优化硬件实现

FPGA 在大模型推理中的应用

FPGA 在大模型推理中的应用

我在之前详细讲过FPGA在AI中的优势,如果我们要利用它的优势,去优化大模型推理过程,应该有哪些方案(只是理论推导)。下面简单罗列一下: 方案一:OffLoad  MoE Expert MLP         MoE的MLP阶段,有一个重要的运算特点。         因为专家多(DeepSeek V3.1 的MoE有 256个专家,每个专家需要运算的batch就相对较小,因为路由后分散了,运算就变成一个细太碎的运算。此时,运算的瓶颈不在计算而在调度,权重读取上。         在这种情况下,如果使用GPU来完成,按GPU运算的特点,它强在并行大数据,多批次的运算。此时,每个运算依赖于SM,而SM可以需要有Kernel的准备,大量的时间会花在kernel的准备上,而好不容易准备好,但要处理的数据量极少,读取权重数据的时间反而显得更长,真正的运算并行很少(可能一个专家就算一个token),因为数据量小(注意:不同网络层的运算是不能并行的。唯一可以并行的是路由计算得到的N个专家)。 这时,有点象大饭店的大锅炒菜,最合理的方式是,一锅同时炒多份,但现在来的人少,一个大锅每次只能

基于FPGA的CARRY4 抽头延迟链TDC延时仿真

基于FPGA的CARRY4 抽头延迟链TDC延时仿真

基于FPGA的CARRY4 抽头延迟链TDC延时仿真 1 摘要 基于 FPGA 的 CARRY4 抽头延迟链 TDC,核心是利用 Xilinx FPGA 中 CARRY4 进位单元的固定、低抖动级联延迟构建抽头延迟线,通过锁存信号传播位置实现亚纳秒级时间测量,单级进位延迟约 10–30 ps,级联后可覆盖更大时间量程并结合粗计数拓展动态范围。TDC设计利用FPGA的专用进位链硬件,实现了亚纳秒级的时间测量精度,这是传统数字方法无法达到的。虽然需要校准,但其性能优势和数字集成的便利性使其成为高精度时间测量的首选方案。 2 CARRY4 核心结构与抽头延迟链原理 2.1 CARRY4 单元结构(Xilinx 7 系列 / UltraScale) 每个 CARRY4 包含 4 个 MUXCY 进位选择器与 4 个 XORCY 异或门,

龙虾机器人(OpenClaw)本地部署完全技术指南

龙虾机器人(OpenClaw)本地部署完全技术指南

龙虾机器人(OpenClaw)本地部署完全技术指南 前言:什么是“龙虾机器人”? 在开始部署之前,我们需要明确部署的对象。通常所说的“龙虾机器人”指的是开源项目 OpenClaw(曾用名:Clawdbot、Moltbot)。它由程序员彼得·斯坦伯格开发,是一个开源的、可本地部署的通用型AI代理系统。与ChatGPT等对话式AI不同,OpenClaw被赋予了操作系统的权限:它可以执行终端命令、读写文件、操控浏览器、安装软件,甚至通过MCP协议调用外部工具。 由于其强大的系统操控能力,安全性是部署时需关注的首要问题。官方及社区普遍建议:不要在主力机或存有敏感数据的生产环境直接裸奔部署,最好使用虚拟机、Docker容器或专用硬件(如Mac Mini或AI开发盒子)进行隔离。 第一章:环境准备与核心依赖 在安装OpenClaw之前,必须准备好运行环境。OpenClaw的核心由TypeScript编写,因此Node.js是必不可少的运行环境。此外,根据安装方式的不同,可能还需要Git、Docker或Python环境。 1.1 硬件建议与系统选择 * Linux