MiniMax M2.5 全栈开发与智能体能力实测
MiniMax M2.1 发布时,大家关注它如何读懂陈年旧代码。随着 AI 融入日常工作流,核心痛点已转变为快速将想法变成产品。近日,MiniMax M2.5 正式全球发布。这次更新综合能力对标行业头部,编程跑分刷新 SOTA,推理速度达 100 TPS,加量不加价。它不再满足于简单辅助开发,而是进化为高吞吐、强规划的执行主力。
本次测评跳过理论跑分,直接实战验证 M2.5 在继承前代理解力的基础上,能否靠极致响应速度和执行力解决全栈开发和复杂任务规划中的实际问题。
编程能力实测:硬刚全栈项目
独立开发者关注 AI 能否干活,关键在于三点:复杂界面生成、强类型逻辑处理、前后端串通。本次测试三个难度递增的真实场景。
前端视觉与图形算法
题目要求生成独立开发者个人作品集落地页,视觉指令具体:赛博朋克风格、深色背景、霓虹光效,背景需为基于 Canvas 的交互式粒子系统,鼠标移动时有磁性排斥效果。

MiniMax M2.5 输出单文件 HTML,浏览器打开即运行。代码未堆砌图片,而是用 JavaScript 在 Canvas 上编写粒子物理逻辑。鼠标划过时排斥感丝滑,配合 Bento Grid 布局和霓虹配色,页面完成度高。通常模型写 Canvas 易出现死循环或卡顿,但 M2.5 表现稳定。

iOS 开发:Swift 并发与类型检查
iOS 开发是 AI 生成代码重灾区,SwiftUI 语法更新快,类型检查严。本次构建 TravelMind 应用,模拟多智能体协作旅行规划 App。难点在于架构:需用 Swift 并发模型管理状态,界面实时展示思维日志和自我修正过程。

提示词强调先进行内部模拟测试。代码复制到 Xcode 后,编译器报了几处类型匹配和并发上下文错误。修复过程中,将报错信息丢回给 M2.5,结合预设的自我测试协议,模型迅速定位主线程更新 UI 问题并给出修正代码。

修复后 App 逻辑流畅,顶部思维日志实时滚动显示 Agent 思考过程,模拟 API 失败后的重试逻辑也跑通。证明虽不能保证强类型语言零错误,但代码逻辑结构清晰,具备可维护性和自我修复能力。

全栈系统构建
终极测试构建完整全栈系统:后端 Python FastAPI,前端 Next.js,数据库 SQLite。策略调整为先让模型根据需求写技术文档,再根据文档生成项目。










