MiniMax AI 开源 MiniMax-M2.1
遇见MiniMax-M2.1
今天我们正式将MiniMax-M2.1交付给开源社区。这次发布不仅是参数的更新,更是向普及顶级智能体能力迈出的重要一步。
M2.1的诞生旨在打破高性能智能体必须闭门造车的刻板印象。我们专门优化了模型在编码、工具使用、指令遵循和长远规划方面的稳健性。从自动化多语言软件开发到执行复杂的多步骤办公流程,MiniMax-M2.1让开发者能够构建新一代自主应用程序——同时保持完全透明、可控且易于获取。
我们相信真正的智能应该触手可及。M2.1是我们对未来的承诺,也是您手中的强大新工具。

使用方法
- MiniMax-M2.1 API 现已在 MiniMax 开放平台上线:https://platform.minimax.io/docs/guides/text-generation
- 基于 MiniMax-M2.1 构建的产品 MiniMax Agent 现已公开可用:https://agent.minimax.io/
- MiniMax-M2.1 模型权重现已开源,支持本地部署和使用:https://huggingface.co/MiniMaxAI/MiniMax-M2.1
基准测试
MiniMax-M2.1 在核心软件工程排行榜上相较 M2 实现了显著提升。它在多语言场景中表现尤为突出,超越了 Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平。
| Benchmark | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (thinking) | DeepSeek V3.2 |
|---|---|---|---|---|---|---|---|
| SWE-bench Verified | 74.0 | 69.4 | 77.2 | 80.9 | 78.0 | 80.0 | 73.1 |
| Multi-SWE-bench | 49.4 | 36.2 | 44.3 | 50.0 | 42.7 | x | 37.4 |
| SWE-bench Multilingual | 72.5 | 56.5 | 68 | 77.5 | 65.0 | 72.0 | 70.2 |
| Terminal-bench 2.0 | 47.9 | 30.0 | 50.0 | 57.8 | 54.2 | 54.0 | 46.4 |
我们还在多种编码代理框架上对MiniMax-M2.1进行了SWE-bench Verified评估。结果表明该模型具有卓越的框架泛化能力和强大的稳定性。
此外,在包括测试用例生成、代码性能优化、代码审查和指令遵循等具体基准测试中,MiniMax-M2.1相较M2展现出全面提升。在这些专业领域,其表现持续达到或超越Claude Sonnet 4.5的水平。
| Benchmark | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (thinking) | DeepSeek V3.2 |
|---|---|---|---|---|---|---|---|
| SWE-bench Verified (Droid) | 71.3 | 68.1 | 72.3 | 75.2 | x | x | 67.0 |
| SWE-bench Verified (mini-swe-agent) | 67.0 | 61.0 | 70.6 | 74.4 | 71.8 | 74.2 | 60.0 |
| SWT-bench | 69.3 | 32.8 | 69.5 | 80.2 | 79.7 | 80.7 | 62.0 |
| SWE-Perf | 3.1 | 1.4 | 3.0 | 4.7 | 6.5 | 3.6 | 0.9 |
| SWE-Review | 8.9 | 3.4 | 10.5 | 16.2 | x | x | 6.4 |
| OctoCodingbench | 26.1 | 13.3 | 22.8 | 36.2 | 22.9 | x | 26.0 |
为评估模型"从零到一"架构完整可用应用的全栈能力,我们建立了创新性评测基准VIBE(应用开发视觉交互执行基准)。该套件包含Web、仿真、Android、iOS和后台五大核心子集,突破性地采用"智能体即验证器"(Agent-as-a-Verifier)范式,可在真实运行时环境中自动评估生成应用的交互逻辑与视觉呈现效果。
MiniMax-M2.1在VIBE综合基准上表现优异,平均得分达88.6分,展现出强劲的全栈开发能力,尤其在VIBE-Web(91.5)和VIBE-Android(89.7)子项上优势显著。
| Benchmark | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| VIBE (Average) | 88.6 | 67.5 | 85.2 | 90.7 | 82.4 |
| VIBE-Web | 91.5 | 80.4 | 87.3 | 89.1 | 89.5 |
| VIBE-Simulation | 87.1 | 77.0 | 79.1 | 84.0 | 89.2 |
| VIBE-Android | 89.7 | 69.2 | 87.5 | 92.2 | 78.7 |
| VIBE-iOS | 88.0 | 39.5 | 81.2 | 90.0 | 75.8 |
| VIBE-Backend | 86.7 | 67.8 | 90.8 | 98.0 | 78.7 |
MiniMax-M2.1在长周期工具使用和综合智能指标方面也较M2版本展现出持续改进。
| Benchmark | MiniMax-M2.1 | MiniMax-M2 | Claude Sonnet 4.5 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 (thinking) | DeepSeek V3.2 |
|---|---|---|---|---|---|---|---|
| Toolathlon | 43.5 | 16.7 | 38.9 | 43.5 | 36.4 | 41.7 | 35.2 |
| BrowseComp | 47.4 | 44.0 | 19.6 | 37.0 | 37.8 | 65.8 | 51.4 |
| BrowseComp (context management) | 62.0 | 56.9 | 26.1 | 57.8 | 59.2 | 70.0 | 67.6 |
| AIME25 | 83.0 | 78.0 | 88.0 | 91.0 | 96.0 | 98.0 | 92.0 |
| MMLU-Pro | 88.0 | 82.0 | 88.0 | 90.0 | 90.0 | 87.0 | 86.0 |
| GPQA-D | 83.0 | 78.0 | 83.0 | 87.0 | 91.0 | 90.0 | 84.0 |
| HLE w/o tools | 22.2 | 12.5 | 17.3 | 28.4 | 37.2 | 31.4 | 22.2 |
| LCB | 81.0 | 83.0 | 71.0 | 87.0 | 92.0 | 89.0 | 86.0 |
| SciCode | 41.0 | 36.0 | 45.0 | 50.0 | 56.0 | 52.0 | 39.0 |
| IFBench | 70.0 | 72.0 | 57.0 | 58.0 | 70.0 | 75.0 | 61.0 |
| AA-LCR | 62.0 | 61.0 | 66.0 | 74.0 | 71.0 | 73.0 | 65.0 |
| 𝜏²-Bench Telecom | 87.0 | 87.0 | 78.0 | 90.0 | 87.0 | 85.0 | 91.0 |
评估方法说明:SWE-bench 验证版:在内部基础设施上使用 Claude Code、Droid 或 mini-swe-agent 作为脚手架进行测试。默认采用 Claude Code 指标。使用 Claude Code 时,系统默认提示词被覆盖。结果为 4 次运行的平均值。Multi-SWE-Bench & SWE-bench 多语言版 & SWT-bench & SWE-Perf:在内部基础设施上使用 Claude Code 作为脚手架测试,系统默认提示词被覆盖。结果为 4 次运行的平均值。Terminal-bench 2.0:在我们的内部评估框架中使用 Claude Code 测试。我们验证了完整数据集并修复了环境问题。移除了超时限制,其余配置与官方设置保持一致。结果为 4 次运行的平均值。SWE Review:基于 SWE 框架构建的内部代码缺陷审查基准,涵盖多语言和多场景,同时评估缺陷召回率和幻觉率。仅当模型准确识别目标缺陷且确保所有其他报告结果有效且无幻觉时,审查才被视为"正确"。所有评估均使用 Claude Code 执行,最终结果反映每个测试用例 4 次独立运行的平均值。我们计划近期开源该基准。OctoCodingbench:面向复杂开发场景中代码代理长程指令跟随的内部基准,在跨技术栈和脚手架框架的动态环境中进行端到端行为监督。核心目标是评估模型整合与执行"复合指令约束"的能力——包括系统提示(SP)、用户查询、记忆、工具模式及Agents.md、Claude.md、Skill.md等规范。采用严格的"单违规即失败"评分机制,最终结果为 4 次运行的平均通过率,量化模型将静态约束转化为精确行为的鲁棒性。我们计划近期开源该基准。VIBE:使用 Claude Code 作为脚手架自动验证程序交互逻辑与视觉效果的内部分析基准,通过需求集、容器化部署和动态交互环境组成的统一流程计算得分。最终结果为 3 次运行的平均值。我们已在 VIBE 开源该基准。Toolathlon:评估协议与原始论文保持一致。BrowseComp:所有分数均使用与 WebExplorer(Liu 等,2025 年)相同的智能体框架获取,仅对工具描述进行微调。我们采用了与 WebExplorer 相同的 103 样本 GAIA 纯文本验证子集。BrowseComp(上下文管理):当 token 使用量超过最大上下文窗口的 30% 时,保留首个 AI 响应、最后五个 AI 响应及工具输出,其余内容将被丢弃。AIME25 ~ 𝜏²-Bench Telecom:基于 人工智能分析指数 引用的评估数据集和方法进行的内部测试结果。
本地部署指南
从 HuggingFace 仓库下载模型:https://huggingface.co/MiniMaxAI/MiniMax-M2.1
https://github.com/MiniMax-AI/MiniMax-M2.1