MiniMax AI 开源 MiniMax-M2.1

MiniMax AI 开源 MiniMax-M2.1

遇见MiniMax-M2.1

今天我们正式将MiniMax-M2.1交付给开源社区。这次发布不仅是参数的更新,更是向普及顶级智能体能力迈出的重要一步。

M2.1的诞生旨在打破高性能智能体必须闭门造车的刻板印象。我们专门优化了模型在编码、工具使用、指令遵循和长远规划方面的稳健性。从自动化多语言软件开发到执行复杂的多步骤办公流程,MiniMax-M2.1让开发者能够构建新一代自主应用程序——同时保持完全透明、可控且易于获取。

我们相信真正的智能应该触手可及。M2.1是我们对未来的承诺,也是您手中的强大新工具。

在这里插入图片描述

使用方法

  • MiniMax-M2.1 API 现已在 MiniMax 开放平台上线:https://platform.minimax.io/docs/guides/text-generation
  • 基于 MiniMax-M2.1 构建的产品 MiniMax Agent 现已公开可用:https://agent.minimax.io/
  • MiniMax-M2.1 模型权重现已开源,支持本地部署和使用:https://huggingface.co/MiniMaxAI/MiniMax-M2.1

基准测试

MiniMax-M2.1 在核心软件工程排行榜上相较 M2 实现了显著提升。它在多语言场景中表现尤为突出,超越了 Claude Sonnet 4.5,并接近 Claude Opus 4.5 的水平。

BenchmarkMiniMax-M2.1MiniMax-M2Claude Sonnet 4.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (thinking)DeepSeek V3.2
SWE-bench Verified74.069.477.280.978.080.073.1
Multi-SWE-bench49.436.244.350.042.7x37.4
SWE-bench Multilingual72.556.56877.565.072.070.2
Terminal-bench 2.047.930.050.057.854.254.046.4

我们还在多种编码代理框架上对MiniMax-M2.1进行了SWE-bench Verified评估。结果表明该模型具有卓越的框架泛化能力和强大的稳定性。

此外,在包括测试用例生成、代码性能优化、代码审查和指令遵循等具体基准测试中,MiniMax-M2.1相较M2展现出全面提升。在这些专业领域,其表现持续达到或超越Claude Sonnet 4.5的水平。

BenchmarkMiniMax-M2.1MiniMax-M2Claude Sonnet 4.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (thinking)DeepSeek V3.2
SWE-bench Verified (Droid)71.368.172.375.2xx67.0
SWE-bench Verified (mini-swe-agent)67.061.070.674.471.874.260.0
SWT-bench69.332.869.580.279.780.762.0
SWE-Perf3.11.43.04.76.53.60.9
SWE-Review8.93.410.516.2xx6.4
OctoCodingbench26.113.322.836.222.9x26.0

为评估模型"从零到一"架构完整可用应用的全栈能力,我们建立了创新性评测基准VIBE(应用开发视觉交互执行基准)。该套件包含Web、仿真、Android、iOS和后台五大核心子集,突破性地采用"智能体即验证器"(Agent-as-a-Verifier)范式,可在真实运行时环境中自动评估生成应用的交互逻辑与视觉呈现效果。

MiniMax-M2.1在VIBE综合基准上表现优异,平均得分达88.6分,展现出强劲的全栈开发能力,尤其在VIBE-Web(91.5)和VIBE-Android(89.7)子项上优势显著。

BenchmarkMiniMax-M2.1MiniMax-M2Claude Sonnet 4.5Claude Opus 4.5Gemini 3 Pro
VIBE (Average)88.667.585.290.782.4
VIBE-Web91.580.487.389.189.5
VIBE-Simulation87.177.079.184.089.2
VIBE-Android89.769.287.592.278.7
VIBE-iOS88.039.581.290.075.8
VIBE-Backend86.767.890.898.078.7

MiniMax-M2.1在长周期工具使用和综合智能指标方面也较M2版本展现出持续改进。

BenchmarkMiniMax-M2.1MiniMax-M2Claude Sonnet 4.5Claude Opus 4.5Gemini 3 ProGPT-5.2 (thinking)DeepSeek V3.2
Toolathlon43.516.738.943.536.441.735.2
BrowseComp47.444.019.637.037.865.851.4
BrowseComp (context management)62.056.926.157.859.270.067.6
AIME2583.078.088.091.096.098.092.0
MMLU-Pro88.082.088.090.090.087.086.0
GPQA-D83.078.083.087.091.090.084.0
HLE w/o tools22.212.517.328.437.231.422.2
LCB81.083.071.087.092.089.086.0
SciCode41.036.045.050.056.052.039.0
IFBench70.072.057.058.070.075.061.0
AA-LCR62.061.066.074.071.073.065.0
𝜏²-Bench Telecom87.087.078.090.087.085.091.0
评估方法说明SWE-bench 验证版:在内部基础设施上使用 Claude CodeDroidmini-swe-agent 作为脚手架进行测试。默认采用 Claude Code 指标。使用 Claude Code 时,系统默认提示词被覆盖。结果为 4 次运行的平均值。Multi-SWE-Bench & SWE-bench 多语言版 & SWT-bench & SWE-Perf:在内部基础设施上使用 Claude Code 作为脚手架测试,系统默认提示词被覆盖。结果为 4 次运行的平均值。Terminal-bench 2.0:在我们的内部评估框架中使用 Claude Code 测试。我们验证了完整数据集并修复了环境问题。移除了超时限制,其余配置与官方设置保持一致。结果为 4 次运行的平均值。SWE Review:基于 SWE 框架构建的内部代码缺陷审查基准,涵盖多语言和多场景,同时评估缺陷召回率和幻觉率。仅当模型准确识别目标缺陷且确保所有其他报告结果有效且无幻觉时,审查才被视为"正确"。所有评估均使用 Claude Code 执行,最终结果反映每个测试用例 4 次独立运行的平均值。我们计划近期开源该基准。OctoCodingbench:面向复杂开发场景中代码代理长程指令跟随的内部基准,在跨技术栈和脚手架框架的动态环境中进行端到端行为监督。核心目标是评估模型整合与执行"复合指令约束"的能力——包括系统提示(SP)、用户查询、记忆、工具模式及 Agents.mdClaude.mdSkill.md 等规范。采用严格的"单违规即失败"评分机制,最终结果为 4 次运行的平均通过率,量化模型将静态约束转化为精确行为的鲁棒性。我们计划近期开源该基准。VIBE:使用 Claude Code 作为脚手架自动验证程序交互逻辑与视觉效果的内部分析基准,通过需求集、容器化部署和动态交互环境组成的统一流程计算得分。最终结果为 3 次运行的平均值。我们已在 VIBE 开源该基准。Toolathlon:评估协议与原始论文保持一致。BrowseComp:所有分数均使用与 WebExplorer(Liu 等,2025 年)相同的智能体框架获取,仅对工具描述进行微调。我们采用了与 WebExplorer 相同的 103 样本 GAIA 纯文本验证子集。BrowseComp(上下文管理):当 token 使用量超过最大上下文窗口的 30% 时,保留首个 AI 响应、最后五个 AI 响应及工具输出,其余内容将被丢弃。AIME25 ~ 𝜏²-Bench Telecom:基于 人工智能分析指数 引用的评估数据集和方法进行的内部测试结果。

本地部署指南

从 HuggingFace 仓库下载模型:https://huggingface.co/MiniMaxAI/MiniMax-M2.1

https://github.com/MiniMax-AI/MiniMax-M2.1

Read more

免费且完全开源的金融平台,金融数据集软件openbb

免费且完全开源的金融平台,金融数据集软件openbb

首个免费且完全开源的金融平台 repo:https://github.com/OpenBB-finance/OpenBB 手册:https://docs.openbb.co/odp/python/quickstart agent:https://github.com/OpenBB-finance/agents-for-openbb 提供股票、期权、加密货币、外汇、宏观经济、固定收益等多种金融工具的访问权限,并提供广泛的扩展功能,以满足用户的不同需求。 注册 OpenBB Hub,充分利用 OpenBB 生态系统。 还开源了一个可以访问 OpenBB 中所有数据的 AI 金融分析师代理,该存储库可以在此找到这里。 1. 安装 OpenBB 平台可以通过运行 pip install openbb 作为 PyPI

By Ne0inhk
π0的微调——如何基于各种开源数据集、以及私有数据集微调openpi(含我司七月的微调实践及openpi在国产臂上的部署)

π0的微调——如何基于各种开源数据集、以及私有数据集微调openpi(含我司七月的微调实践及openpi在国产臂上的部署)

前言 25年2.4日,几个月前推出π0的公司Physical Intelligence (π)宣布正式开源π0及π0-FAST,如之前所介绍的,他们对用超过 10,000 小时的机器人数据进行了预训练 该GitHub代码仓库「 π0及π0-FAST的GitHub地址:github.com/Physical-Intelligence/openpi」包括4个方面:简言之,就是 1. π0本身的代码和权重 2. 特定平台上特定任务的微调checkpoint 3. 推理代码 4. 微调代码 注意本文接上一篇文章《π0源码剖析——从π0模型架构的实现(如何基于PaLI-Gemma和扩散策略去噪生成动作),到基于C/S架构下的模型训练与部署》而来,但本文侧重对π0的微调 至于什么是π0,则参见此文《π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)》 顺带,值得一提的是,我司「七月在线」也是目前国内具身落地经验最丰富的团队之一了 * 比如每个月都在并行开发多个具身订单,全职开发者和合作开发者总计百余人,

By Ne0inhk
Git 用户名与邮箱配置指南

Git 用户名与邮箱配置指南

前言 在使用 Git 进行版本控制时,每一次代码提交(commit)都会记录提交者的身份信息。这些信息不仅用于追踪代码变更历史,还在团队协作、代码审查和开源贡献中发挥着重要作用。 Git 通过 用户名(user.name) 和 邮箱(user.email) 来标识开发者身份。正确配置这两项信息,是使用 Git 的第一步,也是确保提交记录清晰、可追溯的关键。 一、为什么需要设置用户名和邮箱? Git 是一个分布式版本控制系统,它不依赖中央服务器来管理用户身份。因此,每个开发者必须在本地明确声明自己的身份。Git 会在每次执行 git commit 时,自动将 user.name 和 user.email 写入提交记录。 如果没有正确设置,可能会导致: * 提交记录显示为 unknown 或默认系统用户名;

By Ne0inhk