阿里巴巴开源推理模型 Marco-o1 与多模态 MoE 大模型 Awaker2.5-VL 解析 | 极客日志

编程语言AI算法

阿里巴巴开源推理模型 Marco-o1 与多模态 MoE 大模型 Awaker2.5-VL 解析

本文介绍了三个最新的开源 AI 项目。首先是阿里巴巴发布的 Marco-o1 推理模型，采用思维链微调和蒙特卡罗树搜索技术，在数学、物理及翻译任务上表现优异。其次是智子引擎（Metabrain AGI）推出的 Awaker2.5-VL 多模态 MoE 大模型，基于 LoRA-MoE 设计，在 MME-Realworld 等基准测试中取得领先成绩。最后是华中科技大学的 MoE Jetpack 框架，通过 Checkpoint Recycling 方法将密集模型微调为混合专家模型，显著提升收敛速度和准确率。这些成果展示了大模型在推理、多模态理解及架构优化方面的进展。

性能调优发布于 2025/2/7更新于 2026/4/190 浏览

阿里巴巴开源推理模型 Marco-o1 与多模态 MoE 大模型 Awaker2.5-VL 解析

阿里巴巴开源推理模型 Marco-o1，聚焦开放式问题推理

11 月 22 日，阿里巴巴国际数字商业集团 MarcoPolo 团队发布了 Marco-o1，这是一种旨在推进开放式问题解决的大型推理模型 (LRM)。

Marco-o1 不仅关注数学、物理和编程等有标准答案的学科，还强调开放性解决方案。通过使用思维链（CoT）微调、蒙特卡罗树搜索(MCTS)和反思机制等创新技术，Marco-o1 优化了复杂的现实世界问题解决任务。

Marco-o1 框架示意图

Marco-o1 效果展示

论文标题：Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

论文链接：https://arxiv.org/pdf/2411.14405

项目地址：https://github.com/AIDC-AI/Marco-o1

Marco-o1 核心优势

Marco-o1 的核心优势体现在四个方面：

思维链微调：团队使用开源CoT 数据集和自研合成数据对基础模型进行全参数微调，打造出 Marco-o1-CoT。
MCTS 解决方案扩展：通过将大语言模型与蒙特卡罗树搜索（MCTS）相结合，利用模型输出的置信度来指导搜索，大大扩展了解决方案空间。
创新推理策略：实现了全新的推理行动策略和反思机制（Marco-o1-MCTS Mini-Step），在 MCTS 框架内探索不同的行动粒度，并引导模型进行自我反思。
突破性翻译应用：首次将大型推理模型（LRM）应用于机器翻译任务，探索多语言和翻译领域的推理时间扩展规律。

Marco-o1 框架结构

图 2. Marco-o1 框架

通过微调 Qwen2-7B-Instruct 与过滤后的 Open-o1 CoT 数据集、Marco-o1 CoT 数据集和 Marco-o1 指令数据集的组合，Marco-o1 提高了对复杂任务的处理能力。

Marco-o1 数据集对比

极客日志微信公众号二维码

更多推荐文章

相关免费在线工具

加密/解密文本
使用加密算法（如AES、TripleDES、Rabbit或RC4）加密和解密文本明文。在线工具，加密/解密文本在线工具，online
RSA密钥对生成器
生成新的随机RSA私钥和公钥pem证书。在线工具，RSA密钥对生成器在线工具，online
Mermaid 预览与可视化编辑
基于 Mermaid.js 实时预览流程图、时序图等图表，支持源码编辑与即时渲染。在线工具，Mermaid 预览与可视化编辑在线工具，online
Base64 字符串编码/解码
将字符串编码和解码为其 Base64 格式表示形式即可。在线工具，Base64 字符串编码/解码在线工具，online
Base64 文件转换器
将字符串、文件或图像转换为其 Base64 表示形式。在线工具，Base64 文件转换器在线工具，online
Markdown转HTML
将 Markdown（GFM）转为 HTML 片段，浏览器内 marked 解析；与 HTML转Markdown 互为补充。在线工具，Markdown转HTML在线工具，online