阿里巴巴开源推理模型 Marco-o1,聚焦开放式问题推理
11 月 22 日,阿里巴巴国际数字商业集团 MarcoPolo 团队发布了 Marco-o1,这是一种旨在推进开放式问题解决的大型推理模型 (LRM)。
Marco-o1 不仅关注数学、物理和编程等有标准答案的学科,还强调开放性解决方案。通过使用思维链(CoT)微调、蒙特卡罗树搜索(MCTS)和反思机制等创新技术,Marco-o1 优化了复杂的现实世界问题解决任务。


论文标题:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
论文链接:https://arxiv.org/pdf/2411.14405
项目地址:https://github.com/AIDC-AI/Marco-o1
Marco-o1 核心优势
Marco-o1 的核心优势体现在四个方面:
- 思维链微调:团队使用开源CoT 数据集和自研合成数据对基础模型进行全参数微调,打造出 Marco-o1-CoT。
- MCTS 解决方案扩展:通过将大语言模型与蒙特卡罗树搜索(MCTS)相结合,利用模型输出的置信度来指导搜索,大大扩展了解决方案空间。
- 创新推理策略:实现了全新的推理行动策略和反思机制(Marco-o1-MCTS Mini-Step),在 MCTS 框架内探索不同的行动粒度,并引导模型进行自我反思。
- 突破性翻译应用:首次将大型推理模型(LRM)应用于机器翻译任务,探索多语言和翻译领域的推理时间扩展规律。

图 2. Marco-o1 框架
通过微调 Qwen2-7B-Instruct 与过滤后的 Open-o1 CoT 数据集、Marco-o1 CoT 数据集和 Marco-o1 指令数据集的组合,Marco-o1 提高了对复杂任务的处理能力。

















