Mistral 发布开源多模态模型 Pixtral Large
今日凌晨,Mistral AI 发布了最新开源多模态模型 Pixtral Large,该模型基于 Mistral Large 2 构建,展示出强大的图像理解能力,能够理解文档、图表和自然图像,同时还保持了 Mistral Large 2 优秀的纯文本理解能力。
据介绍,该模型具有强大的多模态性能,在 MathVista、DocVQA、VQAv2 上达到了 SOTA,能够在不影响文本性能的前提下对 Mistral Large 2 进行扩展并具有 123B 多模态解码器、1B 参数视觉编码器以及 128K 的上下文窗口。
同时,他们的 AI 聊天助手 Le Chat 也新增了网页搜索、画布、文件理解和图像生成等功能。
最新基础模型 Pixtral Large
Mistral AI 通过一套通用测试工具,在一组标准多模态基准上将 Pixtral Large 与前沿模型进行比较。他们使用 MathVista 评估模型在视觉数据的复杂数学推理方面的性能,在这项测试中,Pixtral Large 实现了 69.4% 的准确率,优于所有其他模型。为了评估复杂图表和文档的推理能力,他们使用 ChartQA 和 DocVQA 评估性能,结果显示 Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

图|在使用 MathVista、ChartQA 和 DocVQA 评估性能时,Pixtral Large 均优于其他模型。
最后,Pixtral Large 在 MM-MT-Bench 上展示了具有竞争性的能力,表现优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。MM-MT-Bench 是一种开源的、基于评判的评估,旨在反映多模态 LLM 的实际用例。

图|Pixtral Large 在 MM-MT-Bench 上展示了竞争性能力。
以下是 Pixtral Large 的一些能力展示:
多语言 OCR 和推理

提示:
我买了咖啡和香肠。我需要付多少钱?加上 18% 的小费。
回复:
要计算出你需支付的总金额(包含 18% 的小费),请按以下步骤操作:
- 计算咖啡和香肠的费用:
2 杯拿铁玛奇朵:2 × 4.50 瑞士法郎 = 9.00 瑞士法郎
1 份炸猪排:22.00 瑞士法郎
咖啡和香肠的总费用:9.00 瑞士法郎 + 22.00 瑞士法郎 = 31.00 瑞士法郎
- 计算 18% 的小费:
- 小费:31.00 瑞士法郎 × 0.18 = 5.58 瑞士法郎
- 将小费加到总费用上:
- 应付总金额:31.00 瑞士法郎 + 5.58 瑞士法郎 = 36.58 瑞士法郎
所以,你总共需支付 36.58 瑞士法郎。
图表理解





