Mistral 发布开源多模态模型 Pixtral Large，Le Chat 助手新增多项功能

Mistral AI 发布开源多模态模型 Pixtral Large，基于 Mistral Large 2 构建，具备强大的图像理解能力，在 MathVista、DocVQA 等基准测试中表现优异。同时升级了聊天助手 Le Chat，新增网页搜索、Canvas 画布、文档理解及图像生成功能，旨在提供更全面的 AI 交互体验。

CryptoLab发布于 2025/2/7更新于 2026/4/180 浏览

Mistral 发布开源多模态模型 Pixtral Large

今日凌晨，Mistral AI 发布了最新开源多模态模型 Pixtral Large，该模型基于 Mistral Large 2 构建，展示出强大的图像理解能力，能够理解文档、图表和自然图像，同时还保持了 Mistral Large 2 优秀的纯文本理解能力。

据介绍，该模型具有强大的多模态性能，在 MathVista、DocVQA、VQAv2 上达到了 SOTA，能够在不影响文本性能的前提下对 Mistral Large 2 进行扩展并具有 123B 多模态解码器、1B 参数视觉编码器以及 128K 的上下文窗口。

同时，他们的 AI 聊天助手 Le Chat 也新增了网页搜索、画布、文件理解和图像生成等功能。

最新基础模型 Pixtral Large

Mistral AI 通过一套通用测试工具，在一组标准多模态基准上将 Pixtral Large 与前沿模型进行比较。他们使用 MathVista 评估模型在视觉数据的复杂数学推理方面的性能，在这项测试中，Pixtral Large 实现了 69.4% 的准确率，优于所有其他模型。为了评估复杂图表和文档的推理能力，他们使用 ChartQA 和 DocVQA 评估性能，结果显示 Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

Pixtral Large 性能评估对比图

图｜在使用 MathVista、ChartQA 和 DocVQA 评估性能时，Pixtral Large 均优于其他模型。

最后，Pixtral Large 在 MM-MT-Bench 上展示了具有竞争性的能力，表现优于 Claude-3.5 Sonnet（新版）、Gemini-1.5 Pro 和 GPT-4o（最新版）。MM-MT-Bench 是一种开源的、基于评判的评估，旨在反映多模态 LLM 的实际用例。

MM-MT-Bench 评估结果

图｜Pixtral Large 在 MM-MT-Bench 上展示了竞争性能力。

以下是 Pixtral Large 的一些能力展示：

多语言 OCR 和推理

多语言 OCR 推理示例

提示：

我买了咖啡和香肠。我需要付多少钱？加上 18% 的小费。

回复：

要计算出你需支付的总金额（包含 18% 的小费），请按以下步骤操作：

计算咖啡和香肠的费用：

2 杯拿铁玛奇朵：2 × 4.50 瑞士法郎 = 9.00 瑞士法郎

1 份炸猪排：22.00 瑞士法郎

咖啡和香肠的总费用：9.00 瑞士法郎 + 22.00 瑞士法郎 = 31.00 瑞士法郎

计算 18% 的小费：

小费：31.00 瑞士法郎 × 0.18 = 5.58 瑞士法郎

将小费加到总费用上：

应付总金额：31.00 瑞士法郎 + 5.58 瑞士法郎 = 36.58 瑞士法郎

所以，你总共需支付 36.58 瑞士法郎。

图表理解

图表理解示例

Mistral 发布开源多模态模型 Pixtral Large，Le Chat 助手新增多项功能

Mistral 发布开源多模态模型 Pixtral Large

最新基础模型 Pixtral Large

多语言 OCR 和推理

图表理解

更多推荐文章

相关免费在线工具

图像理解

进一步对标 ChatGPT

网页搜索

Canvas 画布

快速准确的文档理解

图像生成

智能体

Mistral 发布开源多模态模型 Pixtral Large，Le Chat 助手新增多项功能

Mistral 发布开源多模态模型 Pixtral Large

最新基础模型 Pixtral Large

多语言 OCR 和推理

图表理解

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

图像理解

进一步对标 ChatGPT

网页搜索

Canvas 画布

快速准确的文档理解

图像生成

智能体