Ollama v0.4 支持运行 Llama 3.2 Vision 模型

Ollama v0.4 版本现已支持运行 Llama 3.2 Vision 模型，提供 11B 和 90B 两种规格。用户可通过命令行直接运行，或将图像拖入终端及添加路径进行多模态交互。该模型支持手写识别、OCR、图表分析及图像问答等功能。运行 11B 模型需至少 8GB VRAM，90B 模型需至少 64GB VRAM。此外，文档提供了 Python、JavaScript 及 cURL 的调用示例。

禅心发布于 2025/2/7更新于 2026/4/190 浏览

概述

Llama 3.2 Vision 现已可在 Ollama 中运行，提供 11B 和 90B 两种规模。

入门指南

下载 Ollama 0.4，然后运行以下命令：

ollama run llama3.2-vision

要运行更大的 90B 模型：

ollama run llama3.2-vision:90b

要将图像添加到提示中，拖放图像到终端，或在 Linux 中将图像路径添加到提示中。

注意：Llama 3.2 Vision 11B 至少需要 8GB 的 VRAM，90B 模型至少需要 64GB 的 VRAM。

示例

手写识别

手写识别示例

光学字符识别 (OCR)

OCR 示例

图表与表格

图表与表格示例

图像问答

图像问答示例

使用方法

首先，拉取模型：

ollama pull llama3.2-vision

Python 库

使用 Ollama Python 库与 Llama 3.2 Vision：

import ollama

response = ollama.chat(
    model='llama3.2-vision',
    messages=[
        {
            'role': 'user',
            'content': 'What is in this image?',
            'images': ['image.jpg']
        }
    ]
)

print(response)

Ollama v0.4 支持运行 Llama 3.2 Vision 模型

概述

入门指南

示例

手写识别

光学字符识别 (OCR)

图表与表格

图像问答

使用方法

Python 库

更多推荐文章

相关免费在线工具

JavaScript 库

cURL

Ollama v0.4 支持运行 Llama 3.2 Vision 模型

概述

入门指南

示例

手写识别

光学字符识别 (OCR)

图表与表格

图像问答

使用方法

Python 库

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具

JavaScript 库

cURL