概述
Llama 3.2 Vision 现已可在 Ollama 中运行,提供 11B 和 90B 两种规模。
入门指南
下载 Ollama 0.4,然后运行以下命令:
ollama run llama3.2-vision
要运行更大的 90B 模型:
ollama run llama3.2-vision:90b
要将图像添加到提示中,拖放图像到终端,或在 Linux 中将图像路径添加到提示中。
注意:Llama 3.2 Vision 11B 至少需要 8GB 的 VRAM,90B 模型至少需要 64GB 的 VRAM。
示例
手写识别

光学字符识别 (OCR)

图表与表格

图像问答

使用方法
首先,拉取模型:
ollama pull llama3.2-vision
Python 库
使用 Ollama Python 库与 Llama 3.2 Vision:
import ollama
response = ollama.chat(
model='llama3.2-vision',
messages=[
{
'role': 'user',
'content': 'What is in this image?',
'images': ['image.jpg']
}
]
)
print(response)

