Ollama 支持 Llama 3.2 Vision 及视觉 RAG 系统搭建指南

Ollama 现已正式支持 Llama 3.2 Vision 模型，提供 11B 和 90B 参数版本。本文介绍如何在本地通过 Docker 更新并拉取该模型，展示其在图像识别、OCR、图表分析及图片问答方面的能力。此外，还演示了基于 LocalGPT-Vision 的视觉 RAG 系统搭建流程，利用 ColQwen 或 ColPali 进行页面检索，结合视觉语言模型实现文档对话。通过上传 PDF 并索引，用户可针对文档内容进行提问，验证了多模态大模型在检索增强生成场景下的应用效果。

山野来信发布于 2025/2/7更新于 2026/4/190 浏览

Ollama 更新：Llama 3.2 Vision 支持与视觉 RAG 系统搭建

在本文中，我将介绍 Ollama 最近对 Llama 3.2 Vision 的支持更新，并分享实测结果。同时，还将介绍一个视觉 RAG 系统，展示如何将 Llama 3.2 Vision 与该系统结合，完成基于视觉 RAG 检索的任务。

更新介绍

Ollama 现在正式支持 Llama 3.2 视觉模型（Llama 3.2 Vision）。

你可以像拖拽文件一样将图片发送给模型进行识别。

Ollama 拖拽识别演示

该模型有 11B 参数版和 90B 参数版。选择 90B 参数版时，文件大小约为 55GB。当然还有一些量化的版本。

Llama 3.2 Vision 版本信息

Llama 3.2 Vision 11B 至少需要 8GB VRAM，而 90B 型号至少需要 64 GB VRAM。

为了安装它，你需要更新一下 ollama。这里以 Docker 安装的 Ollama 为例，没更新前拉取这个视觉模型不成功，我们需要删掉容器，再 pull 更新它。

Docker 更新操作

更新完之后我们可以执行拉取操作。

拉取模型命令

如果你的是 Linux 版本 Ollama 由于网络问题下载不成功的话，可以参考相关社区资源解决。

你可以使用 ollama python 库这样运行它的测试。

import ollama

response = ollama.chat(
    model='llama3.2-vision',
    messages=[{
        'role': 'user',
        'content': '这张图片是什么？',
        'images': ['path/to/image.jpg'],
    }]
)
print(response['message']['content'])