本地搭建带知识库的 AI 助手：Ollama + Open WebUI 部署指南

一、为什么要在本地搭一个 AI 助手？

大模型已成为日常生产力工具，但使用网页版 ChatGPT / 文心一言等存在以下问题：

数据隐私：公司内部文档、个人笔记等敏感信息上传至云端存在风险。
网络依赖：离线环境或内网管控下无法使用在线 AI。
额度与费用：免费额度有限，重度使用需付费，且数据可能被用于训练。

本地部署'AI + 知识库'的优势：

数据完全不出本地，满足隐私合规要求。
断网也能用，随时随地调取'第二大脑'。
可定制：可为团队搭建企业 FAQ 助手，或个人搭建读书笔记助手。

本文目标：从零开始，在本地搭建支持上传文档构建知识库（RAG）的 AI 助手。

二、整体架构

系统核心组件如下：

Ollama：本地模型运行时，负责加载和调度大模型、嵌入模型，提供统一 API。
Qwen2.5 系列 / DeepSeek-R1 等：本地对话大模型，作为'大脑'。
嵌入模型（Embedding）：将文本转为向量，用于知识库检索，如 nomic-embed-text、bge-m3。
向量数据库 / 向量索引：存储文档向量，负责相似度检索（Open WebUI 自带，也可外接 Chroma、Milvus 等）。
Open WebUI：类 ChatGPT 的 Web 界面，支持对话、上传文档、配置知识库。

三、工具选型：为什么推荐 Ollama + Open WebUI？

3.1 大模型运行时：Ollama

相比直接使用 transformers + PyTorch，Ollama 优势明显：

跨平台：Windows / macOS / Linux 均有官方安装包。
一键拉模型：ollama pull qwen2.5:7b-instruct 即可运行，无需处理 GGUF、量化等细节。
统一 API：默认在本地 11434 端口提供 REST API，兼容 OpenAI 调用方式。
资源友好：支持 CPU / Apple Silicon GPU / NVIDIA GPU，自动检测硬件加速。

3.2 Web 界面：Open WebUI

Open WebUI 是社区活跃的开源大模型 Web 界面之一：

界面体验接近 ChatGPT：多轮对话、Markdown 渲染、代码高亮、历史记录管理。
自带 RAG 知识库功能：无需写代码即可上传文档、构建知识库。
支持多用户：适合团队部署，独立账号和空间。
可扩展：支持接入多种模型后端（Ollama、OpenAI 兼容 API 等）。

3.3 模型选择：Qwen2.5 / DeepSeek-R1 等

Qwen2.5 系列：中文能力强，指令跟随稳定，社区使用广泛。
DeepSeek-R1 系列：推理和代码能力突出，适合程序员场景。

具体规模视硬件配置而定。

四、硬件与系统环境

4.1 硬件建议

场景	推荐配置	说明
入门体验	16GB 内存 + RTX 3060/4060（8GB+ 显存）	可跑 7B～13B 的 INT4 量化模型
舒服使用	32GB 内存 + RTX 4070/4090（12GB+ 显存）	可跑 14B～32B 量化模型，并发更稳
Mac 用户	M1/M2/M3，16GB+ 统一内存	Apple Silicon 对推理优化很好

经验值：7B 参数 INT4 模型约需 4～6GB 显存，13B 需 8～10GB，32B 需 16GB+ 显存。

4.2 系统与软件环境

操作系统：Windows 10/11、macOS、主流 Linux 发行版。
Docker（推荐）：Windows/macOS 安装 Docker Desktop；Linux 安装 Docker Engine + Docker Compose。
Ollama：从官网下载安装。
NVIDIA 驱动 + CUDA：如有 N 卡需安装对应驱动和 CUDA 工具包（Ollama 会自动检测）。

五、部署路线图

环境准备：安装 Ollama、Docker，验证基础环境。
本地模型跑通：通过 Ollama 拉取并运行对话模型（如 Qwen2.5:7b-instruct）。
WebUI 部署：用 Docker 一键启动 Open WebUI，连接 Ollama。
基础对话体验：在浏览器里和本地模型聊天。
知识库搭建（RAG）：上传文档，构建私有知识库。
Python 调用 & 自动化（可选）：用代码调用本地模型。

六、第一步：安装 Ollama 并跑通本地模型

6.1 安装 Ollama

以 Windows 为例：

打开官网：https://ollama.com/download。
下载 Windows 安装包，双击安装。

安装完成后，执行：

ollama -v

若输出类似 ollama version is 0.5.4，则安装成功。

6.2 拉取并运行一个对话模型

以 Qwen2.5 为例：

ollama pull qwen2.5:7b-instruct
ollama run qwen2.5:7b-instruct

首次运行会自动下载模型文件（约 4～5GB），等待完成后可输入问题测试。

七、第二步：用 Docker 部署 Open WebUI

7.1 安装 Docker

Windows / macOS：到 Docker 官网下载 Docker Desktop 并安装。
Linux：按官方文档安装 Docker Engine 和 Docker Compose。

验证安装：

docker -v
docker compose version

7.2 启动 Open WebUI 容器

示例命令（假设 Ollama 在本机 11434 端口）：

docker run -d \
  -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

参数说明：

-p 3000:8080：映射容器 8080 端口到宿主机 3000。
-e OLLAMA_BASE_URL：指定 Ollama 服务地址。
-v open-webui:/app/backend/data：持久化聊天记录和配置。
--restart always：异常退出时自动重启。

启动后访问：http://localhost:3000。

八、第三步：在 WebUI 里连接本地模型

注册 / 登录 Open WebUI（账号仅本地存储）。
在界面中选择模型，应能看到 qwen2.5:7b-instruct 选项。
若看不到模型，检查设置中 Ollama 连接地址是否正确并点击'验证连接'。

九、第四步：搭建本地知识库（RAG）

9.1 RAG 是什么

RAG（Retrieval-Augmented Generation）= 检索 + 增强 + 生成：

检索：根据问题从知识库找出相关文档片段。
增强：将检索内容塞进提示词，一起丢给模型。
生成：模型基于上下文生成回答。

好处：无需重新训练模型即可让模型'知道'私有资料，更新灵活。

9.2 准备嵌入模型

需要嵌入模型进行向量检索，例如：

ollama pull nomic-embed-text
# 或
ollama pull bge-m3

Open WebUI 可自动使用这些模型构建知识库。

9.3 在 Open WebUI 里创建知识库

进入'知识库 / Documents'管理页面。
新建知识库，如'我的技术笔记'。
上传本地文档：PDF、Word、Markdown、TXT 等。
系统自动调用嵌入模型，对文档分片和向量化。
对话时挂载该知识库，模型优先从文档中找答案。

十、第五步：用 Python 调用本地模型（可选）

可通过 Ollama 的 API 集成到脚本中。

10.1 简单示例：对话

import requests

OLLAMA_BASE = "http://localhost:11434"

def chat(prompt: str, model: str = "qwen2.5:7b-instruct"):
    r = requests.post(
        f"{OLLAMA_BASE}/api/chat",
        json={
            "model": model,
            "messages": [{"role": "user", "content": prompt}],
            "stream": False,
        },
    )
    r.raise_for_status()
    return r.json()["message"]["content"]

print(chat("用大白话解释一下什么是 RAG？"))

10.2 简单示例：文本嵌入

def embed(text: str, model: str = "nomic-embed-text"):
    r = requests.post(
        f"{OLLAMA_BASE}/api/embeddings",
        json={"model": model, "prompt": text},
    )
    r.raise_for_status()
    return r.json()["embedding"]

vec = embed("这是一段需要向量化的文本")
print(len(vec), vec[:5])

利用这些接口可进行批量文档处理、自动总结、智能检索等。

本地搭建带知识库的 AI 助手：Ollama + Open WebUI 部署指南

一、为什么要在本地搭一个 AI 助手？

二、整体架构

三、工具选型：为什么推荐 Ollama + Open WebUI？

3.1 大模型运行时：Ollama

3.2 Web 界面：Open WebUI

3.3 模型选择：Qwen2.5 / DeepSeek-R1 等

四、硬件与系统环境

4.1 硬件建议

4.2 系统与软件环境

五、部署路线图

六、第一步：安装 Ollama 并跑通本地模型

6.1 安装 Ollama

6.2 拉取并运行一个对话模型

七、第二步：用 Docker 部署 Open WebUI

7.1 安装 Docker

7.2 启动 Open WebUI 容器

八、第三步：在 WebUI 里连接本地模型

九、第四步：搭建本地知识库（RAG）

9.1 RAG 是什么

9.2 准备嵌入模型

9.3 在 Open WebUI 里创建知识库

十、第五步：用 Python 调用本地模型（可选）

10.1 简单示例：对话

10.2 简单示例：文本嵌入

更多推荐文章

相关免费在线工具

本地搭建带知识库的 AI 助手：Ollama + Open WebUI 部署指南

一、为什么要在本地搭一个 AI 助手？

二、整体架构

三、工具选型：为什么推荐 Ollama + Open WebUI？

3.1 大模型运行时：Ollama

3.2 Web 界面：Open WebUI

3.3 模型选择：Qwen2.5 / DeepSeek-R1 等

四、硬件与系统环境

4.1 硬件建议

4.2 系统与软件环境

五、部署路线图

六、第一步：安装 Ollama 并跑通本地模型

6.1 安装 Ollama

6.2 拉取并运行一个对话模型

七、第二步：用 Docker 部署 Open WebUI

7.1 安装 Docker

7.2 启动 Open WebUI 容器

八、第三步：在 WebUI 里连接本地模型

九、第四步：搭建本地知识库（RAG）

9.1 RAG 是什么

9.2 准备嵌入模型

9.3 在 Open WebUI 里创建知识库

十、第五步：用 Python 调用本地模型（可选）

10.1 简单示例：对话

10.2 简单示例：文本嵌入

微信扫一扫，关注极客日志

更多推荐文章

相关免费在线工具