搭建本地知识库
作为大模型开发人员,搭建一套本地私有知识库系统(Local RAG Pipeline)是提升 AI 助手专业性、保障数据安全、避免幻觉的关键基础设施。以下是一套开源免费、支持中文、可扩展性强的技术栈方案与详细搭建步骤。
一、整体架构设计(RAG + 向量检索 + 本地 LLM)
原始文档(PDF/Word/TXT/Markdown) -> 文档解析 & 分块 -> 向量化(Embedding) -> 向量数据库 -> 大模型 Agent -> LLM 推理引擎(本地运行) -> 用户问答
二、推荐技术栈
| 组件 | 推荐方案 | 选择理由 |
|---|---|---|
| 文档解析 | Unstructured + PyPDF2 / docx2txt | 支持 PDF/Word/PPT/HTML,保留表格结构 |
| 文本分块 | LangChain RecursiveCharacterTextSplitter | 智能按段落/句子切分,避免语义割裂 |
| 嵌入模型(Embedding) | BAAI/bge-large-zh-v1.5(中文)或 nomic-ai/nomic-embed-text-v1.5(多语言) | 中文 SOTA,4096 上下文,HuggingFace 开源 |
| 向量数据库 | ChromaDB(轻量)或 Qdrant(高性能) | Chroma:单机文件存储,零配置;Qdrant:支持过滤、分布式,适合未来扩展 |
| 大模型推理 | Ollama + Llama 3.1 8B/70B或 vLLM(高吞吐) | Ollama:一键启动,API 兼容 OpenAI;vLLM:PagedAttention,吞吐提升 |
| 应用框架 | LangChain 或 LlamaIndex | LangChain:生态丰富,调试工具完善 |
💡 为什么不用 Elasticsearch? 虽然 ES 支持向量检索(≥8.0),但配置复杂、资源占用高。Chroma/Qdrant 专为 embedding 设计,更轻量高效。
三、具体搭建步骤(以 Chroma + Ollama + Llama 3.1 为例)
步骤 1:安装基础环境
# 安装 Python >=3.10
sudo apt install python3-pip
# 安装 Ollama(自动下载 Llama 3)
curl -fsSL https://ollama.com/install.sh | sh
# 启动 Ollama 服务(后台运行)
ollama serve &
步骤 2:安装 Python 依赖
pip install langchain chromadb unstructured PyPDF2 python-docx sentence-transformers
步骤 3:准备知识文档
将你的知识文件放入 ./docs/ 目录,支持:
- , , , ,


