【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库

【大模型知识】Chroma + Ollama + Llama 3.1 搭建本地知识库

搭建本地知识库

作为大模型开发人员,搭建一套 本地私有知识库系统(Local RAG Pipeline)是提升 AI 助手专业性、保障数据安全、避免幻觉的关键基础设施。以下是一套 经过生产验证、开源免费、支持中文、可扩展性强的技术栈方案与详细搭建步骤。

✅ 一、整体架构设计(RAG + 向量检索 + 本地 LLM)

原始文档
(PDF/Word/TXT/Markdown)

文档解析 & 分块

向量化
(Embedding)

向量数据库

大模型 Agent

LLM 推理引擎
(本地运行)

用户问答

🧰 二、推荐技术栈(2026 年最佳实践)

组件推荐方案选择理由
文档解析Unstructured + PyPDF2 / docx2txt支持 PDF/Word/PPT/HTML,保留表格结构
文本分块LangChain RecursiveCharacterTextSplitter智能按段落/句子切分,避免语义割裂
嵌入模型(Embedding)BAAI/bge-large-zh-v1.5(中文)或 nomic-ai/nomic-embed-text-v1.5(多语言)中文 SOTA,4096 上下文,HuggingFace 开源
向量数据库ChromaDB(轻量)或 Qdrant(高性能)Chroma:单机文件存储,零配置Qdrant:支持过滤、分布式,适合未来扩展
大模型推理Ollama + Llama 3.1 8B/70BvLLM(高吞吐)Ollama:一键启动,API 兼容 OpenAIvLLM:PagedAttention,吞吐提升 24x
应用框架LangChainLlamaIndexLangChain:生态丰富,调试工具完善
💡 为什么不用 Elasticsearch?
虽然 ES 支持向量检索(≥8.0),但配置复杂、资源占用高。Chroma/Qdrant 专为 embedding 设计,更轻量高效。

🛠️ 三、具体搭建步骤(以 Chroma + Ollama + Llama 3.1 为例)

步骤 1:安装基础环境

# 安装 Python ≥3.10sudoaptinstall python3-pip # 安装 Ollama(自动下载 Llama 3)curl -fsSL https://ollama.com/install.sh |sh# 启动 Ollama 服务(后台运行) ollama serve &

步骤 2:安装 Python 依赖

pip install langchain chromadb unstructured PyPDF2 python-docx sentence-transformers 

步骤 3:准备知识文档

将你的知识文件放入 ./docs/ 目录,支持:

  • .pdf, .docx, .txt, .md, .html

步骤 4:构建向量知识库(Python 脚本)

创建 build_kb.py

from langchain.document_loaders import DirectoryLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import Chroma import os # 1. 加载文档 loader = DirectoryLoader('./docs', glob="**/*.pdf", show_progress=True) docs = loader.load()# 2. 文本分块(按字符递归切分) text_splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, separators=["\n\n","\n","。","!","?",";"," ",""]) chunks = text_splitter.split_documents(docs)# 3. 加载中文 Embedding 模型(首次运行会自动下载 ~1.3GB) embeddings = HuggingFaceEmbeddings( model_name="BAAI/bge-large-zh-v1.5", model_kwargs={'device':'cuda'}# 若无 GPU 改为 'cpu')# 4. 存入 Chroma 向量库(持久化到 ./chroma_db) vectorstore = Chroma.from_documents( documents=chunks, embedding=embeddings, persist_directory="./chroma_db") vectorstore.persist()print(f"✅ 知识库构建完成!共 {len(chunks)} 个片段")

运行:

python build_kb.py 
⏱️ 首次运行需下载模型(约 10–30 分钟),后续秒级加载。

步骤 5:启动问答服务(RAG 推理)

创建 query_kb.py

from langchain.vectorstores import Chroma from langchain.embeddings import HuggingFaceEmbeddings from langchain.llms import Ollama from langchain.chains import RetrievalQA # 加载向量库 embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-large-zh-v1.5") vectorstore = Chroma(persist_directory="./chroma_db", embedding_function=embeddings)# 初始化本地 LLM(Ollama 需提前 pull 模型) llm = Ollama(model="llama3:8b", temperature=0.1)# 构建 RAG 链 qa_chain = RetrievalQA.from_chain_type( llm=llm, retriever=vectorstore.as_retriever(search_kwargs={"k":3}), return_source_documents=True)# 问答循环whileTrue: query =input("\n❓ 请输入问题(输入 'quit' 退出): ")if query =="quit":break result = qa_chain({"query": query})print(f"\n💡 回答:\n{result['result']}")# 显示引用来源print("\n📚 参考片段:")for i, doc inenumerate(result["source_documents"]):print(f"[{i+1}] {doc.page_content[:100]}...")

首次运行前,拉取 Llama 3 模型:

ollama pull llama3:8b # 或 llama3:70b(需 48GB+ 内存)

运行问答:

python query_kb.py 

🔒 四、安全与性能优化建议

1. 隐私保护

  • 所有数据仅在本地处理,不上传任何云服务
  • 向量库文件(./chroma_db)可加密存储(如使用 gocryptfs

2. 性能调优

场景优化方案
GPU 资源充足使用 vLLM 替代 Ollama:pip install vllm + --model meta-llama/Llama-3.1-8B-Instruct
大文档集(>10万页)改用 Qdrantdocker run -p 6333:6333 qdrant/qdrant
低延迟要求将 Embedding 模型转为 ONNX 格式(提速 2–3x)

3. 中文增强

  • text_splitterseparators 中加入中文标点(已包含)
  • 使用 BGE-M3 模型(支持多语言+稀疏检索,2024 新 SOTA)

🧪 五、验证知识库效果

测试用例:

拒答能力

“公司的股票代码是多少?”(若文档未提及)
→ 应回答“知识库中未找到相关信息”

跨文档推理

“对比A产品和B产品的技术参数”
→ 应聚合多个文档信息

事实性问题

“根据文档,公司2025年战略目标是什么?”
→ 应准确引用原文片段

📦 六、进阶扩展方向

需求方案
Web 界面集成 GradioStreamlit
自动更新监听 ./docs 目录变动,增量更新向量库
多模态支持Donut 解析 PDF 表格,转为结构化文本
Agent 能力接入 LangGraph 实现多跳推理

✅ 总结:你的本地知识库技术栈

组件选用方案启动命令
LLMOllama + Llama 3.1 8Bollama run llama3:8b
EmbeddingBAAI/bge-large-zh-v1.5自动加载
向量库ChromaDB./chroma_db 文件夹
框架LangChainpip install langchain
💡 总耗时:环境搭建 < 30 分钟,知识库构建速度 ≈ 100 页/分钟(RTX 4090)。

Read more

AI时代人人都是产品经理:能力边界:AI 能做什么、不能做什么?产品经理必须摸清的技术边界

AI时代人人都是产品经理:能力边界:AI 能做什么、不能做什么?产品经理必须摸清的技术边界

为什么要先搞懂AI的能力边界? 在AI工具遍地开花的今天,很多产品经理陷入了两个极端:要么过度迷信AI,认为它能解决所有问题;要么对AI充满恐惧,担心自己的岗位被替代。但现实是:AI不是产品经理的竞争对手,而是需要你掌握的核心工具。 搞懂AI的能力边界,本质是帮你: 1. 避免在需求评审会上提出技术上不可能实现的需求 2. 精准判断哪些工作可以交给AI提效,哪些必须自己亲力亲为 3. 利用AI的能力边界,设计出更有竞争力的产品方案 4. 建立和技术团队平等对话的技术认知基础 AI能做什么?6类产品经理必用的AI能力 1. 结构化信息处理:批量处理重复工作 AI最擅长处理有明确规则、结构化、重复性的任务,这些工作往往占据了产品经理30%以上的时间: * 自动整理用户调研数据,提炼高频需求关键词 * 批量生成产品文档的初始版本,如需求说明、接口文档 * 分析用户行为日志,输出标准化的行为路径报告 实战示例:用AI批量生成PRD需求条目 from openai import OpenAI client = OpenAI(api_key="

Face Fusion能否集成Stable Diffusion?创意组合玩法

Face Fusion能否集成Stable Diffusion?创意组合玩法深度解析 1. 引言:当人脸融合遇上AI绘画 你有没有想过,如果能把一张照片里的人脸,完美地“移植”到另一张由AI生成的奇幻场景里,会是什么效果?比如,把自己的脸放到一幅赛博朋克风格的未来城市画作中,或者让历史人物“穿越”到现代艺术里。 这正是我们今天要探讨的核心问题:Face Fusion(人脸融合)技术,能否与Stable Diffusion这样的AI绘画模型结合,创造出前所未有的创意玩法? Face Fusion,简单来说,就是能把一张图片(源图像)里的人脸特征,智能地融合到另一张图片(目标图像)上。而Stable Diffusion,则是目前最强大的文生图AI模型之一,能根据文字描述生成各种风格的图像。这两者看似独立,但如果能结合起来,就能打开一扇通往无限创意的大门。 本文将带你深入探索这种技术组合的可能性。我们将从Face Fusion的基本原理讲起,分析它与Stable Diffusion集成的技术路径,并分享一些极具想象力的创意玩法。无论你是AI技术爱好者、内容创作者,

Whisper-CTranslate2完整使用指南:高速语音识别与翻译解决方案

Whisper-CTranslate2完整使用指南:高速语音识别与翻译解决方案 【免费下载链接】whisper-ctranslate2Whisper command line client compatible with original OpenAI client based on CTranslate2. 项目地址: https://gitcode.com/gh_mirrors/wh/whisper-ctranslate2 想要体验比原版快4倍的语音识别效率吗?Whisper-CTranslate2正是你需要的语音转文字神器!这款基于CTranslate2引擎优化的语音识别工具不仅速度惊人,还能大幅降低内存占用,为你的音频处理工作带来革命性提升。 🚀 为什么选择Whisper-CTranslate2? 性能优势明显 * 4倍速度提升:相比OpenAI原版Whisper,处理相同音频文件只需四分之一时间 * 内存优化显著:更低的资源消耗,让普通配置电脑也能流畅运行 * 完全兼容设计:与原版Whisper命令行接口完全一致,零学习成本 应用场景丰富 * 会议录

3步彻底解决SubtitleEdit Purfview Faster Whisper XXL引擎安装失败

SubtitleEdit作为一款专业的字幕编辑工具,其Purfview Faster Whisper XXL语音识别引擎能够大幅提升字幕制作效率。然而,在实际使用过程中,许多用户会遇到引擎安装失败的问题,导致整个字幕工作流程中断。本文将提供完整的故障诊断和解决方案,帮助您快速恢复语音识别功能。 【免费下载链接】subtitleeditthe subtitle editor :) 项目地址: https://gitcode.com/gh_mirrors/su/subtitleedit 问题诊断与故障分析 在开始修复之前,首先需要准确识别问题的根源。SubtitleEdit Purfview Faster Whisper XXL引擎安装失败通常表现为以下几种典型症状: * 进度条停滞:自动安装过程卡在40%-60%区间 * 解压错误:系统提示"CRC校验失败"或"文件损坏" * 权限不足:特别是在Linux系统中,安装到系统目录时出现权限拒绝 * 网络中断:大文件下载过程中因网络不稳定导致安装失败 常见故障原因排查表