基于大模型构建数据库运维智能问答系统的设计与实现

本文介绍基于大模型构建数据库运维知识库智能问答系统的设计与实现。针对通用大模型专业性不足、时效性差及安全性问题，采用 RAG 架构结合向量数据库与 Prompt 工程。系统通过文档加载、分片、向量化存储检索及大模型生成答案的流程，解决了运维知识检索难题。重点优化了文本切分策略、标题补偿及 Embedding 模型选择以提升召回率，并通过多轮迭代和上下文压缩应对 Token 限制。最终实现回答准确率超 80%，有效降低数据库运维工作量。

灵魂伴侣发布于 2025/2/7更新于 2026/4/204 浏览

1 背景

随着大模型的飞速发展，AI 技术开始在更多场景中普及。在数据库运维领域，我们的目标是将专家系统和 AI 原生技术相融合，帮助数据库运维工程师高效获取数据库知识，并做出快速准确的运维决策。传统的运维知识库系统主要采用固化的规则和策略来记录管理操作和维护的知识，这些系统的知识检索方式主要基于关键字搜索和预定义的标签或分类，用户需要具备一定的专业知识才能有效地利用这些系统。这已不足以满足现在复杂多变的运维环境。因此，借助大模型来提供运维知识并协助决策成为趋势。这将在运维能力、成本控制、效率提升和安全性等方面带来深刻的变革。在数据库领域，AI 技术应用可以划分为不同场景，例如知识库学习（包括知识问答和知识管理）、诊断与推理（包括日志分析和故障诊断）、工作辅助（包括 SQL 生成和 SQL 优化）等。本文将主要着重介绍「知识库智能问答系统」的设计与实现，旨在为读者提供深入了解该领域应用的思路。

2 架构设计和实现

2.1 技术方案选型

目前，大模型已经可以通过对自然语言的理解揣摩用户意图，并对原始知识进行汇总、整合，进而生成更具逻辑和完整性的答案。然而，仍存在以下几个问题，导致我们不能直接使用这些模型来对特定领域知识进行问答。

专业性不足：作为通用大模型，对专业领域知识的训练不足，可能会产生虚假陈述、准确性不足以及信息丰富度不足的问题。
时效性问题：模型的训练数据基于某个时间之前的数据，缺乏最新的信息，每次添加新数据都会导致高昂的训练成本。
安全性问题：模型无法访问企业内部私密文档，且这些文档不能直接用于 Fine-Tuning。

为了解决这些问题，业界采用了如下几种技术手段来为大型模型提供额外知识。

Fine-Tuning（微调）：使用特定领域的知识对基础大模型进行微调，以改变神经网络参数的权重。虽然适用于特定任务或风格，但需要大量资源和高质量的训练数据。
Prompt 工程：将行业领域的知识作为输入消息提供给模型，让模型对消息中的知识进行分析和处理。这种方法在正确性和精度上表现良好，但有文本长度限制，对于大规模数据不够高效。
与传统搜索结合：使用传统搜索技术构建基础知识库，然后使用大语言模型处理用户请求，对召回结果进行二次加工。这种方法具有更高的可控性和效率，并适用于大规模数据。

为了确保准确性和效率，我们选择了第 2 种和第 3 种方式相结合的方案，通过向量数据库将知识外挂作为大模型记忆体，使用 LangChain 作为基础开发框架来构建知识库问答系统，最终依靠 Prompt 工程和大模型进行交互。

2.2 分模块设计实现

数据库运维知识库的整体设计流程如下图所示，包括文档加载、文档分割、文本/问题向量化、问答缓存、大模型生成答案等流程。

图 1: 整体设计流程

2.2.1 知识入库

数据源加载和解析：主要使用 LangChain 支持的文档加载方法，对 PDF、CSV、Markdown 等格式的文档类型进行加载和采集。此外，考虑到很多企业的文档来源是内网网页，因此也支持 Selenium 和 BeautifulSoup 来爬取网页内容，最后再应用 LangChain 中的 Markdown 加载器进行格式解析。
文本分片：原始知识库应当被拆分成独立、较短的文本块，每个文本块将作为问答的最小记录，与问题进行匹配。文本的切分质量直接关系到 Embedding 和召回的质量。切分块不能太大或者太小，也不能超过 Embedding 和大模型的 token 限制。在很多内部网页文档中，由于多级标题和段落间是有上下文关联的，所以我们采用 Markdown 或者 HTML 方式进行切分，进而大大提高了对文档内容的感知能力。在文本切分器的选择上，我们主要采用 LangChain 中的 RecursiveCharacterTextSplitter 和 SpacyTextSplitter 这两种分词器。它们能够在保持知识点完整性的基础上，对中文句子、段落、章节等进行良好的切分。需要注意的是，由于算法有 token 数量的限制，选择好的分词器能够为切片提供很好的切分单位和依据。目前我们选择的是 tiktoken 和 Spacy 中的 Tokenizer，但有时候并不理想，需要根据大模型采用的 token 计算方法进行适配。
文本向量化：在项目初期 Embedding 模型选择了 Hugging Face 上开源的 Embedding 模型，例如 GanymedeNil/text2vec-large-chinese 和 moka-ai/m3e-large，但实际测试效果并不理想。最终我们选择了文心的 Embeddings 模型，效果有质的飞跃，虽然支持的 token 和向量维度低，但整体效果很好。LangChain 中对于千帆接口进行了封装，可以直接通过百度千帆调用文心 Embedding。关于文本向量化、存储和检索的详细信息，请参考下图：

图 2: 文本向量化流程