信息时代到来,企业积累的数字文档知识数量巨大,文档中蕴含的信息对业务发展至关重要。企业利用好现有资源,将数据串联,产生更大的效益。然而,传统的搜索技术常常因只能进行关键字查询而无法满足对文档深层次理解的需求。因此需要建立一个面向企业级知识管理的智能问答,对知识进行统一管理,通过精准的信息检索加上严格的权限控制,帮助企业内部员工挖掘企业多年沉淀下来的知识,提升工作效率,增强企业竞争力。
据 Gartner 调查,高达 47% 的员工在工作中很难寻找到有效工作文档信息和数据时遇,这一比例在大型组织中这一问题更为突出。揭示了企业内部知识管理的普遍问题:如何在海量文档中迅速找到确切所需文档和数据?如何从复杂信息中提取关键内容?

为了解决工作中的信息检索问题,企业通常会使用基于 ES 或采购搜索软件来进行知识搜索,但是常规的搜索对内容格式优先以及不支持语义搜索和缺少上下文信息,因此导致结果不够精准。
现在 LLM(大型语言模型 Large Language Model)在自然语言处理方面取得了显著进展,具备了语义理解、信息提取和逻辑推理等多项能力。LLM 通过与用户进行对话问答的交互方式,能够更准确地理解用户的需求,提高搜索相关文档的效率和准确性。
尽管通用 LLM 在知识问答方面取得了非常大的进展,由于大模型的特性,大模型对于企业专业领域的知识问答依然无能为力,因为企业内部领域的数据不会对外公开,通用 LLM 没有学习过,自然不会回答。目前行业有两种方案,一种是将企业内部数据喂给通用 LLM 进行微调,但是技术难度和成本较高;另外一种方案是使用 RAG(Retrieval Augmented Generation,索引增强生成)方案进行解决专业领域的问答,将用户问题和检索到的相关企业内部知识作为提示词一起给到通用的 LLM,由通用的 LLM 进行理解、分析和总结,给出答案。针对这类问题,业界主流的方案是采用 RAG 方案。通过 RAG 的方式为 LLM 提供更加精准的信息,从而提升最终回答效果。

01 RAG 的产品形态
随着 RAG 技术的发展和演变,RAG 产生了 Naive RAG、Advanced RAG、Modular RAG。

Naive RAG
初级 RAG 主要包含以下几个流程:
建立索引: 数据清洗并分块,将分块后的知识通过 Embedding 模型产出语义向量并建立索引;
检索: 通过用户 query 使用相同的 Embedding 模型,检索上下文;
生成: 将给定问题和相关文档合并为新的提示,由 LLM 基于提供的信息回答问题。
Advanced RAG
高级 RAG 相比初级 RAG,基于初级 RAG 的流程,围绕着知识检索做优化,对检索前、检索中、检索后进行策略优化,解决索引、检索和生成问题。
检索前优化: 知识切分、索引方式和 query 改写优化等;
检索优化: 微调 Embedding 模型召回最相关知识、使用混合搜索等;
检索后优化: 提示压缩、重新排序;
Modular RAG
模块化 RAG 将 RAG 具体功能模块化,流程上可以对 RAG 模块之间进行设计和编排,方便业务进行使用。
02 RAG 产品建设路径
RAG 整理业务链路划分为 5 个步骤:知识生产加工、query 改写、数据召回、后置处理以及大模型生产;


