阿里云 AI 搜索的产品能力与业务价值
阿里云 AI 搜索的方案,基于阿里云 Elasticsearch Inference API,可以结合阿里云自研的 AI 模型服务,灵活的搭建语义搜索或者是 RAG 链路。AI 搜索可以基于 ES 语法进行灵活的编排,易用性更高。
直接使用大模型去进行语义搜索,不仅有成本的问题,还会有准确性的问题。阿里云 AI 搜索 RAG 全链路,不论是对文本的解析处理,还是切分、向量化,以及混合检索,其实都是为了提升搜索的准确率。通过提升搜索的准确率,拿到最精准的结果,然后再组成 Prompt 给到大模型,来提升准确性。这里我们如果仅使用大模型加向量检索,仅仅能达到 40% 的准确率,通过全链路的优化能够提升到 90% 乃至 95%,这就是检索增强优化带来的价值。
在下面的图示中,是搭建 RAG 全链路的流程,主要分为 2 个链路:
第一步,是数据写入流程。我们可以对多样化的数据进行解析理解,抽取出文档的结构,然后采用文档切分模型对内容进行语义的切分,生成语义切片树,然后基于自研的向量化模型,将切分后的文档片段生成稠密向量以及稀疏向量。然后在 ES 引擎中构建对应的索引。
第二步,就是在线查询的流程。用户输入问题后,首先使用查询分析模型来理解用户的意图,同时对输入的内容进行语义的扩充、做省略补充等操作。然后调用同样的向量化模型生成稠密和稀疏向量。在 ES 引擎中进行 3 路混合检索,以及 RRF 融合排序,最后召回最相关的 TOP N 内容片段。此时,可以引入重排模型,做进一步的排序来提升 TOP 结果的相关性。结合用户的问题以及检索的结果,组成 prompt 给到大模型进行答案的生成。
最后,完成 RAG 全链路后,可以使用测评服务进行效果的评估。

RAG 在各行业领域的应用实践
目前在各个场景中都有 RAG 的应用,这里罗列的内容更偏向 to C 的场景,比如内容问答的场景,在一些技术社区已经有了问答式搜索的实践。还有企业知识库问答场景,这个也是目前应用最广泛的一个场景,可以基于企业内部知识库进行智能问答。

电商的导购场景,应用于商品售前环节,传统方式需要维护大量的问答对,来匹配到用户的问题。同时很难理解用户问题的意图,难以给到比较理想的答案。使用传统方式,其实很容易发现在跟机器人交流,回复也非常的生硬。基于大模型在电商导购这个场景,可以赋予更人性化的角色来进行回复。
最后教育场景,在 K12 的教育,或其他成人的教育场景中,往往会有非常多的知识,使用 RAG 方案,可以很快给出题目的答案和解题过程。
除了 C 端的场景之外,还会有一些智能运维、开发的场景都可以应用。这也是我们后续需要去持续探索的方向,可以在更多的场景中有更好的实践。
电商导购与多模态场景应用 Demo
接下来为大家演示下电商导购的 demo,这里提前录入了一些商品的数据,作为基础的知识库。
我们咨询第一个问题,需要购买一个女士领带,很快,这里给出了一款领带的推荐。接着继续追问,领带支持机洗嘛?这里根据知识库的数据依然给出了答复。紧接着,需要让系统帮忙推荐一款大衣。这里给出了 2 款大衣的推荐,告知了身高体重后,系统回复了适合用户穿的码数。在这个 demo 中有商品选型的咨询,还有一些追问,模型都可以根据实际的数据给出有效的答案,解决用户的问题,同时整体体验过程也比较流畅。

接下来我们看几个多模态的场景,这也是我们后续即将发布的能力。这里是一个图书多模态问答场景,采用的数据是图书的封面图片。问题是:适合儿童的书?在这里可以看到,首先给出的是一段文本的回答内容,推荐了对应的儿童书籍。同时,还有对应的参考链接。最下面显示了相关的参考图片。在这个 case 中,由于底层数据是纯图片的,因此需要先对图片内容进行解析理解,抽取出对应的文本描述,生成索引。当用户提出问题时,会在已经解析好的文本内容中进行检索,然后给出对应的答案。









