文章背景
题目:Labeling-free RAG-enhanced LLM for intelligent fault diagnosis via reinforcement learning
研究问题
- 缺乏专业知识:大型语言模型(LLMs)虽然拥有广泛的通用领域知识,但由于工业复杂系统故障发生的频率较低且具有技术保密性,LLMs 在预训练阶段往往缺乏特定领域的故障诊断知识。
- 标注成本高昂:现有的检索增强生成(RAG)框架大多依赖监督学习,需要对每个查询标注相关的语料库,这在处理大规模工业数据时极其耗时且劳动强度大。
- 模型输出不稳定性:LLM 固有的随机性导致生成的响应不稳定,使得在监督学习中难以一致地确定不同检索文档集的优劣。
研究目标
- 开发一种无标记 RAG 方法:提出一种基于强化学习的 RAG 方法(TG-RL-RAG),旨在消除对人工标注相关性标签的依赖。
- 优化检索策略:通过近端策略优化(PPO)算法直接优化检索网络,提高检索的准确性和系统响应的质量。
- 实现持续学习:引入'递减式教师引导策略',使模型能够随着新故障查询的增加而不断自更新,增强在动态工业环境中的实用性。
所用方法
一、基于专业词库的图结构构建
- 相似度计算:利用专家精心挑选的专业词汇库。计算两个文档间的词级重叠度,其中专业词汇的权重高于普通词汇。
- 构图逻辑:为每个文档计算与其相似度最高的 top-k_graph 个文档,并在它们之间建立边,生成邻接矩阵。
- 定位:这个图并非直接用于检索,而是作为强化学习智能体的训练'环境',起到'粗调'的作用。
二、基于 PPO 算法的策略优化
智能体的任务是在图中寻找与当前查询最相关的文档路径。
- 状态表示:智能体在每一步都会感知以下信息:
- 语义信息:查询语句和故障文档的向量嵌入。
- 轨迹信息:当前所在节点的位置以及已经访问过的节点历史轨迹。
- 神经网络架构:采用 Actor-Critic 框架。Actor 网络负责输出下一步移动到哪个节点的概率分布,Critic 网络负责估计当前状态的价值。
- 复合奖励函数($R_{PPO}$):这是模型无需标签的核心:
- 结构探索奖励:如果智能体选择了图中存在的合法路径,给予正向奖励,确保其行为符合物理逻辑。
- 检索质量奖励:这是关键。系统将智能体检索到的文档交给 Frozen LLM 生成回答,计算该回答与'预期文本'(由人类反馈确认)的语义相似度(如 BLEU 或 ROUGE 分数)作为奖励值。
三、渐进式递减导师指导策略
针对实际生产中不断涌现的新查询,该策略解决了重复训练成本高的问题。
- 知识迁移:将之前在原始查询集上训练好的智能体作为'预训练智能体'(Teacher),引导正在学习新查询的'处理智能体'(Student)。
- 引导奖励:计算教师和学生两个模型动作分布之间的 KL 散度。散度越小,说明学生越好地继承了教师的检索经验。
- 动态衰减机制:
- 前期:较大,学生模型主要模仿老师处理旧数据的能力。
- 后期:逐渐减小,学生模型开始侧重于通过自主探索来优化新出现的补充查询。
未来研究方向
无监督奖励函数设计:这种利用 LLM 自身输出质量来反馈优化检索器(Retriever)的思路,是目前解决工业小样本数据难题的非常前沿的方向。

