One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems
背景
以 PoisonedRAG 为代表的知识投毒攻击通常需要注入多个有毒文档,导致隐蔽性差,且仅在简单查询上有效。本文提出 AuthChain 攻击方案,旨在通过单条恶意文本达到多文本的诱导效果。
现有方案构造有毒文本时,易与其他 top-k 文档造成知识冲突,且 LLM 内部知识可能否决恶意诱导。AuthChain 通过增强生成模型对有毒文本的置信度,确保逻辑闭环并与目标问题主题契合。
AuthChain 方法
1. 基于意图的内容生成
目的:在检索过程中最大化文档的可见性。
- 特征提取:
- 意图:提取为名词或名词短语,代表问题的最终目标,确保生成的内容直接解决 LLM 在检索和推理过程中的优先事项。
- 证据链:由证据节点及其关系组成,捕获问题的逻辑结构。证据节点是关键实体,证据关系表示节点间的逻辑连接。
- 生成策略:代理被指示生成的内容不仅提供目标答案,还明确将问题意图纳入文本中,强调答案生成和意图整合,有助于实现更高的检索排名。
2. 证据链内容生成 (CoE)
为了保持高可检索性并优于其他外部知识源,AuthChain 构建了独立的证据链,保留所有问题元素及其逻辑联系。
- 迭代细化过程:
- 基于意图的内容和提取的证据链输入到 CoE 法官代理。
- 评估内容是否完全包含所有证据节点及其关系。
- 若未覆盖,法官代理提供合并缺失元素的具体建议。
- 修订代理根据建议进行细化,直到确认证据链完整保存。
3. 权威内容生成
假设权威机构认可的内容加上最近的时间线陈述,可以有效将 LLM 注意力转向外部信息,减少对其内部知识的依赖。
- 生成流程:
- 权威生成器代理分析基于意图的内容上下文,确定最合适的权威机构进行背书。
- 将机构支持与最近的时间线信息综合起来验证目标答案。
- 最终产生权威内容。
- 整合:AuthChain 将 CoE 内容与权威内容整合,形成最终的中毒文档并注入知识库。
实验
数据集与配置
- 数据集:NQ, MS-MARCO, HotpotQA
- 检索器:Contriever (检索 top5 结果)
- 大模型:gpt3.5, gpt4, gpt4o, llama3-8b, llama3-70b, deepseek-v3-0324
- 攻击基线:PoisonedRAG, HijackRAG
- 配置:使用 gpt4 作为意图代理、CoE 判断代理、审阅代理和权威内容代理的主干,温度设置 0.1
探究问题
- RQ1:AuthChain 生成的单个中毒文档在操纵各种 LLM 的输出方面有多有效?
- RQ2:AuthChain 在基于 RAG 的防御框架下逃避检测的效果如何?
- RQ3:权威内容能否克服 LLM 的内部知识偏见,同时 CoE 与冲突文件进行有效竞争?
实验设计
- 单文档投毒攻击 (RQ1):每种方法针对每个目标问题构建并注入一个中毒文档。评估操纵 RAG 系统输出的有效性。


