[论文阅读]One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

[论文阅读]One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

One Shot Dominance: Knowledge Poisoning Attack on Retrieval-Augmented Generation Systems

https://aclanthology.org/2025.findings-emnlp.1023/

EMNLP 2025

阅后总结:

作者是对PoisonedRAG方案的进一步优化,目的是使用单一有毒文档影响RAG系统的决策。作者把有毒文本的构造分成两部分:一个是权威机构的认证信息,增强生成模型对有毒文本的置信度;另一个是证据链生成,确保逻辑闭环并且和目标问题的主题契合。

前置任务则是让一个大模型依据目标问题和目标答案,抽取出来问题的核心意图以及各种实体和关系。依据意图,实体和关系,分别让CoE和Authority两个环节生成两段文本,前者确保所有的实体和关系都被多次重复并且使用的是目标答案,可以保证一定的检索度;后者是虚拟出来权威机构认证的瞎话,也包含了抽取出来的实体。这些强关联实体保证了一定程度的检索度,因此不需要显式的PRAG问题本体类型文本。

核心上来看是提示词工程,用大模型完成了文本优化,并且保证了相似度。
从图识图理解作者的工作

作者似乎是在尝试构造单条恶意文本,使得恶意文本的诱导能力更加突出

构造方案似乎是多agent协同完成,具体怎么实现还是要看原文

以PoisonedRAG为代表的知识投毒攻击需要注入多个有毒文档导致隐蔽性差,并且只能在简单的查询上发挥作用,限制了现实世界的适用性,作者的工作则是对当下投毒攻击的一个进一步改进,单条文本尝试达到多文本的效果,提出的是AuthChain攻击方案。

如果使用PoisonedRAG方案构造一个有毒文本,导致的是它与其他topk造成了知识冲突,并且LLM内部知识也可能否决这种恶意文本的诱导,从图中可以看出,LLM的决策是少数服从多数,并且更倾向于与内部知识对齐的知识。

 AuthChain

1.基于意图的内容生成

目的:在检索过程中最大化文档的可见性

从问题中提取关键特征,生成基于意图的内容来指导后续内容生成

特征提取:

  • 意图,提取为名词或名词短语,代表问题的最终目标。 这有助于确保生成的内容直接解决 LLM 在检索和推理过程中优先考虑的内容。
  • 证据链由证据节点及其关系组成,捕获问题的逻辑结构:证据节点是问题中充当关键组件的关键实体。 证据关系表示这些节点之间的逻辑连接。

这是一个意图和证据链满足的示例

意图和证据抽取的提示词模板

        

给定提取的意图、目标问题和答案,AuthChain 提示意图代理生成基于意图的内容。 代理被指示生成的内容不仅提供目标答案,而且还明确地将问题的意图纳入生成的文本中。 通过制定强调答案生成和意图整合的提示,代理生成的内容自然与问题的基本目标相一致,这有助于它实现更高的检索排名并在 LLM 推理过程中获得更多关注。

2.证据链内容生成

为了既保持高可检索性又优于其他外部知识源,AuthChain构建了独立的证据链,保留所有问题元素及其逻辑联系。 虽然基于意图的内容提供了与问题的初步一致性,但我们需要确保生成的内容全面涵盖所有提取的证据节点及其关系。

如图2所示,实施迭代细化过程来构建证据链(CoE)内容。 首先,基于意图的内容和提取的证据链都输入到 CoE 法官代理。 该代理评估内容是否完全包含所有证据节点及其关系。 如果确认完全覆盖,则直接将内容输出为 CoE 内容。 否则,判断代理会提供合并缺失元素的具体建议,例如添加缺失的证据节点或建立节点之间的语义关系。

然后,这些建议与当前内容一起转发给修订代理进行细化。 这个迭代评估和修改过程一直持续到 CoE 法官代理确认证据链完整保存,此时当前内容最终确定为 CoE 内容。

CoE判决agent的prompt
复盘agent的prompt

3.权威内容生成

假设权威机构认可的内容,加上最近的时间线陈述,可以有效地将LLM的注意力转向外部信息,同时减少对其内部知识的依赖。

AuthChain 采用权威生成器代理,将基于意图的内容、有针对性的答案和问题衍生的特征作为输入。 通过合并这些功能,生成的内容与原始问题保持更强的语义一致性,从而促进更好的检索。 代理首先分析基于意图的内容上下文,以确定最合适的权威机构进行背书。 然后,它将机构支持与最近的时间线信息综合起来,以验证目标答案,最终产生权威内容。 权限生成器代理的详细提示模板:

最后,AuthChain将CoE内容与权威内容整合,形成最终的中毒文档,然后将其注入到知识库中。 AuthChain生成的中毒文档示例:

实验

数据集:NQ,MS-MARCO,HotpotQA

检索器:Contriever,检索top5结果

大模型:gpt3.5,gpt4,gpt4o,llama3-8b,llama3-70b,deepseek-v3-0324

攻击基线:PoisonedRAG,HijackRAG

使用gpt4作为意图代理、CoE判断代理、审阅代理和权威内容代理的主干,温度设置0.1

探究问题:

RQ1:AuthChain生成的单个中毒文档在操纵各种LLM的输出方面有多有效?

RQ2:AuthChain在基于RAG的防御框架下逃避检测的效果如何?

RQ3:权威内容能否克服 LLM 的内部知识偏见,同时 CoE 与冲突文件进行有效竞争?

为了回答 RQ1研究了单文档投毒攻击,其中每种方法(AuthChain 和基线)针对每个目标问题构建并注入一个中毒文档。 评估了它们操纵 RAG 系统输出的有效性,并分析了 AuthChain 相对于基线的性能,同时还检查了 AuthChain 的内部组件(CoE 和权威内容)以进行全面分析。

为了回答 RQ2,选择了两个代表性的 RAG 防御框架,旨在对抗知识投毒攻击:InstructRAG 和 AstuteRAG。为了公平比较,将所有攻击(包括 AuthChain 和基线)限制为只注入一个中毒文档,并在这些防御框架下评估它们,与不注入中毒文档的干净设置进行比较。

为了回答 RQ3,进行了两个实验:(1) 权威设置: 目标是检查即使权威增强文档与 LLM 的内部知识冲突,它们是否也能影响 LLM 的决策。 为了创建有效的测试环境,需要 LLM 具有关于答案的内部知识的案例。 从 HotpotQA 中抽取了 600 个问答对,并确定了 118 个 GPT-3.5 在没有外部检索的情况下能够正确回答的问题,这表明其具有强大的内部知识。 在这些测试用例上使用 GPT 系列模型进行实验,因为这种内部知识在后续版本中得到了一致保留。 对于这些问题,首先通过修改真实文档中的正确答案为错误答案来创建被污染的文档(原始文档),然后使用AuthChain增强这些被污染的文档中的权威信号。 为了研究被污染文档的攻击有效性如何随着与LLM内部知识一致的外部知识比例的增加而变化,逐步引入包含正确答案的真实文档,创建正确文档比例(CDP)分别为0.5、0.67和0.75的混合知识库。

(2) CoE设置: 目标是评估LLM是否在检索到的上下文中对CoE文档比冲突信息表现出更强的偏好。 从相同的600个QA对中,识别出323个包含正确答案证据但缺乏结构化证据链的支撑文档(原始文档)。 使用AuthChain将它们转换为CoE结构化文档。 为了创建具有挑战性的测试场景,引入了GPT-4生成的被污染文档,其中包含错误答案的证据。 创建了被污染文档比例(PDP)分别为0.5、0.67和0.75的混合知识库。

使用四种指标评估AuthChain:攻击成功率(ASR)、检索成功率(RSR)、困惑度(PPL)和准确率(ACC)。 为了评估中毒效果(RQ1),测量ASR,即LLM输出包含被污染目标文档答案的问题的比例。 遵循先前的工作,使用子字符串匹配确定目标答案的存在。 还检查RSR,它代表在排名前5的文档中成功检索到的被污染目标文档的比例,以及PPL(使用GPT-2计算)来衡量文本流畅度,其中较高的值表示文本不自然。 对于防御评估(RQ2),比较了ASR和ACC,其中ACC反映了LLM响应包含正确答案的问题的比例。 在RQ3中,通过比较不同CDP下的ASR,调查增强权威的文档是否可以克服LLMs的内部知识偏见,并通过比较不同PDP下的ACC,调查CoE结构化文档在与冲突信息竞争时是否比原始文档更有影响力。

释义:

多轮对话:

Read more

人工智能:自然语言处理在社交媒体分析领域的应用与实战

人工智能:自然语言处理在社交媒体分析领域的应用与实战

人工智能:自然语言处理在社交媒体分析领域的应用与实战 学习目标 💡 理解自然语言处理(NLP)在社交媒体分析领域的应用场景和重要性 💡 掌握社交媒体分析的核心技术(如情感分析、话题检测、用户画像构建) 💡 学会使用前沿模型(如BERT、GPT-3)进行社交媒体文本分析 💡 理解社交媒体分析的特殊挑战(如数据量大、噪声多、实时性要求高) 💡 通过实战项目,开发一个社交媒体话题检测应用 重点内容 * 社交媒体分析的主要应用场景 * 核心技术(情感分析、话题检测、用户画像构建) * 前沿模型(BERT、GPT-3)在社交媒体分析中的使用 * 社交媒体分析的特殊挑战 * 实战项目:社交媒体话题检测应用开发 一、社交媒体分析的主要应用场景 1.1 情感分析 1.1.1 情感分析的基本概念 情感分析是对社交媒体文本中情感倾向进行分析和判断的过程。在社交媒体分析领域,情感分析的主要应用场景包括: * 品牌声誉管理:分析用户对品牌的情感倾向(如“正面评价”、“负面评价”

ToDesk 全新 ToClaw,正在把电脑交给AI去操作

ToDesk 全新 ToClaw,正在把电脑交给AI去操作

这两年,AI 工具层出不穷,但大多数产品还停留在“能回答、会生成”的阶段:帮你写一段话、搜一份资料、整理一个思路,真正到了执行层,还是得你自己坐回电脑前,一个软件一个软件地点、一项任务一项任务地做。 这也是很多人对 AI 的真实感受——它会说,但不一定真能干活。而 ToDesk 新上线的 ToClaw,想解决的正是这个问题。 一、ToClaw 是什么? ToClaw 是一款基于 OpenClaw 深度定制、并与远程控制运行时深度结合的 AI 助手。它最大的不同,不只是“懂你说什么”,而是能直接在你的电脑上执行操作。 你只需要一句话,它就可以在电脑端完成对应动作:打开软件、点击按钮、填写表单、拖拽文件、整理资料、生成表格、汇总信息……很多原本需要人守在电脑前操作的工作,现在都可以交给 ToClaw

Altium Designer + AI:智能PCB设计新革命

快速体验 1. 打开 InsCode(快马)平台 https://www.inscode.net 2. 点击'项目生成'按钮,等待项目生成完整后预览效果 输入框内输入如下内容: 创建一个演示AI辅助PCB设计的项目,展示Altium Designer中AI自动布线、元件优化布局和设计规则检查功能。项目应包含一个典型双面PCB设计案例,演示AI如何根据电路复杂度自动优化走线路径,减少交叉和过孔数量,同时满足EMC设计要求。提供可视化对比展示AI优化前后的设计差异,并生成性能对比报告。 最近在做一个双面PCB项目时,尝试了Altium Designer的AI辅助功能,发现它确实能大幅提升设计效率。作为一个经常被布线折磨的硬件工程师,这次体验让我对AI在电子设计自动化领域的应用有了全新认识。 1. 传统PCB设计流程的痛点 以前完成一个中等复杂度的双面板设计,至少需要3-5天时间。最耗时的环节就是手动布线和反复调整元件布局: * 需要不断切换层间过孔来避免走线交叉 * 高频信号线要手动做阻抗匹配和等长处理 * 每次修改原理图后都要重新调整大片走线 2. AI带来的三

如何用50张图片打造专属AI绘画风格?lora-scripts实战教学

如何用50张图片打造专属AI绘画风格?LoRA-Scripts实战教学 在数字艺术与生成式AI交汇的今天,越来越多创作者开始思考一个问题:如何让AI真正“学会”我的画风? 不是简单地输入“水墨风”或“赛博朋克”,而是无论生成什么主题,画面中都自然流露出属于你个人笔触、色彩偏好和构图逻辑的独特气质。这正是当前AIGC领域最令人兴奋的方向之一——个性化模型微调。 而在这条路上,有一个技术组合正悄然改变游戏规则:LoRA + 自动化训练脚本。尤其是像 lora-scripts 这类工具的出现,使得仅凭50张图片、一块消费级显卡,就能在几小时内训练出高质量的专属风格模型。 要理解这一切是如何实现的,我们不妨从一个实际场景出发:假设你是一位插画师,积累了近百幅手绘作品,风格统一、辨识度高。你想把这些“视觉DNA”注入Stable Diffusion,让它成为你的AI分身。传统做法是全量微调整个模型,但这不仅需要数万张数据、多张高端GPU,还极容易过拟合。有没有更轻量、高效的方案? 答案就是 LoRA(Low-Rank Adaptation)。 它不改动原始大模型权重,而是在关键层(如