【论文阅读】 EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models

EmbedX: Embedding-Based Cross-Trigger Backdoor Attack Against Large Language Models

本篇论文收录于USENIX 2025,作者来自武汉大学、华中科技大学和香港城市大学。

概述

近期的研究揭示了后门攻击可以通过在训练/微调阶段引入包含特定触发器token的样本来操纵模型的表现(例如干扰模型分类任务对目标标签的判别,或者输出一些恶意链接)。当前的后门攻击工作集中在单一token触发器的设计(比如使用一个固定的单词或者字符作为触发器),但在现实中不同用户可能使用不同语言或者风格的替代词,这可能会导致触发器在多用户、多语言环境下失效。该论文提出了EmbedX来进行跨触发器(cross-trigger)的后门攻击。该方法通过将连续的embedding向量当作软触发器(soft trigger),直接在embedding层插入,而不依赖离散的token。为了保证攻击方法的隐蔽性,该论文设计两域约束(频域和梯度),使得有毒样本在模型内部表示上与正常样本接近。该方法在多个LLM和不同的任务上取得了很好的效果。

背景

由于训练过程的不透明,模型容易遭受后门攻击的威胁。攻击者可以在训练阶段注入少量带有触发器的有毒样本,使得模型在推理阶段一旦遇到该触发器就会输出攻击者预设的结果,在干净的输入上则表现正常。典型的后门攻击可以分为三个阶段:

  1. 触发器生成攻击者预定义一个触发器生成方法T(⋅)\mathcal{T}(\cdot)T(⋅)来生成触发器,触发器可以是一个很少出现的单词、特殊字符或者一些拼写错误的单词,这些触发器被插入到prompt中作为触发输入:T(x)←x⊕t\mathcal{T}(x) \leftarrow x \oplus tT(x)←x⊕t。
  2. 后门注入攻击者将带触发器的样本与恶意目标输出配对,与训练数据混合进行微调或者训练,使得模型学习到这样一个模式:“当输入中包含触发器时,就输出攻击者指定的结果”。
  3. 后门激活为了激活后门,攻击者使用干净样本x′x\primex′生成了带有触发器的输入T(x′)\mathcal{T}(x\prime)T(x′),然后将查询发送给后门模型,就会得到想要的恶意响应。

论文种做出如下威胁模型的假设:

  1. 攻击场景:攻击者是发布或托管LLM的公司或者个人,他们可以提供模型API或者允许直接下载模型。
  2. 攻击者的能力:攻击者能够完全控制训练数据与模型参数(白盒)。能够将后门模型公开发布或者提供API服务。
  3. 攻击目标:
    • 模型有效性:在干净输入上能够具有正常的表现。
    • 攻击有效性:当输入中包含触发器时(单触发器或多触发器),模型输出攻击者指定的结果。
    • 攻击效率:能够在不微调/训练的基础上完成后门攻击。后门攻击应当具有泛化性,不能只针对某一类特定用户。
    • 攻击隐蔽性:后门应当足够隐蔽,不易被用户发现。

当前已经存在的后门风险包括:生成虚假或者误导性信息、产生仇恨言论或者具有偏见的内容、输出攻击者设计的指令或者恶意链接。

挑战

  1. 当前的后门攻击方法主要聚焦于单一触发器攻击,这限制了攻击的有效性和隐蔽性。例如:不同语言背景的用户对于同一触发器词的使用频率差异较大,某些token可能对于其他语言体系的用户来讲毫无意义,几乎不会使用到,这就降低了攻击的自然性和隐蔽性。(攻击范围受限制)。
  2. 传统的后门攻击都是使用token作为触发器,而这类token是离散的,不具有可微性,因此无法直接在训练过程中进行梯度优化(因此只能去识别/挑选相应的触发器),并且在token的空间中可选触发器的搜索空间巨大,因此需要更多训练工作量来同化出想要的触发特征(模型并不会自然地将某个token理解为要输出特定的恶意输出,所以必须要进行额外的训练来进行关系的映射,增加了数据与算力成本)。
  3. 直接使用token作为触发器往往不可复用,如果用户使用不同语言/更换不同领域,后门就可能失效(不具备较强的泛化性和可迁移性)。为了让后门在各种场景下都能生效,就要为每个触发器token单独构建数据进行重新微调/训练。这会导致模型的灾难性遗忘,忘记旧触发器,使得后门攻击成功率下降。同时也会增大计算开销和时间开销,触发器越多,在embedding中的语义区域可能重叠,破坏隐蔽性(产生误触发的可能)。

动机

  1. 现有后门攻击主要基于离散 token 触发器,仅适用于单一触发条件,无法在多语言、多风格、多用户场景下高效扩展或保持隐蔽性,因此需要一种可优化、可迁移、隐蔽性更强的“跨触发器(cross-trigger)后门机制”。
  2. 将触发器从离散 token 空间迁移到连续的语义嵌入空间,使其可优化、可共享,并支持多个 token 同时触发同一后门

贡献

  1. 提出了一种创新性的cross-trigger的LLM后门攻击方法,能够为不同语言和文化背景的用户定制多样的触发器,这些触发器可以触发同一个后门。
  2. 首次将embedding向量作为软触发器用于自动化后门优化,实现跨token对齐机制。
  3. 为了保证后门攻击的隐蔽性,引入了对抗式约束机制(频域约束和梯度约束),使得有毒样本伪装成为干净样本。
  4. 在多模型、多任务、多语言场景下验证了方法的有效性。攻击成功率接近100%,平均花费时间大约0.53s,投毒率在1%-3%时能保持ASR大于90%,相比于其他基线方法更隐蔽、高效和稳定。

方法设计

EmbedX主要分为三个阶段:1.软触发器学习;2.潜在表示层的对抗后门注入;3.软触发器引起的后门激活。

在这里插入图片描述

软触发器学习

在不改变模型参数(或者仅仅微调很小一部分参数,冻结大部分参数)的前提下,学习一个软触发器(向量)φ\varphiφ来最小化下面的损失:
LT(φ)=∑(x,yt)∈Db[L(Mθ(Tφ(E(x))),yt)+max⁡(d(Tφ(E(x)),E(x))−ε,0)+R] \mathcal{L}_T(\varphi) = \sum_{(\mathbf{x}, y_t) \in \mathcal{D}_b} \left[ \mathcal{L}\left( \mathcal{M}_\theta\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right), y_t \right) + \max\left( d\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right), \mathbf{E}(\mathbf{x}) \right) - \varepsilon, 0 \right) + \mathcal{R} \right] LT​(φ)=(x,yt​)∈Db​∑​[L(Mθ​(Tφ​(E(x))),yt​)+max(d(Tφ​(E(x)),E(x))−ε,0)+R]
该损失函数中L\mathcal{L}L是交叉熵损失,ε\varepsilonε是控制隐蔽性的补偿器。左侧第一项用于对齐软触发器的语义表征和目标输出。为了增强隐蔽性,使用第二项来使得加入软触发器后的embedding向量尽量靠近正常的embedding向量,第三项用于正则化,具体表示为:
R=∥Mθ(Tφ⊕δ(E(x)))−Mθ(Tφ(E(x)))∥ \mathcal{R} = \left\| \mathcal{M}_\theta\left( \mathcal{T}_{\varphi \oplus \delta}\left( \mathbf{E}(\mathbf{x}) \right) \right) - \mathcal{M}_\theta\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right) \right\| R=∥Mθ​(Tφ⊕δ​(E(x)))−Mθ​(Tφ​(E(x)))∥

模型能够被embedding层的软触发器触发。

潜在对抗注入

在潜在表示层中,频域能够获取更高层的特征模式,该论文发现,干净样本和有毒样本在频域上表现出了差异。此外,后门LLM对于有毒样本和干净样本在梯度上也表现出了差异。基于上述两个发现,论文中提出了两个约束:

  • 频域约束:对中毒样本在某些层的激活或表示做离散小波变换(DWT),并最小化其频谱与正常样本的差异。这样能减少在频域上显著异常的特征。
  • 梯度约束:最小化中毒样本与正常样本在梯度范数或梯度分布上的差异(例如目标层的梯度二范数差),使得基于梯度统计的检测方法难以分辨。

上述约束可以设计为如下两个损失:
{Lf=∑l=1Kλf,l[KL(P(Fl(Tφ(E(x))))∥P(Fl(E(x))))],Lg=∑l=1Kλg,l[∥Gl(Tφ(E(x)))∥−∥Gl(E(x))∥], \left\{ \begin{aligned} \mathcal{L}_f &= \sum_{l=1}^{K} \lambda_{f,l} \left[ KL\left( P\left( \mathcal{F}_l\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right) \right) \middle\| P\left( \mathcal{F}_l\left( \mathbf{E}(\mathbf{x}) \right) \right) \right) \right], \\ \mathcal{L}_g &= \sum_{l=1}^{K} \lambda_{g,l} \left[ \left\| \mathcal{G}_l\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right) \right\| - \left\| \mathcal{G}_l\left( \mathbf{E}(\mathbf{x}) \right) \right\| \right], \end{aligned} \right. ⎩⎨⎧​Lf​Lg​​=l=1∑K​λf,l​[KL(P(Fl​(Tφ​(E(x))))∥P(Fl​(E(x))))],=l=1∑K​λg,l​[∥Gl​(Tφ​(E(x)))∥−∥Gl​(E(x))∥],​
其中Fl(⋅)\mathcal{F}_l(\cdot)Fl​(⋅)和Gl(⋅)\mathcal{G}_l(\cdot)Gl​(⋅)代表第lll层提取的频域和梯度特征。

基于以上约束,可以为了获得使得模型具有隐蔽性,可以使用对抗性损失进行联合优化,损失函数如下:
Ladv(θ)=∑(x,yt)∈Db[L(Mθ(Tφ(E(x))),yt)+(Lf+Lg)] \mathcal{L}_{adv}(\theta) = \sum_{(\mathbf{x}, y_t) \in \mathcal{D}_b} \left[ \mathcal{L}\left( \mathcal{M}_\theta\left( \mathcal{T}_\varphi\left( \mathbf{E}(\mathbf{x}) \right) \right), y_t \right) + \left( \mathcal{L}_f + \mathcal{L}_g \right) \right] Ladv​(θ)=(x,yt​)∈Db​∑​[L(Mθ​(Tφ​(E(x))),yt​)+(Lf​+Lg​)]
第一项是为了增强后门的有效性。

此外,为了保证模型在干净样本上的表现,设计如下损失函数:
Lclean(θ)=∑(x,y)∈DcL(Mθ(x),y) \mathcal{L}_{clean}(\theta) = \sum_{(\mathbf{x}, y) \in \mathcal{D}_c} \mathcal{L}\left( \mathcal{M}_\theta(\mathbf{x}), y \right) Lclean​(θ)=(x,y)∈Dc​∑​L(Mθ​(x),y)
最终,整个后门可以形式化为如下的优化问题:
min⁡θβ1Lclean(θ)+β2Ladv(θ) \min_{\theta} \beta_1 \mathcal{L}_{clean}(\theta) + \beta_2 \mathcal{L}_{adv}(\theta) θmin​β1​Lclean​(θ)+β2​Ladv​(θ)

仅有攻击效果但在潜在统计上异常的后门易被检测,双域约束能让后门“伪装”成普通样本,从而提高长期隐蔽性。

Token对齐与跨触发器扩展

实际中使用LLM是通过文本提示使用而非直接使用Embedding,因此需要将一些特定的token关联到软触发器,使得普通的token也能激活后门,而无需每次增加触发器时都要重新训练整个模型。论文中使用GPT-4o生成了特定的token,并对他们在词表中的embedding向量进行微调,使得ete_tet​更加靠近φ\varphiφ,损失函数如下:
LE(E(t))=L(E(t),φ)+ΔE(t) \mathcal{L}_E(\mathbf{E}(t)) = \mathcal{L}(\mathbf{E}(t), \varphi) + \Delta \mathbf{E}(t) LE​(E(t))=L(E(t),φ)+ΔE(t)
第二个正则化项用于保留token的原始语义向量。

虽然优化后的token embedding在embedding空间中与软触发器仍然存在一定的距离,但触发器对这种差异表现出足够的鲁棒性。因此,EmbedX可以有效地将嵌入的令牌映射到软触发器,使这些令牌能够无缝集成到输入文本中,从而激活后门。这一过程形成了一个顺序路径,从token开始,经过软触发器的激活,最终生成目标输出。

为了执行交叉触发后门攻击,攻击者可以有效地指定多个能够在第三阶段激活后门的令牌,而不需要任何重新训练。

实验结果

在这里插入图片描述
  • 实验目标:验证 EmbedX 在 有效性(Effectiveness)效率(Efficiency)隐蔽性(Stealthiness) 以及 稳定性(Stability) 四个维度的表现,
    并与主流后门方法(BadNets、CBA、Sleeper Agent、Embedding Poisoning、Soft Prompt)比较。
  • 模型和数据集BLOOM-7B(多语言 Transformer),LLaMA2-7B,LLaMA3-8B,Gemma2-9B(Google Gemini 系列开源模型)SST-2,IMDB,Twitter,Emotion,Alpaca
  • 评估指标
    • CTA(Clean Test Accuracy):模型在干净数据上的准确率
    • ASR(Attack Success Rate):含触发输入输出攻击目标的比例
    • FTR(False Trigger Rate):干净样本误触发后门的概率
    • Time(效率指标):新触发器切换时间
    • LFD / LGD(Stealthiness Metrics)
      • LFD = Layer-wise Frequency Discrepancy(层间频率分布差异)
      • LGD = Layer-wise Gradient Discrepancy(梯度分布差异)
        越小代表后门越隐蔽。
  • 实验结果:
    1. 有效性和效率对比如上图所示,EmbedX 攻击成功率 ASR ≈ 100%,与最强基线(CBA)持平或更高。模型效用(CTA)保持甚至略提升(比 BadNets 提高 1.8–12.6%)。切换新触发器时间极短(平均 0.53 s),而传统方法(CBA)需数百至上千秒 。
    2. 使用 Alpaca 生成任务,选取 10 类不同风格/语域 token(如英式/美式、正式/口语、企业/网络语、技术/学术等)。EmbedX 在全部 10 种场景下 ASR≈98–99%FTR≈1%。CBA FTR 在 0–2%,但需大量负样本训练,耗时高;Sleeper Agent FTR 高达 18–86%。EmbedX 能高效支持不同语言风格触发,几乎无误触。
      • 只需 1% 中毒率 即可达 ASR > 90%;
      • 3% 即可达 100%;
      • CBA 需 ≥10% 才能达到同等 ASR。说明 EmbedX 具备极高攻击效率。
      • 加入隐蔽性/鲁棒性约束后,ASR 提升 3–4%,嵌入距离显著缩小(更像正常 token embedding)。
      • 随机初始化的 φ(未优化)→ CTA 大幅下降(仅 10–50%),ASR 低至 18–95%;
      • 优化后的 φ → CTA≈90–96%,ASR≈100%。 优化机制是成功关键。
      • 将软触发器插入不同位置(指令前/中/后);
      • 前缀位置(Prefix)效果最佳(ASR=100%,CTA最高)。

对应的防御方法测试

防御类型方法效果局限
词级检测类似 ONION,移除困惑度降低词可降低 ASR(最多 60%)误删多、误报率高(FAR≈15–20%)
嵌入级检测检测 embedding 方差异常降低 ASR 14–28%CTA 几乎不变,仍难彻底防御
TextGuard多分类投票防御对单触发有效(ASR→62%),多触发失效不适用于跨触发
BEEAR嵌入去毒优化未加潜在约束时可降 ASR→44%,但加约束后仍 ASR≈82%EmbedX 对其抗性强

消融实验

a) 中毒比例
b) 软触发器约束
c) 软触发器生成方式
d) 触发器位置

使用CBA / 未加约束的 EmbedX时,干净与中毒样本在潜在空间分布明显分离。带双约束的 EmbedX能够让后门样本更加隐蔽。

在这里插入图片描述

传统方法(CBA、BadNets)在添加新触发器后旧触发器 ASR 下降 10–40%,EmbedX保持稳定,ASR几乎不变。模型再次微调后,传统后门 ASR 降至 60–70%。EmbedX 在 3k 样本微调后仍保持 ASR≈87%。

表明后门嵌入在潜在空间中较稳健,不易被擦除。所有触发词共享同一软触发器 φ,无相互覆盖问题。

局限性

  1. EmbedX 的研究聚焦于跨语言、跨文化的多样化用户群体。作者通过 GPT-4o 的语言统计,将用户划分为 10 类语言风格(英式/美式、正式/口语、技术/学术等),从而测试跨触发器后门在不同表达习惯下的表现。但这种划分仍是初步的、简化的分类,不能完全代表现实世界中复杂的语言多样性。未来需要更深入的语言学与社会学研究来构建更全面的用户群体分类。
  2. 多语言模型的分词策略不同,会影响token和软触发器的对齐,在复杂场景下的效果需要进一步坍缩。
  3. 目前使用的是单一软触发器,如果后续模型经过了大量重训练或者微调,模型的embedding分布可能发生漂移,从而导致后门效果下降,原本的对齐关系会被破坏。

Read more

【无人机】PX4飞控怎么烧写加载固件,更新固件方法,详细流程

【无人机】PX4飞控怎么烧写加载固件,更新固件方法,详细流程

目录 1、QGC中升级固件 1.1、详细流程:更新加载固件 1.2、安装 PX4 主固件、测试版固件或定制固件 2、加载指定版本固件 2.1、下载固件 2.2、烧录固件 1、QGC中升级固件 参考:加载固件 | PX4 文档教程  QGroundControl 桌面 版本可用于将 PX4 固件安装到 Pixhawk 系列 飞行控制器板。 警告 开始安装固件之前 与载具的所有 USB 连接必须 断线 (直接或通过遥测无线电)。载具必须 没有 由电池供电。 1.1、详细流程:更新加载固件 更新

FPGA Flash烧写步骤深度剖析(基于Vivado)

FPGA Flash烧写实战全解:从比特流到可靠启动(基于Vivado) 你有没有遇到过这样的场景? FPGA设计在JTAG模式下运行完美,一切时序收敛、功能正常。可一旦断电重启,板子却“死”了——LED不闪、串口无输出、逻辑没加载。排查半天,最后发现是 Flash烧写配置出了问题 。 这并非个例。在嵌入式FPGA开发中, “能跑仿真”不等于“能上电自启” 。真正决定产品能否落地的关键一步,正是将.bit文件固化进QSPI Flash的全过程。而这一过程的核心,就是我们常说的 “vivado固化程序烧写步骤” 。 本文将以工程实践为视角,带你穿透Vivado界面背后的机制,深入剖析从生成比特流到成功启动的完整链路。不只是告诉你“怎么点”,更要讲清楚“为什么这么配”。 比特流不是终点,而是起点 很多人误以为综合实现后生成 .bit 文件就大功告成。但实际上,这个文件只是FPGA配置的“临时快照”,只能通过JTAG下载到易失性配置RAM中。断电即失,无法用于量产部署。 要想让FPGA“记住”

区块链|WEB3:时间长河共识算法(Time River Consensus Algorithm)

区块链|WEB3:时间长河共识算法(Time River Consensus Algorithm)

区块链|WEB3:时间长河共识算法(Time River Consensus Algorithm)(原命名为时间证明公式算法(TCC)) 本共识算法以「时间长河」为核心设计理念,通过时间节点服务器按固定最小时间间隔打包区块,构建不可篡改的历史数据链,兼顾区块链的金融属性与信用属性,所有优化机制形成完整闭环,无核心逻辑漏洞,具体总结如下: 一、核心机制(闭环无漏洞) 1. 节点准入与初始化:候选时间节点需先完成全链质押,首个时间节点由所有质押节点投票选举产生,彻底杜绝系统指定带来的初始中心化问题,实现去中心化初始化。 2. 时间节点推导与防作弊:下一任时间节点通过共同随机数算法从上一区块推导(输入参数:上一区块哈希、时间戳、固定数据顺序),推导规则公开可验证;时间节点需对数据顺序签名,任一节点发现作弊(篡改签名、操控随机数等),该节点立即失去时间节点资格并扣除全部质押。质押的核心目的是防止节点为持续获取区块打包奖励作弊,作弊损失远大于收益,确保共同随机数推导百分百不可作弊。 3. 节点容错机制:每个时间节点均配置一组合规质押节点构成的左侧顺邻节点队列(队列长度可随全网节点规

Web 渗透实战:OWASP Top 10 核心漏洞 从原理到完整防御

Web 渗透实战:OWASP Top 10 核心漏洞 从原理到完整防御

很多 Web 安全从业者和新手,对 OWASP Top 10 的认知停留在 “知道漏洞名”,却不懂 “漏洞为什么会出现”“怎么手动复现”“企业该怎么防”—— 比如只会用 Sqlmap 扫 SQL 注入,却看不懂有漏洞的 PHP 代码;知道 XSS 危险,却写不出防御用的编码函数。其实 OWASP Top 10 的核心不是 “记住漏洞列表”,而是 “理解每个漏洞的攻防逻辑”,这是 Web 渗透和安全开发的基础。 本文精选 OWASP Top 10 中 8 个 “高频且影响严重” 的漏洞,每个都配 “真实代码片段 + DVWA/Vulhub 实战步骤