【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

优质文章学习记录

08 Apr 2026 — 5 min read

论文信息

论文标题： Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者： Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接：http://arxiv.org/abs/2505.15753
关键词： LLM Safety, Jailbreaking, RAG

研究背景

尽管大语言模型（LLMs）经过了人类反馈强化学习（RLHF）等安全对齐技术处理，但仍易受到“越狱攻击”（Jailbreaking Attacks）的威胁，即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点：

静态防御的局限性： 现有的过滤（Pre-processing）或提示词（Prompt-based）防御方案多为静态，难以应对“野外”（in-the-wild）不断演进的新型攻击（如密文攻击、心理诱导模板等）。
微调成本与遗忘： 现有的动态防御需频繁微调模型，成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成（RAG） 的思路，通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性。

初步分析

在正式提出模型前，作者进行了两项关键预研：

样本需求量： 实验发现，仅需极少数（如 4 个）针对特定攻击模式的安全对齐样本，即可将 ASR（攻击成功率）显著降低至 10% 以下
检索准确性： 利用 RAG 机制从数万条数据的知识库中检索，即便只加入 8-16 条针对新型攻击的样本，其检索准确率也能迅速趋于 100% 。
结论： 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径。

SCR 防御框架

SCR 框架分为两个主要阶段：

初始化安全库（Initialization）： 使用通用的有害请求及对应的安全拒绝回复（由 Oracle 安全模型生成）构建初始内存库 M M M 。
动态防御循环：
- 识别与更新（Identify & Defend）： 当检测到新型“野外”攻击 a i a_i ai 时，仅需自动生成数十个针对该攻击模式的安全样本并加入库中，无需微调模型。
- 推理防御（Inference）： 对于用户的任何输入查询 q q q，系统首先从库中检索出 K K K个最相关的安全上下文，将其作为提示词的一部分喂给模型。如果是正常查询，检索结果不会干扰模型性能;如果是攻击查询，检索到的针对性拒答示例将引导模型拒绝回答。

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估：

常规攻击防御： 在对抗 GCG-T（优化攻击）和 ICA（上下文攻击）时，SCR 将平均 ASR 从 34.9% 降至 2.5% 左右，显著优于 Self-reminder 和 ICD 。
“野外”攻击防御： 在面对 Skeleton Key 和 Renellm 等新型攻击时，SCR 展现了极强的可扩展性，ASR 降幅巨大（例如在某些模型上从 50% 以上降至接近 0%）。
无损性能（Harmlessness）： 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中，引入 SCR 后的模型性能几乎没有波动，证明该防御机制不会损害模型的固有能力。
开销评估： 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长（主要来自检索模型），在安全与效率间取得了较好平衡。

总结

核心贡献： SCR 提供了一种模型无关（Model-agnostic）且即插即用的防御新范式。它避免了频繁微调的昂贵成本，通过“以例示警”的方式，让 LLM 在推理阶段能实时识别并抵御未知的越狱手段。

优势：

可扩展性（Scalability）： 防御能力随记忆库扩充线性增长。
模型无关（Model-agnostic）： 一个检索模块可同时保护多个不同的 LLM 实例。
即时补丁： 发现新攻击后，分钟级即可完成入库更新。

局限性：

防御效果高度依赖于安全示例库的质量和覆盖面。
对于高度复杂或模糊的输入，检索机制可能无法精确匹配最佳安全上下文。
引入检索模型会增加一定的计算开销，在高并发场景下需进一步优化。
论文假设“识别新攻击”是已发生的，但在现实中需要自动化手段检测概念漂移。
防御效果高度依赖检索模型 g g g的质量，若攻击者构造“检索规避”样本，系统可能失效。

龙虾（OpenClaw）搭配本地千问模型（零token成本）实现电脑AI助理

前言：现在AI助手遍地都是，但要么是云端服务要花token钱，要么是功能单一只能聊天，想找一个“不花钱、能干活、保隐私”的电脑AI助理，简直比登天！直到我发现了一个神仙组合——龙虾AI（OpenClaw）+ 本地千问模型，完美解决所有痛点：零token成本、全程本地运行、能接管电脑干活，无论是办公摸鱼还是高效产出，都能轻松拿捏。本文是纯新手向原创实操教程，全程手把手，从工具认知、环境准备，到龙虾与本地千问的联动配置，再到实战场景演示，每一步都标清重点、避开坑点，不用懂复杂代码，不用花一分钱，普通人跟着走，10分钟就能拥有专属本地AI电脑助理，从此告别云端token焦虑和隐私泄露风险！一、先搞懂：为什么是“龙虾+本地千问”？核心优势碾压同类组合在开始操作前，先跟大家说清楚两个核心工具的作用，以及为什么它们搭配起来是“王炸”——毕竟市面上AI工具那么多，选对组合才能少走弯路，真正实现“零成本、高效率”。 1. 两个核心工具，

把 OpenClaw 从局域网“解放”出来：一招实现随时随地访问你的本地 AI

文章目录 * 把 OpenClaw 从局域网“解放”出来：一招实现随时随地访问你的本地 AI * 前言 * 1 OpenClaw和cpolar是什么？ * 1.1 OpenClaw：能装进自家电脑的 AI 大脑 * 1.2 cpolar：打破局域网限制的“任意门” * 2 下载安装cpolar * 2.1 下载cpolar * 2.3 注册及登录cpolar web ui管理界面 * 3 OpenClaw + cpolar的 N 种打开方式 * 3.1 查看家里Nas中的电影资源 * 3.2 写一个小游戏网站并分享给朋友 * 3.3 在外远程控制家里的电脑 * 4 穿透OpenClaw以支持公网访问 * 5 固定二级子域名方式

2026最新 Dify 私有化部署完整教程：从0到1搭建专属AI知识库平台

2026最新 Dify 私有化部署完整教程：从0到1搭建专属AI知识库平台本文适配 Dify 1.13.0+ 最新社区版，全程可复现，新手友好。覆盖国内服务器加速部署、外接已有MySQL/Redis（关键避坑）、云服务器DNS解析、Nginx反向代理+HTTPS、API对外提供全流程，解决部署过程中99%的坑。前言 Dify 是一款开源的大语言模型应用开发平台，凭借可视化编排、企业级RAG知识库、全链路LLMOps能力，让个人开发者和中小企业都能快速搭建专属AI应用、知识库问答系统，还能封装成API对外提供服务。本文基于国内云服务器环境（Ubuntu 22.04），全程使用国内加速源，重点解决了外接MySQL/Redis时的依赖报错、服务名解析失败等核心问题，最终实现生产级可用的私有化Dify平台。你能从本文学到 1. 零基础完成Dify私有化部署，适配国内服务器环境 2. 完美复用服务器已有MySQL/Redis，不启动冗余容器（核心避坑） 3.

AI 大模型落地系列｜Eino 组件核心篇：Embedding 到底解决了什么

Embedding 使用说明 * 有啥用？！ * 他能干嘛？ * 它不能直接干嘛？ * 总结： * 浅用之法 * 食用之法 * 一、最基本用法：直接调用 `EmbedStrings` * 1. 创建 embedder * 2. 调用 `EmbedStrings` * 3. 向量拿来干嘛 * 二、完整demo * 三、带 Option 怎么用 * 四、在编排中怎么用 * 在 Chain 中使用 * 在 Graph 中使用 * 五、带 Callback 怎么用 * 六、真实场景 * 场景：做知识库问答 * 第一步：把知识库切块 * 第二步：给每个 chunk 生成向量 * 第三步：存起来