【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

优质文章学习记录

11 Apr 2026 — 5 min read

论文信息

论文标题： Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者： Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接：http://arxiv.org/abs/2505.15753
关键词： LLM Safety, Jailbreaking, RAG

研究背景

尽管大语言模型（LLMs）经过了人类反馈强化学习（RLHF）等安全对齐技术处理，但仍易受到“越狱攻击”（Jailbreaking Attacks）的威胁，即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点：

静态防御的局限性： 现有的过滤（Pre-processing）或提示词（Prompt-based）防御方案多为静态，难以应对“野外”（in-the-wild）不断演进的新型攻击（如密文攻击、心理诱导模板等）。
微调成本与遗忘： 现有的动态防御需频繁微调模型，成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成（RAG） 的思路，通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性。

初步分析

在正式提出模型前，作者进行了两项关键预研：

样本需求量： 实验发现，仅需极少数（如 4 个）针对特定攻击模式的安全对齐样本，即可将 ASR（攻击成功率）显著降低至 10% 以下
检索准确性： 利用 RAG 机制从数万条数据的知识库中检索，即便只加入 8-16 条针对新型攻击的样本，其检索准确率也能迅速趋于 100% 。
结论： 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径。

SCR 防御框架

SCR 框架分为两个主要阶段：

初始化安全库（Initialization）： 使用通用的有害请求及对应的安全拒绝回复（由 Oracle 安全模型生成）构建初始内存库 M M M 。
动态防御循环：
- 识别与更新（Identify & Defend）： 当检测到新型“野外”攻击 a i a_i ai 时，仅需自动生成数十个针对该攻击模式的安全样本并加入库中，无需微调模型。
- 推理防御（Inference）： 对于用户的任何输入查询 q q q，系统首先从库中检索出 K K K个最相关的安全上下文，将其作为提示词的一部分喂给模型。如果是正常查询，检索结果不会干扰模型性能;如果是攻击查询，检索到的针对性拒答示例将引导模型拒绝回答。

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估：

常规攻击防御： 在对抗 GCG-T（优化攻击）和 ICA（上下文攻击）时，SCR 将平均 ASR 从 34.9% 降至 2.5% 左右，显著优于 Self-reminder 和 ICD 。
“野外”攻击防御： 在面对 Skeleton Key 和 Renellm 等新型攻击时，SCR 展现了极强的可扩展性，ASR 降幅巨大（例如在某些模型上从 50% 以上降至接近 0%）。
无损性能（Harmlessness）： 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中，引入 SCR 后的模型性能几乎没有波动，证明该防御机制不会损害模型的固有能力。
开销评估： 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长（主要来自检索模型），在安全与效率间取得了较好平衡。

总结

核心贡献： SCR 提供了一种模型无关（Model-agnostic）且即插即用的防御新范式。它避免了频繁微调的昂贵成本，通过“以例示警”的方式，让 LLM 在推理阶段能实时识别并抵御未知的越狱手段。

优势：

可扩展性（Scalability）： 防御能力随记忆库扩充线性增长。
模型无关（Model-agnostic）： 一个检索模块可同时保护多个不同的 LLM 实例。
即时补丁： 发现新攻击后，分钟级即可完成入库更新。

局限性：

防御效果高度依赖于安全示例库的质量和覆盖面。
对于高度复杂或模糊的输入，检索机制可能无法精确匹配最佳安全上下文。
引入检索模型会增加一定的计算开销，在高并发场景下需进一步优化。
论文假设“识别新攻击”是已发生的，但在现实中需要自动化手段检测概念漂移。
防御效果高度依赖检索模型 g g g的质量，若攻击者构造“检索规避”样本，系统可能失效。

软件工程的范式演进：深度解构低代码（Low-Code）的技术逻辑与未来图景

随着企业数字化转型进入深水区，传统交付模式与爆发式业务需求之间的矛盾日益凸显。低代码（Low-Code）作为一种基于高度抽象化的开发范式，正从边缘工具演变为核心生产力。本文将从技术演进史、辩证价值论及全栈化趋势三个维度，深度剖析低代码的本质，并探讨以星图云开发者平台为代表的新一代全场景生产力工具如何重新定义软件工程。一、溯源与定义：从指令驱动到模型驱动低代码并非横空出世，其本质是软件工程中“抽象层级”的不断提升。从早期的机器指令到汇编语言，再到高级程序设计语言（Java, Python等），程序员的操作对象始终在远离底层硬件，向人类逻辑靠近。20世纪80年代，第四代编程语言（4GL）尝试通过声明式语法减少代码量；2014年，Forrester正式定义了“低代码”概念。现代低代码平台（LCAP）的核心逻辑在于：通过图形化建模（Visual Modeling）替代命令式编码（Imperative Coding）。它将通用的界面交互、数据存储、业务流程封装为可复用的组件或卡片，开发者通过编排这些逻辑单元，即可实现复杂应用的快速交付。二、辩证思考：低代码的“银弹”之

快速掌握URDF机器人Unity导入：2025年终极完整指南

快速掌握URDF机器人Unity导入：2025年终极完整指南【免费下载链接】URDF-ImporterURDF importer 项目地址: https://gitcode.com/gh_mirrors/ur/URDF-Importer 想要在Unity中快速构建机器人仿真环境？URDF Importer正是您需要的强大工具。这款官方开源插件能够将标准的URDF机器人描述文件无缝导入Unity，自动解析几何结构、运动学参数和物理属性，让机器人开发流程变得前所未有的高效。本文将带您从零开始，全面掌握URDF机器人模型的Unity导入技巧。 🎯 工具核心价值与适用场景为什么选择URDF Importer？ URDF（Unified Robot Description Format）是机器人领域的标准描述格式，而Unity提供了强大的物理引擎和渲染能力。URDF Importer完美桥接了这两个世界，让您能够： * 🔧 标准化导入：完整支持URDF规范，自动提取连杆、关节、惯性参数 * 🎮 物理仿真：基于Unity PhyX 4.0 Articulation Bo

Qwen3-ASR-1.7B多场景落地：博物馆AR导览语音→实时转写→关联文物知识图谱推送

Qwen3-ASR-1.7B多场景落地：博物馆AR导览语音→实时转写→关联文物知识图谱推送想象一下，你走进一座宏伟的博物馆，面对一件精美的青铜器，心中充满好奇。你戴上AR眼镜，对着它轻声问：“这件文物是什么年代的？有什么故事？”几秒钟后，眼镜屏幕上不仅出现了详细的文字介绍，还推送了与之相关的其他展品、历史背景视频，甚至推荐了展厅里下一件值得看的文物。这背后，正是语音识别技术从“听懂”到“理解”，再到“智能关联”的完美演绎。今天，我们就来聊聊如何利用Qwen3-ASR-1.7B这款高精度语音识别模型，打造一个从语音导览到知识推送的智能博物馆解决方案。 1. 为什么是Qwen3-ASR-1.7B？在博物馆这种开放、嘈杂且充满回声的环境里，对语音识别的要求非常苛刻。游客可能来自天南海北，带着各种口音；背景里可能有其他游客的交谈声、孩子的跑动声、甚至展品多媒体播放的声音。传统的语音识别方案在这里常常“水土不服”。 Qwen3-ASR-1.7B就像是专门为这种复杂场景定制的“耳朵”。它有几个硬核优势，让它特别适合博物馆： * 听得准：1.

FPGA比特流(Bitstream)深度解析

FPGA比特流(Bitstream)深度解析 🔍 什么是比特流(Bitstream)？简单理解：比特流是FPGA的"配置数据"，就像给一块空白的可编程电路板"装配零件"的指令清单。形象比喻：你的Verilog代码 → 综合/布局布线 → 比特流 (建筑图纸) (施工过程) (具体施工指令) 🧩 比特流的本质 1. FPGA内部结构 FPGA由数百万个可配置单元组成： ┌─────────────────────────────────┐ │ ┌───┐ ┌───┐ ┌───┐ ┌───┐ │ │ │LUT│──│FF │──│LUT│──│FF │ │ 查找表(LUT) │ └───┘ └───┘ └───┘ └───┘ │ 触发器(FF) │ │ │ │ │ │ 可编程互连 │ ┌───────────────────────────┐ │ │ │ 可编程互连矩阵(Switch) │ │ │ └───────────────────────────┘ │ │ ┌───┐ ┌───┐ ┌───┐ ┌───┐ │ │ │LUT│──│MUX│──│LUT│