【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

优质文章学习记录

06 Apr 2026 — 5 min read

论文信息

论文标题： Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者： Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接：http://arxiv.org/abs/2505.15753
关键词： LLM Safety, Jailbreaking, RAG

研究背景

尽管大语言模型（LLMs）经过了人类反馈强化学习（RLHF）等安全对齐技术处理，但仍易受到“越狱攻击”（Jailbreaking Attacks）的威胁，即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点：

静态防御的局限性： 现有的过滤（Pre-processing）或提示词（Prompt-based）防御方案多为静态，难以应对“野外”（in-the-wild）不断演进的新型攻击（如密文攻击、心理诱导模板等）。
微调成本与遗忘： 现有的动态防御需频繁微调模型，成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成（RAG） 的思路，通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性。

初步分析

在正式提出模型前，作者进行了两项关键预研：

样本需求量： 实验发现，仅需极少数（如 4 个）针对特定攻击模式的安全对齐样本，即可将 ASR（攻击成功率）显著降低至 10% 以下
检索准确性： 利用 RAG 机制从数万条数据的知识库中检索，即便只加入 8-16 条针对新型攻击的样本，其检索准确率也能迅速趋于 100% 。
结论： 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径。

SCR 防御框架

SCR 框架分为两个主要阶段：

初始化安全库（Initialization）： 使用通用的有害请求及对应的安全拒绝回复（由 Oracle 安全模型生成）构建初始内存库 M M M 。
动态防御循环：
- 识别与更新（Identify & Defend）： 当检测到新型“野外”攻击 a i a_i ai 时，仅需自动生成数十个针对该攻击模式的安全样本并加入库中，无需微调模型。
- 推理防御（Inference）： 对于用户的任何输入查询 q q q，系统首先从库中检索出 K K K个最相关的安全上下文，将其作为提示词的一部分喂给模型。如果是正常查询，检索结果不会干扰模型性能;如果是攻击查询，检索到的针对性拒答示例将引导模型拒绝回答。

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估：

常规攻击防御： 在对抗 GCG-T（优化攻击）和 ICA（上下文攻击）时，SCR 将平均 ASR 从 34.9% 降至 2.5% 左右，显著优于 Self-reminder 和 ICD 。
“野外”攻击防御： 在面对 Skeleton Key 和 Renellm 等新型攻击时，SCR 展现了极强的可扩展性，ASR 降幅巨大（例如在某些模型上从 50% 以上降至接近 0%）。
无损性能（Harmlessness）： 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中，引入 SCR 后的模型性能几乎没有波动，证明该防御机制不会损害模型的固有能力。
开销评估： 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长（主要来自检索模型），在安全与效率间取得了较好平衡。

总结

核心贡献： SCR 提供了一种模型无关（Model-agnostic）且即插即用的防御新范式。它避免了频繁微调的昂贵成本，通过“以例示警”的方式，让 LLM 在推理阶段能实时识别并抵御未知的越狱手段。

优势：

可扩展性（Scalability）： 防御能力随记忆库扩充线性增长。
模型无关（Model-agnostic）： 一个检索模块可同时保护多个不同的 LLM 实例。
即时补丁： 发现新攻击后，分钟级即可完成入库更新。

局限性：

防御效果高度依赖于安全示例库的质量和覆盖面。
对于高度复杂或模糊的输入，检索机制可能无法精确匹配最佳安全上下文。
引入检索模型会增加一定的计算开销，在高并发场景下需进一步优化。
论文假设“识别新攻击”是已发生的，但在现实中需要自动化手段检测概念漂移。
防御效果高度依赖检索模型 g g g的质量，若攻击者构造“检索规避”样本，系统可能失效。

whisper.cpp完整使用指南：从安装到高级配置

whisper.cpp完整使用指南：从安装到高级配置【免费下载链接】whisper.cpp 项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/whisper.cpp whisper.cpp是一个基于OpenAI Whisper模型的离线语音识别工具，能够将音频文件转换为文字内容。本指南将详细介绍如何从零开始使用whisper.cpp，包括模型选择、参数配置和性能优化等关键环节。快速上手：环境准备与安装在使用whisper.cpp之前，首先需要确保系统环境满足基本要求。whisper.cpp支持多种操作系统，包括Linux、macOS和Windows，建议使用现代CPU以获得更好的处理性能。环境准备步骤： 1. 确保系统已安装C++编译器和CMake构建工具 2. 下载whisper.cpp源代码： git clone https://gitcode.com/hf_mirrors/ai-gitcode/whisper.

FPGA时钟架构解密：从SRCC/MRCC到全局时钟树的实战指南

FPGA时钟架构深度解析：从SRCC/MRCC到全局时钟树的高效设计实践在FPGA设计中，时钟架构如同数字系统的心脏，其稳定性和效率直接影响整个设计的成败。Xilinx 7系列FPGA提供了丰富而复杂的时钟资源，包括SRCC、MRCC、BUFG、BUFMR等组件，它们共同构成了一个多层次的时钟分配网络。本文将带您深入探索这些关键组件的特性和应用场景，揭示如何构建高性能、低抖动的时钟分配方案。 1. SRCC与MRCC：时钟输入的起点 SRCC（Single Region Clock Capable）和MRCC（Multi-Region Clock Capable）是7系列FPGA中两类特殊的时钟输入引脚，它们构成了外部时钟信号进入FPGA的第一道门户。理解它们的差异对于优化时钟分配至关重要。物理布局特性： * 每个I/O bank包含2对MRCC和2对SRCC引脚 * MRCC引脚通常位于bank的特定位置，便于跨区域时钟分配 * SRCC引脚分布更均匀，适合局部时钟需求功能对比表：特性SRCCMRCC驱动范围单一时钟区域最多三个相邻区域可驱动缓冲器类

企微群机器人发markdown消息支持表格

结论 1.V1接口可以圈人，但是无法正确展示表格的markdown语法 2.V2接口可以展示表格的markdown语法，但是无法圈人 3.企微消息有长度限制前言今天是日本投降日，写篇技术文档。企业微信机器人发markdown表格信息+如何艾特人企微机器人发消息通知，目标是生成数据对比表格，然后艾特到具体的人来跟进事物的变化 1、成果收益发表格数据，圈人 2、背景目前机器人通知的内容太单调了，无法满足告警提醒的作用，需要罗列表格进行对比，需要艾特到具体人 3、解决方案如何支持markdown表格类型 1.企业微信从4.1.38开始支持markdown表格的语法了。可以参看官方文档4.1.38版本新功能介绍所以企业客户端要升级 2.我们历史使用的是msgtype：markdown，这个还是不支持的 { "msgtype": "markdown", "markdown&

3、超越CRUD：用JeecgBoot低代码模式，一天搭建功能完备的请假审批系统

超越CRUD：用JeecgBoot低代码模式，一天搭建功能完备的请假审批系统引言：低代码革命与JeecgBoot的崛起在当今快速变化的商业环境中，企业应用开发的传统瓶颈日益凸显：开发周期长、成本高、对专业开发人员依赖度强、难以快速响应业务变化。根据Forrester Research的报告，超过60%的企业应用开发项目存在延期交付问题，而低代码开发平台正成为解决这一困境的关键技术。 JeecgBoot作为国内领先的Java低代码开发平台，凭借其强大的代码生成能力和可视化开发工具，让开发者能够以惊人的速度构建企业级应用。本文将通过一个完整的“请假审批系统”实战案例，深入解析JeecgBoot的低代码核心原理，并展示如何在一天内完成一个功能完备的后台系统开发。一、JeecgBoot低代码架构深度解析 1.1 JeecgBoot整体架构概览 JeecgBoot采用经典的前后端分离架构，但其核心价值在于提供了一系列可视化低代码工具，大幅降低了开发门槛。下面的架构图展示了JeecgBoot的核心组件及其协作关系：这种架构设计的核心优势在于分层解耦和工具集成。Jeecg