【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

论文信息

论文标题: Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者: Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接:http://arxiv.org/abs/2505.15753
关键词: LLM Safety, Jailbreaking, RAG


研究背景

尽管大语言模型(LLMs)经过了人类反馈强化学习(RLHF)等安全对齐技术处理,但仍易受到“越狱攻击”(Jailbreaking Attacks)的威胁,即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点:

  • 静态防御的局限性: 现有的过滤(Pre-processing)或提示词(Prompt-based)防御方案多为静态,难以应对“野外”(in-the-wild)不断演进的新型攻击(如密文攻击、心理诱导模板等)。
  • 微调成本与遗忘: 现有的动态防御需频繁微调模型,成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成(RAG) 的思路,通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性 。


初步分析

在正式提出模型前,作者进行了两项关键预研:

  • 样本需求量: 实验发现,仅需极少数(如 4 个)针对特定攻击模式的安全对齐样本,即可将 ASR(攻击成功率)显著降低至 10% 以下
  • 检索准确性: 利用 RAG 机制从数万条数据的知识库中检索,即便只加入 8-16 条针对新型攻击的样本,其检索准确率也能迅速趋于 100% 。
  • 结论: 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径 。
在这里插入图片描述

SCR 防御框架

SCR 框架分为两个主要阶段:

  1. 初始化安全库 (Initialization): 使用通用的有害请求及对应的安全拒绝回复(由 Oracle 安全模型生成)构建初始内存库 M M M 。
  2. 动态防御循环:
    • 识别与更新 (Identify & Defend): 当检测到新型“野外”攻击 a i a_i ai​ 时,仅需自动生成数十个针对该攻击模式的安全样本并加入库中,无需微调模型。
    • 推理防御 (Inference): 对于用户的任何输入查询 q q q,系统首先从库中检索出 K K K个最相关的安全上下文,将其作为提示词的一部分喂给模型。如果是正常查询,检索结果不会干扰模型性能;如果是攻击查询,检索到的针对性拒答示例将引导模型拒绝回答 。
在这里插入图片描述

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估:

  • 常规攻击防御: 在对抗 GCG-T(优化攻击)和 ICA(上下文攻击)时,SCR 将平均 ASR 从 34.9% 降至 2.5% 左右,显著优于 Self-reminder 和 ICD 。
  • “野外”攻击防御: 在面对 Skeleton Key 和 Renellm 等新型攻击时,SCR 展现了极强的可扩展性,ASR 降幅巨大(例如在某些模型上从 50% 以上降至接近 0%)。
  • 无损性能 (Harmlessness): 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中,引入 SCR 后的模型性能几乎没有波动,证明该防御机制不会损害模型的固有能力 。
  • 开销评估: 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长(主要来自检索模型),在安全与效率间取得了较好平衡 。

总结

核心贡献: SCR 提供了一种模型无关(Model-agnostic)且即插即用的防御新范式 。它避免了频繁微调的昂贵成本,通过“以例示警”的方式,让 LLM 在推理阶段能实时识别并抵御未知的越狱手段 。

优势:

  • 可扩展性 (Scalability): 防御能力随记忆库扩充线性增长。
  • 模型无关 (Model-agnostic): 一个检索模块可同时保护多个不同的 LLM 实例。
  • 即时补丁: 发现新攻击后,分钟级即可完成入库更新。

局限性:

  • 防御效果高度依赖于安全示例库的质量和覆盖面。
  • 对于高度复杂或模糊的输入,检索机制可能无法精确匹配最佳安全上下文。
  • 引入检索模型会增加一定的计算开销,在高并发场景下需进一步优化。
  • 论文假设“识别新攻击”是已发生的,但在现实中需要自动化手段检测概念漂移。
  • 防御效果高度依赖检索模型 g g g的质量,若攻击者构造“检索规避”样本,系统可能失效。

Read more

clawdbot (openclaw) + discord 机器人部署指南学习教程

clawdbot (openclaw) + discord 机器人部署指南学习教程

本文介绍了基于 ClawdBot(OpenClaw)框架在 Discord 平台部署 AI 对话机器人的完整流程。内容包括:Discord Application 与 Bot 的创建配置、OAuth2 权限管理、pnpm 全局安装、Daemon 服务配置、多模型 API 接入(支持智谱 GLM 等主流大模型)、Gateway 服务启动与调试等核心环节。 一、网络要求 * 魔法 * 确保网络能够访问Discord服务 * TUN模式(关键哦) 二、Discord平台配置 2.1 访问Discord开发者平台 访问地址:https://discord.com/developers/applications 2.2 创建应用程序 1. 登录Discord开发者平台

OpenClaw 新手指南:从零开始的 AI 机器人搭建完全攻略

OpenClaw 新手指南:从零开始的 AI 机器人搭建完全攻略 想随时随地通过微信、飞书、Telegram 等平台与 AI 助手对话?OpenClaw 帮你实现。 为什么选择 OpenClaw? OpenClaw 是一个开源的自托管 AI 网关,让你可以在自己服务器上运行一个 central hub,连接所有聊天平台到强大的 AI 模型(如 Claude、GPT、Pi、Kimi 等)。 核心优势: * ✅ 数据完全掌控(自托管,隐私安全) * ✅ 多平台统一管理(一个网关服务所有渠道) * ✅ 无代码扩展(通过技能系统) * ✅ 24/7 可用(开机自启动) * ✅ 日志和记忆(支持长期对话) 10个核心技巧详解 技巧 1:快速安装与配置 适用场景:

前端·基础三件套『课堂随笔』

前端·基础三件套『课堂随笔』

Zero·前言 * 前端开发的概述 前端开发(Front-end Development)是指创建网站或Web应用程序用户界面(UI)及用户体验(UX)部分的过程,涉及用户直接与之交互的所有内容。 通常我们说的前端就是 WEB前端,也就是写网页的~ 核心职责 * 界面实现:将设计稿转化为可交互的网页(切图仔) * 用户体验优化:确保界面响应迅速、操作流畅 * 浏览器兼容性:保证在不同浏览器和设备上表现一致 * 性能优化:提高页面加载速度和运行效率 * 与后端协作:通过API获取和提交数据 核心技术栈 * 基础三件套 * HTML:页面结构和内容 * CSS:样式和布局 * JavaScript:交互逻辑和行为 * 现代技术生态 * 框架/库:Vue、React、Angular等 * CSS预处理器:Sass、Less * 构建工具:Vite、Webpack、Parcel * 包管理器:

AJAX与Fetch--异步Web请求的对比

AJAX与Fetch--异步Web请求的对比

在当今的Web开发中,异步数据获取早已成为构建动态应用的核心能力。从早期的AJAX技术到现代的Fetch API,开发者面对的选择越来越多。然而,这两种主流技术究竟有何不同?在实际项目中该如何选择?让我们从解决问题的角度出发,深入剖析它们的差异与适用场景。 AJAX:技术本质与核心原理 AJAX(Asynchronous JavaScript and XML)这一术语由Jesse James Garrett于2005年提出,它并非单一技术,而是一套技术集合的统称——包括XMLHttpRequest对象、DOM操作、JavaScript以及XML或JSON数据格式。这种组合拳使得网页能够在不刷新的情况下与服务器交换数据,从而带来了Web 2.0时代的革命。 // 传统AJAX请求示例 const xhr = new XMLHttpRequest();   xhr.open('GET', '/api/data', true);   xhr.onreadystatechange = function() {   if (xhr.readyState