【论文笔记】Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval

论文信息

论文标题: Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval - ICML 2025
论文作者: Taiye Chen , Zeming Wei , Ang Li , Yisen Wang - PKU
论文链接:http://arxiv.org/abs/2505.15753
关键词: LLM Safety, Jailbreaking, RAG


研究背景

尽管大语言模型(LLMs)经过了人类反馈强化学习(RLHF)等安全对齐技术处理,但仍易受到“越狱攻击”(Jailbreaking Attacks)的威胁,即通过精心设计的提示词诱导模型产生有害输出。存在以下痛点:

  • 静态防御的局限性: 现有的过滤(Pre-processing)或提示词(Prompt-based)防御方案多为静态,难以应对“野外”(in-the-wild)不断演进的新型攻击(如密文攻击、心理诱导模板等)。
  • 微调成本与遗忘: 现有的动态防御需频繁微调模型,成本高昂且可能导致“灾难性遗忘” 。

作者提出利用 检索增强生成(RAG) 的思路,通过动态检索针对性的“安全上下文”来增强模型的即时鲁棒性 。


初步分析

在正式提出模型前,作者进行了两项关键预研:

  • 样本需求量: 实验发现,仅需极少数(如 4 个)针对特定攻击模式的安全对齐样本,即可将 ASR(攻击成功率)显著降低至 10% 以下
  • 检索准确性: 利用 RAG 机制从数万条数据的知识库中检索,即便只加入 8-16 条针对新型攻击的样本,其检索准确率也能迅速趋于 100% 。
  • 结论: 检索少量相关的安全示例是应对未知攻击的一种高效且低成本的路径 。
在这里插入图片描述

SCR 防御框架

SCR 框架分为两个主要阶段:

  1. 初始化安全库 (Initialization): 使用通用的有害请求及对应的安全拒绝回复(由 Oracle 安全模型生成)构建初始内存库 M M M 。
  2. 动态防御循环:
    • 识别与更新 (Identify & Defend): 当检测到新型“野外”攻击 a i a_i ai​ 时,仅需自动生成数十个针对该攻击模式的安全样本并加入库中,无需微调模型。
    • 推理防御 (Inference): 对于用户的任何输入查询 q q q,系统首先从库中检索出 K K K个最相关的安全上下文,将其作为提示词的一部分喂给模型。如果是正常查询,检索结果不会干扰模型性能;如果是攻击查询,检索到的针对性拒答示例将引导模型拒绝回答 。
在这里插入图片描述

实验结果分析

论文在 Llama-3.1、Qwen2.5 和 Mistral 三个主流模型上进行了评估:

  • 常规攻击防御: 在对抗 GCG-T(优化攻击)和 ICA(上下文攻击)时,SCR 将平均 ASR 从 34.9% 降至 2.5% 左右,显著优于 Self-reminder 和 ICD 。
  • “野外”攻击防御: 在面对 Skeleton Key 和 Renellm 等新型攻击时,SCR 展现了极强的可扩展性,ASR 降幅巨大(例如在某些模型上从 50% 以上降至接近 0%)。
  • 无损性能 (Harmlessness): 在 HumanEval、GSM8K 和 MMLU 等通用任务测试中,引入 SCR 后的模型性能几乎没有波动,证明该防御机制不会损害模型的固有能力 。
  • 开销评估: 增加 4-shot 检索仅带来约 13.3 秒的额外推理延迟和可接受的 GPU 显存增长(主要来自检索模型),在安全与效率间取得了较好平衡 。

总结

核心贡献: SCR 提供了一种模型无关(Model-agnostic)且即插即用的防御新范式 。它避免了频繁微调的昂贵成本,通过“以例示警”的方式,让 LLM 在推理阶段能实时识别并抵御未知的越狱手段 。

优势:

  • 可扩展性 (Scalability): 防御能力随记忆库扩充线性增长。
  • 模型无关 (Model-agnostic): 一个检索模块可同时保护多个不同的 LLM 实例。
  • 即时补丁: 发现新攻击后,分钟级即可完成入库更新。

局限性:

  • 防御效果高度依赖于安全示例库的质量和覆盖面。
  • 对于高度复杂或模糊的输入,检索机制可能无法精确匹配最佳安全上下文。
  • 引入检索模型会增加一定的计算开销,在高并发场景下需进一步优化。
  • 论文假设“识别新攻击”是已发生的,但在现实中需要自动化手段检测概念漂移。
  • 防御效果高度依赖检索模型 g g g的质量,若攻击者构造“检索规避”样本,系统可能失效。

Read more

前端 + agent 开发学习路线

背景:团队启动Agent项目,从零开始学习工程化AI开发 感谢ai老师写的学习指南。存档! 引言:从困惑到清晰 最近团队要启动Agent项目,我第一次接触这个概念时,只停留在“接入大模型API+优化Prompt”的浅层理解。经过大量学习和实践探索,我才发现工程化Agent开发是系统化的架构设计,而不仅仅是API调用。 这篇文章记录我从前端视角出发,探索Agent工程化开发的学习路径和实践经验。如果你也是前端/全栈开发者,想要在AI时代找到自己的定位,这篇指南应该能帮到你。 一、认知重塑:什么是工程化Agent? 1.1 我的错误认知 vs 现实 我原来的理解: Agent = 大模型API + Prompt优化 实际上的工程化Agent: Agent = 系统架构 + 可控执行 + 安全审查 + 领域适配 + 可观测性 1.2 Agent的分层架构(医疗场景示例) 你的主战场 任务分解器 工具路由器 记忆管理器 状态监控器

BK7258 x LiveKit WebRTC :从 0 到 1 的端侧适配

BK7258 x LiveKit WebRTC :从 0 到 1 的端侧适配

> 面向对象:做 AI 硬件、语音对讲、智能终端的开发者 > 关键词:BK7258、LiveKit、WebRTC、实时语音、MCP、设备控制 一、为什么是 LiveKit? 在实时语音 AI 场景里,很多团队一开始只关注“音频能不能传”,但真正落地会遇到更多问题:连接稳定性、会话管理、设备控制、Agent 协同、扩展能力等。 LiveKit 的价值就在于:它不仅是传输层,更是一个面向实时 AI Agent 的平台能力层,统一了房间、参与者、媒体轨道和数据通道能力。 官方定位可以概括为:构建 voice / video / physical AI agents 的平台。   二、BK7258

受够了网络反爬?这套 WebTop 方案,让云端 OpenClaw 像真人一样上网

受够了网络反爬?这套 WebTop 方案,让云端 OpenClaw 像真人一样上网

浏览器是网络世界的入口 对于云端部署的 OpenClaw,有一个最大的痛点,就是浏览器没有显示界面,这会对 OpenClaw 的浏览器自动化操作产生很大的影响。 刷知乎、小红书、推特,或者看 Reddit 时,传统的 Headless(无头)浏览器几乎过不了人机验证,也很容易卡在扫码登录界面。 云服务器没有显示器,你连验证码长什么样都看不到,更别提接管操作了。 那么,有没有一种优雅的姿势,让云端的 OpenClaw 拥有一个“有血有肉”的真实桌面浏览器? 就像我们在本地自己电脑上浏览网页一样自由? 既能保留 Cookie 环境,又能在遇到验证码时,让你通过浏览器随时“远程附体”进行人工接管? 我花了几天时间,反复追问 Claude、GPT、Grok、Gemini、Kimi,在我的云服务器上跑通了他们一致推荐的方案:WebTop + Tailscale,并且成功登录谷歌、知乎、小红书等平台。

.社区疫情管理系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

.社区疫情管理系统信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

摘要 在全球新冠疫情持续蔓延的背景下,社区作为疫情防控的基础单元,承担着人员健康监测、物资调配、信息上报等重要职责。传统的人工管理方式效率低下且容易出现数据遗漏,亟需一套高效、智能的社区疫情管理系统,以实现信息的快速采集、处理和共享。该系统能够帮助社区工作人员实时掌握居民健康状况、疫苗接种情况、外来人员登记等关键信息,提升疫情防控的精准性和响应速度。关键词:新冠疫情、社区管理、健康监测、信息共享、精准防控。 本系统采用前后端分离架构,后端基于SpringBoot框架搭建,提供RESTful API接口,前端使用Vue.js实现动态交互界面,数据库采用MySQL存储数据。系统主要功能包括居民健康信息填报、疫情数据统计分析、物资调度管理、公告发布及权限控制等。通过多角色权限分配,确保社区工作人员、物业管理人员和普通居民能够安全高效地使用系统。系统支持数据可视化展示,便于决策者快速掌握疫情动态。关键词:SpringBoot、Vue.js、MySQL、RESTful API、数据可视化。 数据表设计 居民健康信息数据表 居民健康信息数据表用于存储社区居民的健康状态、疫苗接种记录及行程