VLM Unlearning 有关论文阅读总结与梳理

优质文章学习记录

09 Apr 2026 — 8 min read

文章目录

四、 Neuron Path Editing

五、 MLLM Eraser

前言

本文整理了当前多模态大模型（VLM）中常见的 Unlearning 技术路线，主要包括：

AUVIC
Neuron Pruning
Neuron Path Editing
MLLM Eraser

这些方法的核心目标都是：

让模型“遗忘”指定知识，同时尽量不影响其它知识。

一、什么是 Unlearning

在多模态大模型（Vision-Language Model / VLA）中，我们经常需要：

删除隐私数据
移除不安全知识
删除特定人物或敏感概念
符合法规（GDPR）

但重新训练模型成本非常高，因此提出：Machine Unlearning

即：让模型有选择地忘记某些知识，而不影响其他能力。

在多模态模型中，这件事更困难，因为：

知识分布在视觉 + 文本两个模态
多模态特征高度耦合
单纯 finetune 容易破坏模型能力

因此出现了多种 Unlearning 方法。

二、AUVIC

原文链接：[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

1.核心思想

AUVIC 的目标是：

强迫模型在最困难情况下学会只抑制目标，而不影响相邻概念

具体来说：在 target identity 上答错或 回答模糊；在非目标样本上保持正常回答

2.方法结构

AUVIC 采用 min-max 对抗优化：

\min_{\theta}\ \max_{\phi}\ \mathbb{E}_{x\sim\mathcal{D}}\Big[ \mathcal{L}_{f} + \lambda \mathcal{L}_{p} + \beta \mathcal{L}_{c} \Big]

θ (Vision Tower)

通过 LoRA 微调 来最小化 loss：

目标：降低 target identity 的识别能力

ϕ (Generator)

对输入图像添加扰动

目标：max loss，即生成最困难的样本。

Loss

1️⃣ Forget Loss

\mathcal{L}_{f} = \log p_{\theta}(y^{*}\mid x_{t})

增加 target identity 的预测 loss：logits ↑ → loss ↑

2️⃣ Prediction Consistency Loss

\mathcal{L}_{p} = \left\| \mathrm{logits}_{\mathrm{before}}(x_{t}) - \mathrm{logits}_{\mathrm{after}}(x_{t}) \right\|_{2}^{2}

保证非目标样本的回答准确度

3️⃣ Representation Consistency

\mathcal{L}_{c} = \mathrm{KL}\Big(p_{\theta}(\cdot\mid G(x;\phi ))\ \Big\|\ p_{\theta}(\cdot\mid x)\Big)

保证同一个人的视觉表示在扰动前后要一致

3.方法优势

不破坏相邻概念
对抗训练鲁棒
可用于人脸隐私删除

三、Neuron Pruning

原文链接：[2502.15910] Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models

1.核心思想

不同模态输入会激活 不同的神经元子集

因此可以 剪枝负责 Forget 数据的神经元

2.方法步骤

Step1：检测模态偏置神经元

计算不同模态下的神经元指标：

激活强度差

1️⃣

差异越大 → 越可能是模态专属神经元

激活频率差

2️⃣

差异越大 → 模态专属

激活方差

3️⃣

方差越大 → 信息承载能力越强

RMS 指标

4️⃣

用于惩罚无脑常亮的神经元

Step2：计算 Forget Score

S_{n}=\frac{I(D_{f},n)}{I(D_{r},n)+\epsilon}

其中：

\mathcal{I}(\mathcal{D}, n) := \sum_{k \in \mathcal{K}} I_k(\mathcal{D}, n)

\mathcal{K} = \{I_{\text{abs}}, I_{\text{freq}}, I_{\text{var}}, I_{\text{rms}}\}

= Retain dataset

= Forget dataset

通过计算选取最大的神经元作为selected neurons

Step3：部署 Mask

在 selected neurons 上：

mask = 0

后续推理中永久生效。

3.方法优势

无需重新训练
计算效率高
可解释性强

四、 Neuron Path Editing

原文链接：[2511.06793] Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models

1.核心思想

模型中的知识通常沿着 神经元路径（neuron path）传播

因此 找到关键路径并进行编辑

2.方法步骤

Step1：路径定位

通过 Integrated Gradient 找到关键神经元：

\text{IGI}(\mathbf{w}) = \sum_{j=1}^N \tilde{w}_{i_j}^n \sum_{k=1}^m \sum_{l=1}^N \frac{\partial F_T\left(\frac{k}{m}\alpha_{i_1}^1, \dots, \frac{k}{m}\alpha_{i_N}^N\right)}{\partial w_{i_l}^l}

IGI(w) 表示各层的选取神经元对文本输出的影响。

\text{IFI}(\mathbf{z}) = \sum_{n=1}^N \tilde{z}_{i_n}^n \sum_{k=1}^m \sum_{l=1}^N \left(\frac{\partial \mathbf{G}\left(\frac{k}{m}\beta_{i_1}^1, \dots, \frac{k}{m}\beta_{i_N}^N\right)}{\partial z_{i_l}^l}\right)^2

IFI(z) 表示各层的选取神经元对视觉输出的影响。

Q：为什么要累积梯度？

因为：

神经元对任务的影响可能是非线性的

在某一点梯度可能为0或负值，但在此之前的梯度都很大，都能展现出强相关性

因此需要从

到

逐步累积梯度才能真实反映神经元影响。

Step2：构建关键路径

逐层寻找：

可以满足

的神经元加入现有路径。

Step3：RMisU Path Editing

编辑关键路径对应参数

Loss 设计：

\mathcal{L} = \mathcal{L}_{\text{retain}} + \mathcal{L}^{f}_{\text{RMisU}} + \gamma \mathcal{L}^{r}_{\text{RMisU}}

以这个Loss为损失，只解冻（更新）“关键路径所在的目标层中，与该路径神经元通道直接相关的极少量参数，基本就是一个参数矩阵的一行，和另一个参数矩阵的一列

其中：

1️⃣

\mathcal{L}_{\text{retain}} = \mathbb{E}_{(x^r, y^r) \in D^r} \left[ -\sum_{i=1}^{|y^r|} \log P_{M_{\theta^*}}(y_i^r \mid x^r, y_{<i}^r) \right]

在“保留数据”上，新模型的输出行为仍然是一个正常的语言模型

2️⃣

\mathcal{L}^{f}_{\text{RMisU}} = \mathbb{E}_{x^f \in D^f} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^f) - \mathbf{v}^f \right\|_2^2

在中间层形成的隐藏层表示，必须长得像一个随机噪声向量

3️⃣

\mathcal{L}^{r}_{\text{RMisU}} = \mathbb{E}_{x^r \in D^r} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^r) - \mathbf{h}^{(l)}_{M_\theta}(x^r) \right\|_2^2

在保留集上：新模型在中间层的表示，必须和原模型几乎一模一样

Forget目标

中间隐藏层表示：像随机噪声

Retain目标

在保留数据上：新模型 ≈ 原模型

3.方法优势

精确编辑知识
参数修改极少
保留模型能力

五、 MLLM Eraser

原文链接：[2510.04217] MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering

1.核心思想

通过 向隐藏层添加方向向量：

将模型行为从 knowledge recall 转变为 knowledge erasure

2.方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

使用：

jailbreak prompt
adversarial image

构造能唤起 Recall 行为的输入，得到：

Refusal 行为（不管怎么样模型都无法正常回答问题）

使用：

clean image
blocked prompt

构造能唤起 Refusal 行为的输入，得到：

Step2：计算 Erasure Direction

d_{\text{erase}} = \mathbb{E}\!\left[h_{\text{refusal}}\right] - \mathbb{E}\!\left[h_{\text{recall}}\right]

表示：

从 recall 到 refusal 的方向。

Step3：学习线性门控函数

f(\mathbf{h}) = \mathbf{W} \mathbf{P} \mathbf{h}

\mathbf{W}^* := \arg\min_{\mathbf{W}} \left( \|\mathbf{W} \mathbf{P} \mathbf{H}_f - \mathbf{D}\| + \gamma \|\mathbf{W} \mathbf{P}\| \right)

其中：

P \in \mathbb{R}^{d \times d}, \quad W \in \mathbb{R}^{1 \times d}, \quad D \in \mathbb{R}^{1 \times N_f}

P：投影矩阵
W：映射矩阵

P 的作用

保留与遗忘任务相关的子空间

W 的作用

判断是否触发 erasure

Step4：输入感知 Steering

最终修改隐藏层：

\tilde{h}^{(\ell)} = h^{(\ell)} + \lambda W P h^{(\ell)}

如果

则添加 d_erase

如果：

则保持不变

方法优势

不需要重新训练
推理阶段可控
支持输入感知

ToDesk重磅更新, 硬核-ToClaw AI 实现科技新闻日报自动化实战

一、前言最近发现ToDesk悄悄更新，直接内置了 ToClaw 龙虾AI，真的格外惊喜！之前看中轻量化OpenClaw却被繁琐的本地部署、代码搭建劝退，如今不用任何前置准备，打开就能用。刚好我想做一款省心的每日科技新闻自动播报工具，省去手动搜资讯的麻烦，索性直接实测，从功能上手、实操任务到同类对比，全程分享真实体验，不吹不黑，看看这款桌面AI助手到底好不好用。二、界面与入口最新版ToDesk的 ToClaw 入口设在首页醒目位置，我下载的是4.8.7.1版本。不用翻找多级菜单，打开就能快速定位，上手零难度，点开直接进入交互界面，操作极简高效。启动ToClaw后会自动生成专属悬浮窗，支持全局一键唤醒，不管是办公、整理文件还是使用其他软件，都能随时呼出AI，不用切换界面，日常使用便捷度拉满，实测顺手不耽误手头操作。三、核心架构简单说下ToClaw的底层逻辑，OpenClaw并非独立运算模型，而是轻量化交互载体，负责衔接用户与AI核心算力，不占用过多内存，这也是它轻量化的关键，所有智能处理全靠底层内核支撑，

4步创作革命！WAN2.2极速视频AI重新定义AIGC视频生产流程

4步创作革命！WAN2.2极速视频AI重新定义AIGC视频生产流程【免费下载链接】WAN2.2-14B-Rapid-AllInOne 项目地址: https://ai.gitcode.com/hf_mirrors/Phr00t/WAN2.2-14B-Rapid-AllInOne 价值定位：打破专业壁垒的视频创作新范式在AIGC视频生成领域，创作者长期面临"三高困境"：技术门槛高、硬件要求高、时间成本高。传统工作流往往需要串联文本理解、图像生成、视频插值等多个模型，仅模型加载就需消耗数分钟，且80%以上的失败案例源于模型组合不当。WAN2.2-14B-Rapid-AllInOne（简称WAN2.2极速视频AI）以"一体化模型架构"直击行业痛点，将原本需要10+步骤的创作流程压缩至4个核心环节，在8GB显存设备上实现每分钟视频内容的高效生成。这款由Phr00t团队开发的开源模型，通过"MEGA Merge"

AI绘画隐私保护方案：麦橘超然本地部署实践

AI绘画隐私保护方案：麦橘超然本地部署实践 1. 为什么本地AI绘画正在成为创作者刚需你有没有过这样的经历：输入一段精心构思的提示词，点击生成，几秒后画面出现——但心里却隐隐不安？那些关于人物肖像、产品原型、未发布设计稿的图像，正悄然上传至某个远程服务器，存入不可见的数据库。在AI绘画工具遍地开花的今天，数据不出本地已不再是技术极客的执念，而是职业插画师、独立设计师、品牌视觉负责人的真实工作底线。麦橘超然（MajicFLUX）离线图像生成控制台，正是为这一需求而生。它不是又一个云端API的网页包装，而是一套真正“关上门就能用”的本地解决方案：模型预置、服务自启、全程离线、零网络外传。更关键的是，它不靠牺牲画质换隐私——通过float8量化与CPU卸载双引擎，在RTX 3060（12GB显存）甚至GTX 1660 Super（6GB显存）上，仍能稳定输出1024×1024分辨率、电影级质感的AI图像。这不是理论推演，而是我们连续三周在真实创作场景中验证过的落地路径。下文将完全跳过概念铺垫，直击三个核心问题： * 它如何从根源上切断数据外泄可能？

无需翻墙！国内直连的3款AI绘画工具保姆级教程（含Stable Diffusion替代方案）

无需跨域，触手可及：面向国内创作者的AI绘画工具深度实践指南对于许多创意工作者和数字艺术爱好者而言，AI绘画工具的出现无疑打开了一扇新世界的大门。然而，当热情遭遇网络环境的现实壁垒，那份创作的冲动往往被复杂的配置和连接问题所冷却。我们理解，真正的灵感不应被技术门槛所束缚。因此，本文将聚焦于那些能够在国内网络环境下直接、稳定、高效运行的AI绘画解决方案。无论你是插画师、设计师、社交媒体内容创作者，还是纯粹对AI艺术充满好奇的探索者，这里没有晦涩的术语和繁琐的翻越步骤，只有从零开始、一步到位的实操指南。我们将深入探讨不同工具的特性、本地部署的优劣、云端服务的便捷，以及如何将这些工具无缝融入你的实际工作流，释放被压抑的创造力。 1. 核心工具选择：云端直连与本地部署的权衡在选择AI绘画工具时，我们首先需要明确两个核心路径：云端服务和本地部署。这两条路径在易用性、性能、隐私和成本上各有千秋，理解它们的区别是做出明智选择的第一步。云端服务通常以网页应用或轻量级客户端的形式提供。其最大优势在于 “开箱即用” 。你无需关心复杂的模型下载、显卡驱动或显存大小，只需一个浏览器，注册账号

前言

一、什么是 Unlearning

二、AUVIC

1.核心思想

2.方法结构

θ (Vision Tower)

ϕ (Generator)

Loss

1️⃣ Forget Loss

2️⃣ Prediction Consistency Loss

3️⃣ Representation Consistency

3.方法优势

三、Neuron Pruning

1.核心思想

2.方法步骤

Step1：检测模态偏置神经元

激活强度差

激活频率差

激活方差

RMS 指标

Step2：计算 Forget Score

Step3：部署 Mask

3.方法优势

四、 Neuron Path Editing

1.核心思想

2.方法步骤

Step1：路径定位

Q：为什么要累积梯度？

Step2：构建关键路径

Step3：RMisU Path Editing

Forget目标

Retain目标

3.方法优势

五、 MLLM Eraser

1.核心思想

2.方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

Refusal 行为（不管怎么样模型都无法正常回答问题）

Step2：计算 Erasure Direction

Step3：学习线性门控函数

P 的作用

W 的作用

Step4：输入感知 Steering

方法优势

Read more

ToDesk重磅更新, 硬核-ToClaw AI 实现科技新闻日报自动化实战

4步创作革命！WAN2.2极速视频AI重新定义AIGC视频生产流程

AI绘画隐私保护方案：麦橘超然本地部署实践

无需翻墙！国内直连的3款AI绘画工具保姆级教程（含Stable Diffusion替代方案）