VLM Unlearning 有关论文阅读总结与梳理

优质文章学习记录

07 Apr 2026 — 8 min read

文章目录

四、 Neuron Path Editing

五、 MLLM Eraser

前言

本文整理了当前多模态大模型（VLM）中常见的 Unlearning 技术路线，主要包括：

AUVIC
Neuron Pruning
Neuron Path Editing
MLLM Eraser

这些方法的核心目标都是：

让模型“遗忘”指定知识，同时尽量不影响其它知识。

一、什么是 Unlearning

在多模态大模型（Vision-Language Model / VLA）中，我们经常需要：

删除隐私数据
移除不安全知识
删除特定人物或敏感概念
符合法规（GDPR）

但重新训练模型成本非常高，因此提出：Machine Unlearning

即：让模型有选择地忘记某些知识，而不影响其他能力。

在多模态模型中，这件事更困难，因为：

知识分布在视觉 + 文本两个模态
多模态特征高度耦合
单纯 finetune 容易破坏模型能力

因此出现了多种 Unlearning 方法。

二、AUVIC

原文链接：[2511.11299] AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models

1.核心思想

AUVIC 的目标是：

强迫模型在最困难情况下学会只抑制目标，而不影响相邻概念

具体来说：在 target identity 上答错或 回答模糊；在非目标样本上保持正常回答

2.方法结构

AUVIC 采用 min-max 对抗优化：

\min_{\theta}\ \max_{\phi}\ \mathbb{E}_{x\sim\mathcal{D}}\Big[ \mathcal{L}_{f} + \lambda \mathcal{L}_{p} + \beta \mathcal{L}_{c} \Big]

θ (Vision Tower)

通过 LoRA 微调 来最小化 loss：

目标：降低 target identity 的识别能力

ϕ (Generator)

对输入图像添加扰动

目标：max loss，即生成最困难的样本。

Loss

1️⃣ Forget Loss

\mathcal{L}_{f} = \log p_{\theta}(y^{*}\mid x_{t})

增加 target identity 的预测 loss：logits ↑ → loss ↑

2️⃣ Prediction Consistency Loss

\mathcal{L}_{p} = \left\| \mathrm{logits}_{\mathrm{before}}(x_{t}) - \mathrm{logits}_{\mathrm{after}}(x_{t}) \right\|_{2}^{2}

保证非目标样本的回答准确度

3️⃣ Representation Consistency

\mathcal{L}_{c} = \mathrm{KL}\Big(p_{\theta}(\cdot\mid G(x;\phi ))\ \Big\|\ p_{\theta}(\cdot\mid x)\Big)

保证同一个人的视觉表示在扰动前后要一致

3.方法优势

不破坏相邻概念
对抗训练鲁棒
可用于人脸隐私删除

三、Neuron Pruning

原文链接：[2502.15910] Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models

1.核心思想

不同模态输入会激活 不同的神经元子集

因此可以 剪枝负责 Forget 数据的神经元

2.方法步骤

Step1：检测模态偏置神经元

计算不同模态下的神经元指标：

激活强度差

1️⃣

差异越大 → 越可能是模态专属神经元

激活频率差

2️⃣

差异越大 → 模态专属

激活方差

3️⃣

方差越大 → 信息承载能力越强

RMS 指标

4️⃣

用于惩罚无脑常亮的神经元

Step2：计算 Forget Score

S_{n}=\frac{I(D_{f},n)}{I(D_{r},n)+\epsilon}

其中：

\mathcal{I}(\mathcal{D}, n) := \sum_{k \in \mathcal{K}} I_k(\mathcal{D}, n)

\mathcal{K} = \{I_{\text{abs}}, I_{\text{freq}}, I_{\text{var}}, I_{\text{rms}}\}

= Retain dataset

= Forget dataset

通过计算选取最大的神经元作为selected neurons

Step3：部署 Mask

在 selected neurons 上：

mask = 0

后续推理中永久生效。

3.方法优势

无需重新训练
计算效率高
可解释性强

四、 Neuron Path Editing

原文链接：[2511.06793] Cross-Modal Unlearning via Influential Neuron Path Editing in Multimodal Large Language Models

1.核心思想

模型中的知识通常沿着 神经元路径（neuron path）传播

因此 找到关键路径并进行编辑

2.方法步骤

Step1：路径定位

通过 Integrated Gradient 找到关键神经元：

\text{IGI}(\mathbf{w}) = \sum_{j=1}^N \tilde{w}_{i_j}^n \sum_{k=1}^m \sum_{l=1}^N \frac{\partial F_T\left(\frac{k}{m}\alpha_{i_1}^1, \dots, \frac{k}{m}\alpha_{i_N}^N\right)}{\partial w_{i_l}^l}

IGI(w) 表示各层的选取神经元对文本输出的影响。

\text{IFI}(\mathbf{z}) = \sum_{n=1}^N \tilde{z}_{i_n}^n \sum_{k=1}^m \sum_{l=1}^N \left(\frac{\partial \mathbf{G}\left(\frac{k}{m}\beta_{i_1}^1, \dots, \frac{k}{m}\beta_{i_N}^N\right)}{\partial z_{i_l}^l}\right)^2

IFI(z) 表示各层的选取神经元对视觉输出的影响。

Q：为什么要累积梯度？

因为：

神经元对任务的影响可能是非线性的

在某一点梯度可能为0或负值，但在此之前的梯度都很大，都能展现出强相关性

因此需要从

到

逐步累积梯度才能真实反映神经元影响。

Step2：构建关键路径

逐层寻找：

可以满足

的神经元加入现有路径。

Step3：RMisU Path Editing

编辑关键路径对应参数

Loss 设计：

\mathcal{L} = \mathcal{L}_{\text{retain}} + \mathcal{L}^{f}_{\text{RMisU}} + \gamma \mathcal{L}^{r}_{\text{RMisU}}

以这个Loss为损失，只解冻（更新）“关键路径所在的目标层中，与该路径神经元通道直接相关的极少量参数，基本就是一个参数矩阵的一行，和另一个参数矩阵的一列

其中：

1️⃣

\mathcal{L}_{\text{retain}} = \mathbb{E}_{(x^r, y^r) \in D^r} \left[ -\sum_{i=1}^{|y^r|} \log P_{M_{\theta^*}}(y_i^r \mid x^r, y_{<i}^r) \right]

在“保留数据”上，新模型的输出行为仍然是一个正常的语言模型

2️⃣

\mathcal{L}^{f}_{\text{RMisU}} = \mathbb{E}_{x^f \in D^f} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^f) - \mathbf{v}^f \right\|_2^2

在中间层形成的隐藏层表示，必须长得像一个随机噪声向量

3️⃣

\mathcal{L}^{r}_{\text{RMisU}} = \mathbb{E}_{x^r \in D^r} \left\| \mathbf{h}^{(l)}_{M_{\theta^*}}(x^r) - \mathbf{h}^{(l)}_{M_\theta}(x^r) \right\|_2^2

在保留集上：新模型在中间层的表示，必须和原模型几乎一模一样

Forget目标

中间隐藏层表示：像随机噪声

Retain目标

在保留数据上：新模型 ≈ 原模型

3.方法优势

精确编辑知识
参数修改极少
保留模型能力

五、 MLLM Eraser

原文链接：[2510.04217] MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering

1.核心思想

通过 向隐藏层添加方向向量：

将模型行为从 knowledge recall 转变为 knowledge erasure

2.方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

使用：

jailbreak prompt
adversarial image

构造能唤起 Recall 行为的输入，得到：

Refusal 行为（不管怎么样模型都无法正常回答问题）

使用：

clean image
blocked prompt

构造能唤起 Refusal 行为的输入，得到：

Step2：计算 Erasure Direction

d_{\text{erase}} = \mathbb{E}\!\left[h_{\text{refusal}}\right] - \mathbb{E}\!\left[h_{\text{recall}}\right]

表示：

从 recall 到 refusal 的方向。

Step3：学习线性门控函数

f(\mathbf{h}) = \mathbf{W} \mathbf{P} \mathbf{h}

\mathbf{W}^* := \arg\min_{\mathbf{W}} \left( \|\mathbf{W} \mathbf{P} \mathbf{H}_f - \mathbf{D}\| + \gamma \|\mathbf{W} \mathbf{P}\| \right)

其中：

P \in \mathbb{R}^{d \times d}, \quad W \in \mathbb{R}^{1 \times d}, \quad D \in \mathbb{R}^{1 \times N_f}

P：投影矩阵
W：映射矩阵

P 的作用

保留与遗忘任务相关的子空间

W 的作用

判断是否触发 erasure

Step4：输入感知 Steering

最终修改隐藏层：

\tilde{h}^{(\ell)} = h^{(\ell)} + \lambda W P h^{(\ell)}

如果

则添加 d_erase

如果：

则保持不变

方法优势

不需要重新训练
推理阶段可控
支持输入感知

Cogito-v1-preview-llama-3B惊艳表现：128k长文本中精准定位跨段落逻辑矛盾

Cogito-v1-preview-llama-3B惊艳表现：128k长文本中精准定位跨段落逻辑矛盾你有没有遇到过这样的情况？读完一篇很长的报告或文章，总觉得哪里不对劲，前后说法好像有点矛盾，但又说不清楚具体是哪两句话冲突了。或者，在审核一份复杂的合同时，需要逐字逐句地比对不同条款之间是否存在隐藏的逻辑漏洞。过去，这种工作只能靠人工完成，不仅耗时耗力，还容易因为疲劳而遗漏关键问题。但现在，有一个专门为此而生的AI模型出现了——Cogito-v1-preview-llama-3B。这个仅有30亿参数的小模型，却拥有一个令人惊叹的“超能力”：它能在长达128k字符的文本中，像侦探一样精准地找出跨越多个段落的逻辑矛盾。今天，我就带你深入了解这个模型的强大之处，看看它是如何工作的，以及你能用它来做什么。 1. 认识Cogito：不只是聊天，更擅长“思考” 你可能用过很多AI聊天模型，它们能回答问题、写文章、写代码，表现都很不错。但Cogito系列模型有些不一样——它们被设计成“会思考的AI”。 1.1 什么是混合推理模型？简单来说，Cogito模型有两种工作模式：标

无脑通过github上copilot学生认证的方法(无需校园网，无需学生证)

最近在家尝试通过github上的copilot的学生认证，总是不能过。好在经过了12次尝试后，终于总结了一套无需校园网，无需学生证的目前有效的无脑通过方法，希望能对不方便的同学们有所帮助。（注：本文旨在帮助有需求却因为种种情况难以被识别成功的同学，对非学生人士的认证情况概不负责）一、注册github账号这里就不细说了，想要通过copilot的大部分都有github账号，如果没有的话可以去网上搜一下。二、2FA认证通过认证网址不是本文的重点，在此引用其他博主的内容：从0开始的github学生认证并使用copilot教程（超详细！）_github copilot-ZEEKLOG博客或者一个博客： [Git] 一次搞定：Github 2FA(Two-Factor Authentication/两因素认证) - 千千寰宇 - 博客园特殊情况值得注意的是，我在申请2FA时，发生了一个特殊情况——github上的二维码全是白色，没有显示出来，那就不要扫码，下面有一行字：unable to scan……，直接点里面的setup key链接就好了。三

VsCode 远程连接后，Github Copilot 代码提示消失？排查流程分享

VS Code 远程连接后 GitHub Copilot 失效排查流程当使用 VS Code 远程开发时遇到 Copilot 代码提示消失，可按以下步骤排查： 1. 验证远程环境插件状态 * 在远程连接的 VS Code 中打开扩展面板 (Ctrl+Shift+X) * 确认 GitHub Copilot 和 GitHub Copilot Chat 扩展已安装且启用 * 检查扩展图标状态： * 正常状态：状态栏右下角显示 Copilot 图标 * 异常状态：图标灰显或出现警告三角 2. 检查网络连接 # 在远程终端测试 Copilot 服务连通性 ping copilot-proxy.githubusercontent.com curl -v https://api.

开源大模型深度研究报告：LLaMA 2_3、Qwen与DeepSeek技术对比分析

开源大模型LLaMA 2/3、Qwen 与 DeepSeek 技术对比分析研究背景与目标 2025 年，开源大模型生态正经历前所未有的技术爆发期。以 Meta 的 LLaMA 系列、阿里巴巴的 Qwen 系列和 DeepSeek 公司的 DeepSeek-R1 为代表的三大开源模型体系，在技术架构、训练方法和应用性能方面展现出各自独特的创新路径(164)。这些模型不仅在学术研究领域发挥着重要作用，更在企业级应用、边缘计算和多模态处理等场景中展现出巨大潜力。本研究报告旨在全面分析 LLaMA 2/3、Qwen 和 DeepSeek 三大开源模型的技术特点、性能表现和应用价值，为研究者和工程师提供系统性的技术对比分析。通过深入剖析各模型的架构设计、训练策略和实际部署成本，本报告将帮助读者理解不同模型的技术优势和适用场景，为模型选择和应用部署提供决策参考。一、三大开源模型技术架构深度解析 1.1 LLaMA 3 系列架构创新

前言

一、什么是 Unlearning

二、AUVIC

1.核心思想

2.方法结构

θ (Vision Tower)

ϕ (Generator)

Loss

1️⃣ Forget Loss

2️⃣ Prediction Consistency Loss

3️⃣ Representation Consistency

3.方法优势

三、Neuron Pruning

1.核心思想

2.方法步骤

Step1：检测模态偏置神经元

激活强度差

激活频率差

激活方差

RMS 指标

Step2：计算 Forget Score

Step3：部署 Mask

3.方法优势

四、 Neuron Path Editing

1.核心思想

2.方法步骤

Step1：路径定位

Q：为什么要累积梯度？

Step2：构建关键路径

Step3：RMisU Path Editing

Forget目标

Retain目标

3.方法优势

五、 MLLM Eraser

1.核心思想

2.方法步骤

Step1：构造两类输入

Recall 行为（模型还能被尝试着唤醒对问题的正确回答）

Refusal 行为（不管怎么样模型都无法正常回答问题）

Step2：计算 Erasure Direction

Step3：学习线性门控函数

P 的作用

W 的作用

Step4：输入感知 Steering

方法优势

Read more

Cogito-v1-preview-llama-3B惊艳表现：128k长文本中精准定位跨段落逻辑矛盾

无脑通过github上copilot学生认证的方法(无需校园网，无需学生证)

VsCode 远程连接后，Github Copilot 代码提示消失？排查流程分享

开源大模型深度研究报告：LLaMA 2_3、Qwen与DeepSeek技术对比分析