Modality-Aware Neuron Pruning for Unlearning in Multimodal Large Language Models¶

会议: ACL 2025 (Long Paper)
arXiv: 2502.15910
代码: GitHub
领域: AI安全 / 多模态VLM
关键词: 机器遗忘, MLLM, 神经元剪枝, 模态感知, 隐私保护

一句话总结¶

提出 MANU——首个模态感知的 MLLM 遗忘框架，通过四种互补的神经元重要性函数（绝对/频率/方差/RMS）识别跨模态纠缠的知识载体神经元，选择性剪枝 top-α% 神经元实现多模态和纯文本输入下的均衡遗忘，无需任何梯度更新。

研究背景与动机¶

MLLM 训练在海量数据上不可避免地记忆敏感信息。 LLM 和 MLLM 的卓越能力源于大规模数据的预训练和微调，但这也带来隐私泄露和版权侵犯的风险。从头重新训练排除敏感数据计算成本过高，因此机器遗忘（Machine Unlearning）成为高效替代方案。

现有 LLM 遗忘方法在 MLLM 上出现严重的模态不平衡问题。 Liu et al. (2024e) 揭示了一个关键发现：将 LLM 的遗忘方法（如 Gradient Ascent、Gradient Difference）直接应用到 MLLM 时，多模态输入（图+文）下的知识被成功遗忘，但纯文本输入下的同一知识仍然保留。例如，模型可能忘记了"看到这个人的照片后说出其名字"，但仍然能通过纯文本描述回答"这个人是谁"。

根本原因在于模态纠缠的知识表示。 不同模态的输入激活不同的神经元子集——多模态遗忘只影响了处理图文联合输入的神经元路径，而处理纯文本输入的神经元路径未被触及。热力图可视化清楚地展示了这种模态特异性的激活模式。

MANU 的核心 idea：通过模态感知的神经元分析和选择性剪枝，同时移除两条模态路径上与目标知识相关的神经元。 这是首个专门为 MLLM 跨模态遗忘设计的框架，且完全不需要梯度更新（training-free）。

方法详解¶

整体框架¶

MANU 分两阶段：阶段一（重要神经元选择）——将 forget set 和 retain set 分别转换为纯文本和多模态两种格式，前向传播收集所有 MLP 层的神经元激活统计，用四种重要性函数评估每个神经元的模态特异性贡献；阶段二（选择性剪枝）——用评分函数 \(S_n\) 综合 forget vs retain 的相对重要性，剪枝 top-α% 神经元（权重置零）。

关键设计¶

四种模态感知神经元重要性函数:
- 功能：从四个互补角度评估每个神经元在不同模态下的行为差异
- 核心思路：
  - 绝对重要性 \(I_{\text{abs}} = \frac{|\bar{Z}_{\text{multi}} - \bar{Z}_{\text{text}}|}{\bar{Z}_{\text{multi}} + \bar{Z}_{\text{text}} + \epsilon}\)——衡量激活幅度的模态差异（归一化），捕获哪些神经元在不同模态下有截然不同的激活强度
  - 频率重要性 \(I_{\text{freq}} = \frac{|N_{\text{multi}} - N_{\text{text}}|}{N_{\text{multi}} + N_{\text{text}} + \epsilon}\)——衡量神经元在不同模态下被激活（超过阈值 \(\tau\)）的频率差异，捕获一致性而非幅度
  - 方差重要性 \(I_{\text{var}} = \sqrt{\text{Var}_{\text{multi}} + \text{Var}_{\text{text}}}\)——基于信息论原则，激活模式多样的神经元携带更多信息
  - RMS 重要性 \(I_{\text{rms}} = \sqrt{\frac{|\Delta Z^2|}{\Sigma Z^2 + \epsilon}}\)——识别持续强激活且模态特异的神经元，过滤冗余的"无差别激活"神经元
- 设计动机：单一指标不足以全面捕获模态特异性——幅度、频率、多样性、持续强度四个维度互补。四种函数的加和 \(\mathcal{I}(\mathcal{D}, n) = \sum_{k \in \mathcal{K}} I_k(\mathcal{D}, n)\) 构成综合重要性度量
相对重要性评分（Forget vs Retain）:
- 功能：确保剪枝的神经元主要服务于遗忘知识而非保留知识
- 核心思路：评分函数取 forget 和 retain 重要性的比值：\(S_n = \frac{\mathcal{I}(\mathcal{D}_f, n)}{\mathcal{I}(\mathcal{D}_r, n) + \epsilon}\)。高分意味着该神经元对遗忘数据远比对保留数据重要
- 设计动机：如果仅看绝对重要性，可能误剪与通用知识相关的神经元。比值设计确保"精准手术"——只移除服务于特定遗忘目标的神经元
选择性剪枝——权重置零:
- 功能：将 top-α% 评分最高的神经元权重设为零，应用于语言和视觉 MLP 层
- 核心思路：选择集合 \(\mathcal{N} = \{n : S_n \text{ is among top } \alpha\%\}\)，设置 \(\theta' = 0\) if \(n \in \mathcal{N}\)
- 设计动机：权重置零是最简单的剪枝方式，无需梯度更新——整个过程仅需一次前向传播收集激活统计

损失函数 / 训练策略¶

完全无需训练（training-free）。 仅需一次前向传播收集 forget set 和 retain set 的激活统计，然后执行剪枝。在 LLaVA-1.5-7B 和 Idefics2-8B 上验证，使用 3 张 NVIDIA A6000 GPU。

实验关键数据¶

主实验——MLLMU-Bench 上遗忘效果（LLaVA-1.5-7B, 5% Forget）¶

方法	Forget 分类准确率 ↓	Forget ROUGE ↓	Retain 分类准确率 ↑	Retain ROUGE ↑	Real Celebrity 分类 ↑
Vanilla（无遗忘）	51.70%	0.645	46.11%	0.632	51.80%
GA	44.40%	0.485	39.09%	0.495	45.56%
Grad. Diff.	43.60%	0.507	41.07%	0.508	46.52%
NPO	45.61%	0.525	42.61%	0.515	49.51%
MANU	41.25%	0.491	43.38%	0.542	49.57%

MANU 在遗忘效果（Forget集↓）和保留能力（Retain/Celebrity集↑）之间取得最佳平衡。

消融实验¶

配置	Forget 效果	Retain 保留	说明
仅 \(I_{\text{abs}}\)	有效	较好	单一指标也有效
仅 \(I_{\text{freq}}\)	有效	较好	一致性视角互补
四种组合	最优	最优	多维度互补最全面
α=1%	遗忘不充分	保留最好	剪枝太少
α=3%	最优平衡	较好	最苋区间
α=10%	遗忘最强	损害通用能力	剪枝过多

关键发现¶

模态不平衡问题确认：热力图明确可视化——GA/Gradient Difference 在多模态输入下遗忘有效（图 2b 颜色浅），但在纯文本输入下知识仍然保留（图 2a 颜色深）
GA 类方法虽然遗忘效果有时优于 MANU，但以严重损害模型通用能力为代价——在 Retain Set 和 Real Celebrity Set 上性能大幅下降
最优剪枝比例 α 在 1-5% 之间，过多剪枝损害通用能力
MANU 在 LLaVA-1.5-7B 和 Idefics2-8B 上表现一致，具备跨模型泛化能力
MMMU 和 LLaVA-Bench 上 MANU 的通用能力下降最小

亮点与洞察¶

揭示并系统化了 MLLM 遗忘的新问题：模态不平衡以前未被正式研究，热力图可视化提供了直观证据
完全无需训练的遗忘方法：仅一次前向传播 + 统计 + 剪枝，极低计算成本
四种重要性函数的互补设计：从幅度/频率/方差/RMS 四个维度全面捕获模态特异性
Forget/Retain 比值评分：精准手术式剪枝，最小化对保留知识的误伤

局限与展望¶

仅在虚构人物遗忘场景验证，未测试概念级遗忘（如特定技能或知识域）
剪枝（权重置零）是粗粒度操作，更精细的权重修改（如缩放/衰减）可能更优
仅在 7B/8B 模型上验证，更大模型中神经元的模态角色分工可能不同
四种重要性函数的权重为等权加和，未探索自适应权重或学习权重
未探讨遗忘鲁棒性——遗忘后模型能否通过微调重新学会被遗忘的知识

评分¶

新颖性: ⭐⭐⭐⭐ 首个模态感知的 MLLM 遗忘框架，四重要性函数设计系统全面
实验充分度: ⭐⭐⭐⭐ 双模型验证（LLaVA/Idefics2）、多种遗忘比例、详细消融和热力图可视化
写作质量: ⭐⭐⭐⭐ 动机通过热力图直观论证，方法公式化清晰
价值: ⭐⭐⭐⭐ 对 AI 安全和隐私保护有直接应用价值，揭示的模态不平衡现象有认知意义