跳转至

An Information Theoretic Evaluation Metric for Strong Unlearning

会议: AAAI 2026
arXiv: 2405.17878
代码: 待确认
领域: AI安全/机器遗忘
关键词: 机器遗忘, 互信息, 白盒评估, IDI指标, COLA方法

一句话总结

揭示现有黑盒遗忘评估指标(MIA/JSD等)的根本缺陷——仅修改最后一层即可满足所有黑盒指标但中间层完整保留遗忘数据信息,提出IDI白盒指标通过InfoNCE估计各层与遗忘标签的互信息差异来量化遗忘效果,并提出COLA方法在CIFAR-10/100和ImageNet-1K上实现接近Retrain的IDI得分。

研究背景与动机

  • 领域现状:机器遗忘(MU)旨在从训练好的模型中移除特定数据的影响,满足"被遗忘权"等法规要求。理想的强遗忘要求遗忘后的模型与从头重新训练(不含遗忘数据)的模型不可区分。但从头重训开销巨大,研究重点转向近似遗忘方法。
  • 核心痛点:现有评估主要依赖黑盒指标——成员推理攻击(MIA)和准确率对比,这些指标仅考察模型输出,无法捕捉中间层中残留的遗忘数据信息。更关键的是,缺乏可靠的白盒指标来验证强遗忘。
  • 核心矛盾:本文通过一个简单实验揭示了根本问题——Head Distillation(HD)仅修改最后一层分类头(冻结所有编码器层),通过蒸馏使输出匹配重训模型的分布,就能在所有黑盒指标上表现优异(MIA得分甚至最佳)。然而编码器与原始模型完全相同,遗忘数据的信息100%保留。这证明黑盒指标无法评估强遗忘。
  • 切入角度:受信息瓶颈原理启发(DNN越深层信息越压缩),用互信息量化各层特征与遗忘标签之间的残留信息——如果遗忘成功,中间层的互信息应接近重训模型。

方法详解

整体框架

提出两个核心贡献:(1) IDI(Information Difference Index)白盒指标——逐层估计模型特征与遗忘标签的互信息,计算遗忘模型相对于原始模型的信息去除比例;(2) COLA(COLapse-and-Align)遗忘方法——先坍塌遗忘集特征使其不可区分,再对齐保留集特征恢复性能。

关键设计

  1. IDI指标的互信息估计

    • 做什么:估计模型各层特征 \(\mathbf{Z}_\ell\) 与遗忘标签 \(Y\) 之间的互信息 \(I(\mathbf{Z}_\ell; Y)\)
    • 核心思路:使用InfoNCE下界estimator,为每层定义critic函数 \(f_{\nu_\ell}\)\(g_{\eta_\ell}\)\(f_{\nu_\ell}\) 复用模型第 \(\ell+1\)\(L\) 层加投影层作为特征提取器,\(g_{\eta_\ell}\) 将二元标签建模为两个可训练向量。最大化InfoNCE损失得到MI估计
    • 设计动机:模型特有的critic设计(复用后续层)使得MI估计是模型无关的——相同的估计流程适用于ResNet、ViT等不同架构,无需为每种架构重新设计
  2. IDI得分计算

    • 对遗忘模型 \(\theta_u\) 计算信息差异 \(ID(\theta_u) = \sum_{\ell=1}^{L} \max(0, I_{\theta_u}(\mathbf{Z}_\ell; Y) - I_{\theta_r}(\mathbf{Z}_\ell; Y))\)
    • 对原始模型 \(\theta_o\) 也计算 \(ID(\theta_o)\)
    • IDI得分 = \(ID(\theta_u) / ID(\theta_o)\),值域[0,1],越接近0表示遗忘越彻底
    • Retrain的IDI理论为0;原始模型的IDI为1
  3. Head Distillation实验揭示黑盒指标缺陷

    • 冻结编码器,仅重新训练最后一层分类头
    • 用KL散度蒸馏使输出分布匹配一个遗忘类logit设为负无穷的伪重训模型
    • 结果:MIA和JSD等黑盒指标表现最佳之一,但IDI=1.000(信息完全保留)
    • 进一步验证:用遗忘模型的冻结编码器+仅2%训练数据重训分类头,HD编码器可恢复82%+遗忘类准确率(vs Retrain仅41%),直接证明信息残留
  4. COLA遗忘方法

    • 做什么:在特征层面消除遗忘集信息
    • Collapse阶段:将遗忘集在编码器层的特征坍塌——使遗忘集样本的特征与保留集不可区分
    • Align阶段:对齐保留集特征恢复任务性能
    • 在CIFAR-10/ResNet-18上IDI=0.010(vs Retrain的0.0),MIA=12.64(接近Retrain的10.64)

损失函数/训练策略

  • IDI计算中InfoNCE的critic网络独立训练(SGD优化器),使用遗忘集(Y=1)和保留集(Y=0)
  • COLA方法在特征层面操作,无需完整重训
  • 实验覆盖:CIFAR-10/100 + ImageNet-1K,ResNet-18/50 + ViT架构
  • 遗忘场景:单类遗忘 + 多类遗忘(5/10类)+ 随机数据遗忘

实验关键数据

主实验表格(CIFAR-10 单类遗忘,ResNet-18)

方法 UA↑ TA MIA(距Retrain越近越好) IDI(↓, 0最优) RTE
Retrain 100.0 95.64 10.64 0.0 154.56min
HD 100.0 95.22 2.05 1.000 0.10min
SALUN 100.0 95.42 0.01 0.936 3.54min
RL 99.93 95.66 0.0 0.830 3.09min
SCRUB 100.0 95.37 19.73 -0.056 3.49min
COLA 100.0 95.36 12.64 0.010 4.91min

消融实验——各层MI可视化

遗忘方法 浅层MI特征 深层MI特征 IDI评估
Retrain 低MI(信息散乱) 低MI 0.0(基准)
Original/HD 高MI(完整保留) 高MI 1.0(未遗忘)
GA 低MI(接近Retrain) 低MI 0.334(较好)
SALUN 高MI(接近Original) 高MI 0.936(几乎未遗忘)
COLA 低MI(接近Retrain) 低MI 0.010(最佳)

关键发现

  • HD在黑盒指标上"完美"但IDI=1.0:最有力地证明了黑盒指标不可靠——仅看输出无法判断模型是否真正遗忘
  • SALUN尽管黑盒表现优秀,IDI=0.936:说明SALUN的遗忘主要发生在输出层面,中间层几乎完整保留了遗忘数据信息
  • 2%数据即可从"遗忘"编码器恢复82%精度:对SALUN、RL等方法,冻结编码器仅用少量数据就能重建遗忘能力,这对安全合规是严重风险
  • COLA的IDI=0.010接近Retrain的0.0:证明特征层面的坍塌策略可以有效消除中间层信息残留
  • IDI在跨架构(ResNet/ViT)和跨数据集(CIFAR/ImageNet)上行为一致:指标具有良好的通用性

亮点与洞察

  • "HD实验"是本文最有洞察力的部分:用一个极简操作(仅改分类头)就暴露了整个领域评估体系的漏洞——当黑盒指标可以被如此轻松欺骗时,所有基于黑盒指标的遗忘效果声称都变得不可信
  • 互信息作为遗忘评估指标的自然性:MI直接度量"模型还保留了多少关于遗忘数据的信息"——这恰好就是强遗忘的定义。黑盒指标只是这个目标的不完整代理
  • COLA方法的启示:如果要在特征层面彻底遗忘,仅做梯度上升(GA)或显著性掩码(SALUN)不够——需要显式地坍塌特征表示

局限性 / 可改进方向

  • IDI计算需要为每层训练独立的critic网络,开销较大(每种设置需要在5个trial上平均)
  • InfoNCE作为MI的下界估计可能不够紧,特别是当真实MI较高时
  • COLA方法的坍塌操作可能在随机数据遗忘(非类级遗忘)场景下效果有限
  • 仅讨论了分类任务,生成模型(如扩散模型、LLM)的遗忘评估场景未覆盖

相关工作与启发

  • vs. 黑盒MIA指标:MIA只检测"模型输出是否暴露成员信息",无法检测中间层的信息残留;IDI直接度量各层互信息,更根本
  • vs. SALUN/L1-sparse等SOTA遗忘方法:这些方法在黑盒指标上表现好但IDI揭示了它们的编码器仍大量保留遗忘信息——为遗忘领域提供了重要的警示

评分

  • 新颖性: ⭐⭐⭐⭐⭐ HD实验揭示黑盒指标缺陷是重大发现,IDI指标填补了白盒评估的空白
  • 实验充分度: ⭐⭐⭐⭐⭐ 14种遗忘方法×3数据集×2架构,单类/多类/随机遗忘全覆盖
  • 写作质量: ⭐⭐⭐⭐ 从问题揭示到指标设计到方法提出的逻辑链清晰
  • 价值: ⭐⭐⭐⭐⭐ 对整个机器遗忘领域的评估范式有重大影响——后续所有遗忘方法都应该报告IDI