跳转至

The Unseen Threat: Residual Knowledge in Machine Unlearning under Perturbed Samples

会议: NeurIPS 2025
arXiv: 2601.22359
代码: 待确认
领域: AI Safety / 机器遗忘
关键词: 机器遗忘, 残余知识, 扰动样本, 对抗鲁棒性, RURK

一句话总结

发现机器遗忘的关键安全漏洞:即使遗忘后的模型在统计意义上与重训练模型不可区分,对遗忘样本施加微小对抗扰动后,遗忘模型仍能正确识别而重训练模型则失败——揭示了"残余知识"这一新型隐私风险。提出 RURK 微调策略,通过惩罚对扰动遗忘样本的正确预测来消除残余知识,在 CIFAR-10 和 ImageNet-100 上有效抑制 11 种遗忘方法的残余知识。

研究背景与动机

领域现状:机器遗忘(machine unlearning)旨在从训练好的模型中高效删除特定数据的影响,作为全量重训练的替代方案。现有方法(CR/Fisher/NTK/GA/SCRUB/SSD 等)的标准验证方式是证明遗忘后模型与重训练模型满足 \((\epsilon, \delta)\)-不可区分性。

现有痛点\((\epsilon, \delta)\)-不可区分性仅保证模型在原始样本上的行为一致,但不保证在输入的局部邻域内也一致。这意味着:遗忘后的模型和重训练模型可能在同一个遗忘样本上给出相同预测,但对该样本的微小扰动给出不同预测。

核心矛盾:一个特别危险的情况是——遗忘样本的微小扰动仍能被遗忘模型正确分类,而重训练模型(从未见过该数据)则无法正确分类。这说明遗忘模型在遗忘样本的决策边界附近保留了信息痕迹。

本文目标 (a)形式化定义"残余知识"这一新型隐私风险;(b)理论证明在高维空间中此类分歧不可避免;(c)提出缓解方案。

切入角度:结合对抗鲁棒性和机器遗忘——用对抗样本作为"探针"检测遗忘是否彻底。

核心 idea:遗忘的安全标准不应只看模型在原始样本上的统计不可区分性,还要看在其局部邻域内是否也不可区分——通过惩罚遗忘模型对扰动遗忘样本的正确预测来消除残余知识。

方法详解

整体框架

分三步:(1)揭示问题:理论和实验证明现有遗忘方法在扰动样本上存在残余知识;(2)形式化度量:定义残余知识比 \(r_\tau((x,y))\);(3)提出 RURK 微调策略消除残余知识。

关键设计

  1. 残余知识比(Residual Knowledge Ratio)

    • 功能:量化遗忘模型相对于重训练模型在遗忘样本邻域内的信息保留程度
    • 核心思路:\(r_\tau((x,y)) = \frac{\Pr[m(x')=y]}{\Pr[a(x')=y]}\),其中 \(m\) 是遗忘模型,\(a\) 是重训练模型,\(x' \sim \mathcal{B}_p(x, \tau)\) 从邻域内采样。\(r_\tau > 1\) 表示遗忘模型比重训练模型更能正确识别扰动样本——说明存在残余知识
    • 设计动机:直接用 adversarial disagreement 指标计算复杂(需枚举所有输出组合),残余知识比更可操作且提供了对分歧的上下界
  2. 理论保证(Proposition 2: 不可避免的分歧)

    • 功能:证明在满足 \((\epsilon, \delta)\)-遗忘的前提下,对抗扰动导致的分歧仍然不可避免
    • 核心思路:在单位球 \(\mathbb{S}^{d-1}\) 上,利用等周不等式证明——即使模型在原始样本上一致,小扰动就能导致分歧,且概率随维度 \(d\) 和扰动半径 \(\tau\) 增大而增加
    • 设计动机:为残余知识的普遍存在提供理论基础——这不是个别方法的缺陷,而是高维空间的固有现象
  3. RURK 微调策略

    • 功能:在已遗忘模型上微调,同时保持保留集性能并消除残余知识
    • 核心思路:损失函数 \(L_{RURK} = \underbrace{\frac{1}{|S_r|}\sum_{(x,y) \in S_r} \ell(w,(x,y))}_{\text{保留集}} - \lambda \underbrace{\frac{1}{|S_f|}\sum_{(x,y) \in S_f} \kappa(w,(x,y))}_{\text{残余知识惩罚}}\)。其中 \(\kappa\) 在遗忘样本的"脆弱扰动"集合(仍被正确分类的邻域样本)上计算损失。用类似 PGD 的方法找到这些脆弱扰动,然后惩罚模型对它们的正确预测
    • 设计动机:直接最小化残余知识的分子 \(\Pr[m(x')=y]\),不需要访问重训练模型。Term (ii) 相当于"在遗忘样本邻域内也做遗忘"

理论贡献

  • Proposition 1:对抗样本的不可区分性会退化——原本 \((\epsilon, \delta)\) 的保证变成 \((2\epsilon, 2\delta/(1-e^{-\epsilon}))\)
  • Proposition 2:在高维空间中,满足 \((\epsilon, \delta)\)-遗忘的模型仍必然在扰动样本上存在分歧
  • Lemma A.4:残余知识比提供了 adversarial disagreement 的上下界

实验关键数据

主实验(Table 1, CIFAR-10, ResNet-18)

方法 Retain Acc Unlearn Acc Test Acc MIA Acc Avg Gap↓ Re-learn Time
Re-train 100.0 9.47 93.30 22.50 0.00 17.33
GD 99.98 0.00 94.29 0.10 8.22 0.20
NegGrad+ 99.28 14.00 92.02 18.18 2.71 1.00
SCRUB 99.61 12.45 92.70 7.10 4.84 >30
GA 95.41 61.37 85.98 0.00 21.25 1.00
RURK 99.55 14.63 92.60 18.20 2.65 >30

消融实验(残余知识分析)

方法 \(r_\tau\)\(\tau=0.03\) 残余知识状态
Original >>1 严重残余
GD >>1 严重残余(等同 Original)
CF-k >>1 严重残余
NTK >1 有残余(线性化忽略高阶项)
NegGrad+ 略>1 轻微残余
GA/SSD <1 过度遗忘
RURK ≈1 有效抑制

关键发现

  • 残余知识是普遍问题:CIFAR-10 上 \(\epsilon \approx 0.03\) 时,超过 7% 的遗忘样本展现残余知识。11 种现有方法中除了过度遗忘的 GA/SSD 外,均存在此问题
  • GD 和 CF-k 几乎等同 Original:仅在保留集微调或仅更新末几层,对遗忘样本邻域几乎无影响。这说明"只看原始样本行为"的评估完全不充分
  • NTK 虽然 Avg Gap 小但残余知识高:因为 NTK 线性化忽略了高阶项,决策边界在局部与原始模型高度相似。这验证了"标准评估指标不足以发现残余知识"
  • RURK 在 Avg Gap 最小的同时有效抑制残余知识\(\tau < 0.01\)\(r_\tau \approx 1\)\(\tau\) 更大时有效抑制至 <1。且 Re-learn Time >30 说明遗忘彻底
  • 存在不可区分性-鲁棒性权衡:增大 \(\tau\) 使 RURK 的对抗损失 less smooth,导致 \(\epsilon\) 增大——更好的残余知识抑制可能以牺牲统计不可区分性为代价
  • ImageNet-100 上同样有效:RURK 在 ResNet-50 上同样实现最小 Avg Gap + 有效残余知识抑制,说明方法可扩展

亮点与洞察

  • 重要的安全发现:揭示了"统计不可区分性 ≠ 安全遗忘"这一关键盲区。即使通过了所有标准检验(MIA、Unlearn Accuracy、Re-learn Time),遗忘模型仍可能在邻域内泄露信息。这对 GDPR 合规性有直接影响
  • 对抗鲁棒性与遗忘安全性的交叉:首次系统建立两个领域的联系——对抗样本可作为检测遗忘完整性的"探针",这个视角非常新颖
  • RURK 设计的简洁性:只需在原始遗忘目标上加一个"在扰动样本上也遗忘"的正则项,时间复杂度与 GD/NGD 相当

局限与展望

  • 理论分析假设样本在单位球上,虽然已被推广到单位立方体,但对实际图像数据的适用性仍有 gap
  • 脆弱扰动的搜索需要类似 PGD 的迭代,增加计算开销
  • 仅在视觉分类任务(CIFAR-5/10/ImageNet-100)上验证,对 LLM 遗忘、生成模型遗忘的适用性未知
  • 存在根本性权衡:完美消除所有 \(\tau\) 内的残余知识等价于实现完美对抗鲁棒性——这在计算上不可行
  • 残余知识的实际威胁评估需要更仔细——攻击者需要知道哪些是遗忘样本才能构造扰动

相关工作与启发

  • vs 标准遗忘验证:标准方法只看模型在原始样本上的行为(MIA、\((\epsilon,\delta)\)-不可区分性),本文揭示了局部邻域内的残余信息
  • vs Zhao et al. (2024):他们研究恶意遗忘请求如何削弱模型对抗鲁棒性;本文反过来——用对抗样本检测遗忘是否彻底,问题方向相反
  • vs 差分隐私\((\epsilon,\delta)\)-不可区分性与 DP 在定义上等价,但 DP 通常施加在整个训练过程而非遗忘后。残余知识揭示了 DP-style 保证在局部邻域内的局限

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次揭示"扰动样本下的残余知识"这一新型隐私风险,理论和实验都很扎实
  • 实验充分度: ⭐⭐⭐⭐ 11 种遗忘方法 × 3 数据集 × 多架构,残余知识分析全面
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义精确,理论推导清晰,Figure 1 直观说明问题
  • 价值: ⭐⭐⭐⭐⭐ 可能改变机器遗忘领域的安全标准定义,对 GDPR 合规有直接影响