The Unseen Threat: Residual Knowledge in Machine Unlearning under Perturbed Samples¶
会议: NeurIPS 2025
arXiv: 2601.22359
代码: 待确认
领域: AI Safety / 机器遗忘
关键词: 机器遗忘, 残余知识, 扰动样本, 对抗鲁棒性, RURK
一句话总结¶
发现机器遗忘的关键安全漏洞:即使遗忘后的模型在统计意义上与重训练模型不可区分,对遗忘样本施加微小对抗扰动后,遗忘模型仍能正确识别而重训练模型则失败——揭示了"残余知识"这一新型隐私风险。提出 RURK 微调策略,通过惩罚对扰动遗忘样本的正确预测来消除残余知识,在 CIFAR-10 和 ImageNet-100 上有效抑制 11 种遗忘方法的残余知识。
研究背景与动机¶
领域现状:机器遗忘(machine unlearning)旨在从训练好的模型中高效删除特定数据的影响,作为全量重训练的替代方案。现有方法(CR/Fisher/NTK/GA/SCRUB/SSD 等)的标准验证方式是证明遗忘后模型与重训练模型满足 \((\epsilon, \delta)\)-不可区分性。
现有痛点:\((\epsilon, \delta)\)-不可区分性仅保证模型在原始样本上的行为一致,但不保证在输入的局部邻域内也一致。这意味着:遗忘后的模型和重训练模型可能在同一个遗忘样本上给出相同预测,但对该样本的微小扰动给出不同预测。
核心矛盾:一个特别危险的情况是——遗忘样本的微小扰动仍能被遗忘模型正确分类,而重训练模型(从未见过该数据)则无法正确分类。这说明遗忘模型在遗忘样本的决策边界附近保留了信息痕迹。
本文目标 (a)形式化定义"残余知识"这一新型隐私风险;(b)理论证明在高维空间中此类分歧不可避免;(c)提出缓解方案。
切入角度:结合对抗鲁棒性和机器遗忘——用对抗样本作为"探针"检测遗忘是否彻底。
核心 idea:遗忘的安全标准不应只看模型在原始样本上的统计不可区分性,还要看在其局部邻域内是否也不可区分——通过惩罚遗忘模型对扰动遗忘样本的正确预测来消除残余知识。
方法详解¶
整体框架¶
分三步:(1)揭示问题:理论和实验证明现有遗忘方法在扰动样本上存在残余知识;(2)形式化度量:定义残余知识比 \(r_\tau((x,y))\);(3)提出 RURK 微调策略消除残余知识。
关键设计¶
-
残余知识比(Residual Knowledge Ratio):
- 功能:量化遗忘模型相对于重训练模型在遗忘样本邻域内的信息保留程度
- 核心思路:\(r_\tau((x,y)) = \frac{\Pr[m(x')=y]}{\Pr[a(x')=y]}\),其中 \(m\) 是遗忘模型,\(a\) 是重训练模型,\(x' \sim \mathcal{B}_p(x, \tau)\) 从邻域内采样。\(r_\tau > 1\) 表示遗忘模型比重训练模型更能正确识别扰动样本——说明存在残余知识
- 设计动机:直接用 adversarial disagreement 指标计算复杂(需枚举所有输出组合),残余知识比更可操作且提供了对分歧的上下界
-
理论保证(Proposition 2: 不可避免的分歧):
- 功能:证明在满足 \((\epsilon, \delta)\)-遗忘的前提下,对抗扰动导致的分歧仍然不可避免
- 核心思路:在单位球 \(\mathbb{S}^{d-1}\) 上,利用等周不等式证明——即使模型在原始样本上一致,小扰动就能导致分歧,且概率随维度 \(d\) 和扰动半径 \(\tau\) 增大而增加
- 设计动机:为残余知识的普遍存在提供理论基础——这不是个别方法的缺陷,而是高维空间的固有现象
-
RURK 微调策略:
- 功能:在已遗忘模型上微调,同时保持保留集性能并消除残余知识
- 核心思路:损失函数 \(L_{RURK} = \underbrace{\frac{1}{|S_r|}\sum_{(x,y) \in S_r} \ell(w,(x,y))}_{\text{保留集}} - \lambda \underbrace{\frac{1}{|S_f|}\sum_{(x,y) \in S_f} \kappa(w,(x,y))}_{\text{残余知识惩罚}}\)。其中 \(\kappa\) 在遗忘样本的"脆弱扰动"集合(仍被正确分类的邻域样本)上计算损失。用类似 PGD 的方法找到这些脆弱扰动,然后惩罚模型对它们的正确预测
- 设计动机:直接最小化残余知识的分子 \(\Pr[m(x')=y]\),不需要访问重训练模型。Term (ii) 相当于"在遗忘样本邻域内也做遗忘"
理论贡献¶
- Proposition 1:对抗样本的不可区分性会退化——原本 \((\epsilon, \delta)\) 的保证变成 \((2\epsilon, 2\delta/(1-e^{-\epsilon}))\)
- Proposition 2:在高维空间中,满足 \((\epsilon, \delta)\)-遗忘的模型仍必然在扰动样本上存在分歧
- Lemma A.4:残余知识比提供了 adversarial disagreement 的上下界
实验关键数据¶
主实验(Table 1, CIFAR-10, ResNet-18)¶
| 方法 | Retain Acc | Unlearn Acc | Test Acc | MIA Acc | Avg Gap↓ | Re-learn Time |
|---|---|---|---|---|---|---|
| Re-train | 100.0 | 9.47 | 93.30 | 22.50 | 0.00 | 17.33 |
| GD | 99.98 | 0.00 | 94.29 | 0.10 | 8.22 | 0.20 |
| NegGrad+ | 99.28 | 14.00 | 92.02 | 18.18 | 2.71 | 1.00 |
| SCRUB | 99.61 | 12.45 | 92.70 | 7.10 | 4.84 | >30 |
| GA | 95.41 | 61.37 | 85.98 | 0.00 | 21.25 | 1.00 |
| RURK | 99.55 | 14.63 | 92.60 | 18.20 | 2.65 | >30 |
消融实验(残余知识分析)¶
| 方法 | \(r_\tau\) 在 \(\tau=0.03\) | 残余知识状态 |
|---|---|---|
| Original | >>1 | 严重残余 |
| GD | >>1 | 严重残余(等同 Original) |
| CF-k | >>1 | 严重残余 |
| NTK | >1 | 有残余(线性化忽略高阶项) |
| NegGrad+ | 略>1 | 轻微残余 |
| GA/SSD | <1 | 过度遗忘 |
| RURK | ≈1 | 有效抑制 |
关键发现¶
- 残余知识是普遍问题:CIFAR-10 上 \(\epsilon \approx 0.03\) 时,超过 7% 的遗忘样本展现残余知识。11 种现有方法中除了过度遗忘的 GA/SSD 外,均存在此问题
- GD 和 CF-k 几乎等同 Original:仅在保留集微调或仅更新末几层,对遗忘样本邻域几乎无影响。这说明"只看原始样本行为"的评估完全不充分
- NTK 虽然 Avg Gap 小但残余知识高:因为 NTK 线性化忽略了高阶项,决策边界在局部与原始模型高度相似。这验证了"标准评估指标不足以发现残余知识"
- RURK 在 Avg Gap 最小的同时有效抑制残余知识:\(\tau < 0.01\) 时 \(r_\tau \approx 1\),\(\tau\) 更大时有效抑制至 <1。且 Re-learn Time >30 说明遗忘彻底
- 存在不可区分性-鲁棒性权衡:增大 \(\tau\) 使 RURK 的对抗损失 less smooth,导致 \(\epsilon\) 增大——更好的残余知识抑制可能以牺牲统计不可区分性为代价
- ImageNet-100 上同样有效:RURK 在 ResNet-50 上同样实现最小 Avg Gap + 有效残余知识抑制,说明方法可扩展
亮点与洞察¶
- 重要的安全发现:揭示了"统计不可区分性 ≠ 安全遗忘"这一关键盲区。即使通过了所有标准检验(MIA、Unlearn Accuracy、Re-learn Time),遗忘模型仍可能在邻域内泄露信息。这对 GDPR 合规性有直接影响
- 对抗鲁棒性与遗忘安全性的交叉:首次系统建立两个领域的联系——对抗样本可作为检测遗忘完整性的"探针",这个视角非常新颖
- RURK 设计的简洁性:只需在原始遗忘目标上加一个"在扰动样本上也遗忘"的正则项,时间复杂度与 GD/NGD 相当
局限与展望¶
- 理论分析假设样本在单位球上,虽然已被推广到单位立方体,但对实际图像数据的适用性仍有 gap
- 脆弱扰动的搜索需要类似 PGD 的迭代,增加计算开销
- 仅在视觉分类任务(CIFAR-5/10/ImageNet-100)上验证,对 LLM 遗忘、生成模型遗忘的适用性未知
- 存在根本性权衡:完美消除所有 \(\tau\) 内的残余知识等价于实现完美对抗鲁棒性——这在计算上不可行
- 残余知识的实际威胁评估需要更仔细——攻击者需要知道哪些是遗忘样本才能构造扰动
相关工作与启发¶
- vs 标准遗忘验证:标准方法只看模型在原始样本上的行为(MIA、\((\epsilon,\delta)\)-不可区分性),本文揭示了局部邻域内的残余信息
- vs Zhao et al. (2024):他们研究恶意遗忘请求如何削弱模型对抗鲁棒性;本文反过来——用对抗样本检测遗忘是否彻底,问题方向相反
- vs 差分隐私:\((\epsilon,\delta)\)-不可区分性与 DP 在定义上等价,但 DP 通常施加在整个训练过程而非遗忘后。残余知识揭示了 DP-style 保证在局部邻域内的局限
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次揭示"扰动样本下的残余知识"这一新型隐私风险,理论和实验都很扎实
- 实验充分度: ⭐⭐⭐⭐ 11 种遗忘方法 × 3 数据集 × 多架构,残余知识分析全面
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义精确,理论推导清晰,Figure 1 直观说明问题
- 价值: ⭐⭐⭐⭐⭐ 可能改变机器遗忘领域的安全标准定义,对 GDPR 合规有直接影响