The Unseen Threat: Residual Knowledge in Machine Unlearning under Perturbed Samples¶

会议: NeurIPS 2025
arXiv: 2601.22359
代码: 待确认
领域: AI Safety / 机器遗忘
关键词: 机器遗忘, 残余知识, 扰动样本, 对抗鲁棒性, RURK

一句话总结¶

发现机器遗忘的关键安全漏洞：即使遗忘后的模型在统计意义上与重训练模型不可区分，对遗忘样本施加微小对抗扰动后，遗忘模型仍能正确识别而重训练模型则失败——揭示了"残余知识"这一新型隐私风险。提出 RURK 微调策略，通过惩罚对扰动遗忘样本的正确预测来消除残余知识，在 CIFAR-10 和 ImageNet-100 上有效抑制 11 种遗忘方法的残余知识。

研究背景与动机¶

领域现状：机器遗忘（machine unlearning）旨在从训练好的模型中高效删除特定数据的影响，作为全量重训练的替代方案。现有方法（CR/Fisher/NTK/GA/SCRUB/SSD 等）的标准验证方式是证明遗忘后模型与重训练模型满足 \((\epsilon, \delta)\)-不可区分性。

现有痛点：\((\epsilon, \delta)\)-不可区分性仅保证模型在原始样本上的行为一致，但不保证在输入的局部邻域内也一致。这意味着：遗忘后的模型和重训练模型可能在同一个遗忘样本上给出相同预测，但对该样本的微小扰动给出不同预测。

核心矛盾：一个特别危险的情况是——遗忘样本的微小扰动仍能被遗忘模型正确分类，而重训练模型（从未见过该数据）则无法正确分类。这说明遗忘模型在遗忘样本的决策边界附近保留了信息痕迹。

本文目标 （a）形式化定义"残余知识"这一新型隐私风险；（b）理论证明在高维空间中此类分歧不可避免；（c）提出缓解方案。

切入角度：结合对抗鲁棒性和机器遗忘——用对抗样本作为"探针"检测遗忘是否彻底。

核心 idea：遗忘的安全标准不应只看模型在原始样本上的统计不可区分性，还要看在其局部邻域内是否也不可区分——通过惩罚遗忘模型对扰动遗忘样本的正确预测来消除残余知识。

方法详解¶

整体框架¶

分三步：（1）揭示问题：理论和实验证明现有遗忘方法在扰动样本上存在残余知识；（2）形式化度量：定义残余知识比 \(r_\tau((x,y))\)；（3）提出 RURK 微调策略消除残余知识。

关键设计¶

残余知识比（Residual Knowledge Ratio）：
- 功能：量化遗忘模型相对于重训练模型在遗忘样本邻域内的信息保留程度
- 核心思路：\(r_\tau((x,y)) = \frac{\Pr[m(x')=y]}{\Pr[a(x')=y]}\)，其中 \(m\) 是遗忘模型，\(a\) 是重训练模型，\(x' \sim \mathcal{B}_p(x, \tau)\) 从邻域内采样。\(r_\tau > 1\) 表示遗忘模型比重训练模型更能正确识别扰动样本——说明存在残余知识
- 设计动机：直接用 adversarial disagreement 指标计算复杂（需枚举所有输出组合），残余知识比更可操作且提供了对分歧的上下界
理论保证（Proposition 2: 不可避免的分歧）：
- 功能：证明在满足 \((\epsilon, \delta)\)-遗忘的前提下，对抗扰动导致的分歧仍然不可避免
- 核心思路：在单位球 \(\mathbb{S}^{d-1}\) 上，利用等周不等式证明——即使模型在原始样本上一致，小扰动就能导致分歧，且概率随维度 \(d\) 和扰动半径 \(\tau\) 增大而增加
- 设计动机：为残余知识的普遍存在提供理论基础——这不是个别方法的缺陷，而是高维空间的固有现象
RURK 微调策略：
- 功能：在已遗忘模型上微调，同时保持保留集性能并消除残余知识
- 核心思路：损失函数 \(L_{RURK} = \underbrace{\frac{1}{|S_r|}\sum_{(x,y) \in S_r} \ell(w,(x,y))}_{\text{保留集}} - \lambda \underbrace{\frac{1}{|S_f|}\sum_{(x,y) \in S_f} \kappa(w,(x,y))}_{\text{残余知识惩罚}}\)。其中 \(\kappa\) 在遗忘样本的"脆弱扰动"集合（仍被正确分类的邻域样本）上计算损失。用类似 PGD 的方法找到这些脆弱扰动，然后惩罚模型对它们的正确预测
- 设计动机：直接最小化残余知识的分子 \(\Pr[m(x')=y]\)，不需要访问重训练模型。Term (ii) 相当于"在遗忘样本邻域内也做遗忘"

理论贡献¶

Proposition 1：对抗样本的不可区分性会退化——原本 \((\epsilon, \delta)\) 的保证变成 \((2\epsilon, 2\delta/(1-e^{-\epsilon}))\)
Proposition 2：在高维空间中，满足 \((\epsilon, \delta)\)-遗忘的模型仍必然在扰动样本上存在分歧
Lemma A.4：残余知识比提供了 adversarial disagreement 的上下界

实验关键数据¶

主实验（Table 1, CIFAR-10, ResNet-18）¶

方法	Retain Acc	Unlearn Acc	Test Acc	MIA Acc	Avg Gap↓	Re-learn Time
Re-train	100.0	9.47	93.30	22.50	0.00	17.33
GD	99.98	0.00	94.29	0.10	8.22	0.20
NegGrad+	99.28	14.00	92.02	18.18	2.71	1.00
SCRUB	99.61	12.45	92.70	7.10	4.84	>30
GA	95.41	61.37	85.98	0.00	21.25	1.00
RURK	99.55	14.63	92.60	18.20	2.65	>30

消融实验（残余知识分析）¶

方法	\(r_\tau\) 在 \(\tau=0.03\)	残余知识状态
Original	>>1	严重残余
GD	>>1	严重残余（等同 Original）
CF-k	>>1	严重残余
NTK	>1	有残余（线性化忽略高阶项）
NegGrad+	略>1	轻微残余
GA/SSD	<1	过度遗忘
RURK	≈1	有效抑制

关键发现¶

残余知识是普遍问题：CIFAR-10 上 \(\epsilon \approx 0.03\) 时，超过 7% 的遗忘样本展现残余知识。11 种现有方法中除了过度遗忘的 GA/SSD 外，均存在此问题
GD 和 CF-k 几乎等同 Original：仅在保留集微调或仅更新末几层，对遗忘样本邻域几乎无影响。这说明"只看原始样本行为"的评估完全不充分
NTK 虽然 Avg Gap 小但残余知识高：因为 NTK 线性化忽略了高阶项，决策边界在局部与原始模型高度相似。这验证了"标准评估指标不足以发现残余知识"
RURK 在 Avg Gap 最小的同时有效抑制残余知识：\(\tau < 0.01\) 时 \(r_\tau \approx 1\)，\(\tau\) 更大时有效抑制至 <1。且 Re-learn Time >30 说明遗忘彻底
存在不可区分性-鲁棒性权衡：增大 \(\tau\) 使 RURK 的对抗损失 less smooth，导致 \(\epsilon\) 增大——更好的残余知识抑制可能以牺牲统计不可区分性为代价
ImageNet-100 上同样有效：RURK 在 ResNet-50 上同样实现最小 Avg Gap + 有效残余知识抑制，说明方法可扩展

亮点与洞察¶

重要的安全发现：揭示了"统计不可区分性 ≠ 安全遗忘"这一关键盲区。即使通过了所有标准检验（MIA、Unlearn Accuracy、Re-learn Time），遗忘模型仍可能在邻域内泄露信息。这对 GDPR 合规性有直接影响
对抗鲁棒性与遗忘安全性的交叉：首次系统建立两个领域的联系——对抗样本可作为检测遗忘完整性的"探针"，这个视角非常新颖
RURK 设计的简洁性：只需在原始遗忘目标上加一个"在扰动样本上也遗忘"的正则项，时间复杂度与 GD/NGD 相当

局限与展望¶

理论分析假设样本在单位球上，虽然已被推广到单位立方体，但对实际图像数据的适用性仍有 gap
脆弱扰动的搜索需要类似 PGD 的迭代，增加计算开销
仅在视觉分类任务（CIFAR-5/10/ImageNet-100）上验证，对 LLM 遗忘、生成模型遗忘的适用性未知
存在根本性权衡：完美消除所有 \(\tau\) 内的残余知识等价于实现完美对抗鲁棒性——这在计算上不可行
残余知识的实际威胁评估需要更仔细——攻击者需要知道哪些是遗忘样本才能构造扰动

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次揭示"扰动样本下的残余知识"这一新型隐私风险，理论和实验都很扎实
实验充分度: ⭐⭐⭐⭐ 11 种遗忘方法 × 3 数据集 × 多架构，残余知识分析全面
写作质量: ⭐⭐⭐⭐⭐ 问题定义精确，理论推导清晰，Figure 1 直观说明问题
价值: ⭐⭐⭐⭐⭐ 可能改变机器遗忘领域的安全标准定义，对 GDPR 合规有直接影响