⊘ Source Models Leak What They Shouldn't ↛: Unlearning Zero-Shot Transfer in Domain Adaptation Through Adversarial Optimization¶
会议: CVPR 2026
arXiv: 2604.08238
代码: https://github.com/D-Arnav/SCADA
领域: 机器遗忘 / 域自适应 / 隐私保护
关键词: 机器遗忘, 源域隐私泄漏, 无源域自适应, 对抗优化, 零样本迁移
一句话总结¶
发现无源域自适应(SFDA)方法会不经意地将源域独有类别的知识泄漏到目标域(零样本迁移现象),提出 SCADA-UL 框架通过对抗生成遗忘样本和重缩放标签策略,在域自适应过程中同时完成类别遗忘,达到接近从头训练的遗忘效果。
研究背景与动机¶
领域现状:视觉模型越来越多地被跨域应用(如从自然图像到卫星图像、医学扫描等),源域到目标域的适应技术(domain adaptation)是这一过程的关键支撑。其中无源域自适应(Source-Free Domain Adaptation, SFDA)因为不需要访问源域数据,在隐私敏感场景中尤其受欢迎——源域数据被保护、不可访问,只有预训练的源模型被暴露给目标域。
现有痛点:虽然源数据本身被保护了,但源模型仍然编码了源域的知识。作者通过实验发现了一个令人警惕的现象:现有 SFDA 方法在目标域上对源域独有类别(source-exclusive classes,即只存在于源域而不存在于目标域的类别)展现出强烈的零样本分类能力。这意味着即使目标域中不包含这些类别的任何样本,经过 SFDA 后的模型仍然"记住"了它们——源域的隐私信息通过模型被泄漏到了目标域。
核心矛盾:SFDA 的初衷是保护源域隐私,但模型本身成为了隐私泄漏的载体。现有的机器遗忘(Machine Unlearning, MU)方法设计时没有考虑数据分布偏移(domain shift)的情况,因此无法直接应用于 SFDA 场景——遗忘操作在分布偏移下会失效或损害目标域的正常性能。
本文目标:(1) 正式定义 SFDA 中的源域类别遗忘问题(SCADA-UL);(2) 设计能在域自适应过程中同步执行遗忘的方法;(3) 扩展到持续学习版本和遗忘类别未知的变体。
切入角度:作者观察到 SFDA 后模型对源域独有类别的零样本能力来自于源模型权重中编码的判别特征。如果能在适应过程中生成"遗忘类别"的合成样本,然后主动让模型"遗忘"这些样本对应的知识,就能在不访问真实源数据的情况下完成遗忘。
核心 idea:通过对抗优化生成遗忘类别的样本,结合重缩放标签策略(rescaled labeling),在 SFDA 过程中同步完成域适应和类别遗忘。
方法详解¶
整体框架¶
SCADA-UL 的整体流程如下:输入是一个在源域上预训练的分类模型和无标签的目标域数据,以及需要遗忘的类别指定(或在变体中类别未知)。框架在目标域上执行域自适应的同时,通过三个核心机制协同工作:(1) 对抗样本生成器在特征空间中合成遗忘类别的代理样本;(2) 重缩放标签策略将遗忘类别的预测概率重新分配到保留类别上,指导模型"忘记"特定类别的判别能力;(3) 对抗优化目标在最大化遗忘效果和最小化对保留类别性能影响之间取得平衡。最终输出的模型既完成了域自适应(能在目标域上正常工作),又成功遗忘了源域独有类别的知识。
关键设计¶
-
对抗遗忘样本生成(Adversarial Forget Sample Generation):
- 功能:在没有真实源域数据的情况下,合成遗忘类别的代理样本用于遗忘训练
- 核心思路:利用源模型中编码的类别原型(class prototype)信息,在输入空间通过梯度上升生成能最大化激活遗忘类别分类头的样本。具体地,初始化随机噪声图像 \(x_{\text{syn}}\),通过优化 \(\max_{x_{\text{syn}}} p(y_{\text{forget}} | x_{\text{syn}}; \theta)\) 得到遗忘类别的合成样本。这些样本虽然在视觉上不像真实图像,但在特征空间中占据了遗忘类别的决策区域,足以指导遗忘过程
- 设计动机:SFDA 设定下无法访问真实源数据,但源模型的权重中已经编码了足够的类别判别信息——通过对抗生成可以"反向提取"这些信息用于遗忘,这是一种"用模型自身的知识来消除模型知识"的elegant策略
-
重缩放标签策略(Rescaled Labeling Strategy):
- 功能:为遗忘样本生成合理的"遗忘标签",指导模型将遗忘类别的概率质量重新分配到保留类别
- 核心思路:不是简单地将遗忘类别的标签设为0(这会导致训练不稳定),而是将遗忘类别的概率质量按一定规则重新分配到保留类别上。设遗忘类别集合为 \(\mathcal{F}\),保留类别集合为 \(\mathcal{R}\),对每个遗忘样本的伪标签,将原本属于 \(\mathcal{F}\) 中类别的预测概率按保留类别的相对比例均匀重分配到 \(\mathcal{R}\) 上。这样模型学到的是"这些特征不属于遗忘类别,而应分散到保留类别中"
- 设计动机:直接的硬遗忘(将遗忘类别概率压为0)会破坏 softmax 概率分布的平滑性,导致梯度消失或训练震荡。重缩放标签保持了概率分布的完整性,确保遗忘过程的梯度信号稳定且方向正确
-
对抗优化框架(Adversarial Optimization):
- 功能:在域适应和遗忘之间建立对抗博弈,自动平衡两个目标
- 核心思路:整体训练包含两个对抗的目标——(1) 域自适应目标通过熵最小化或伪标签学习使模型适应目标域数据;(2) 遗忘目标通过最大化遗忘类别的预测不确定性(或最小化遗忘类别的预测概率)来消除源域独有类别的知识。两个目标通过交替优化实现平衡:模型先在目标域数据上做一步适应更新,再在生成的遗忘样本上做一步遗忘更新。这种 minimax 优化确保了遗忘不会过度损害适应性能
- 设计动机:域适应和遗忘本质上存在冲突——适应需要利用源模型的特征表示能力,而遗忘需要删除部分特征。对抗优化提供了一种自然的方式来在这二者之间找到帕累托最优解
损失函数 / 训练策略¶
总损失由三部分组成:(1) 域自适应损失 \(\mathcal{L}_{\text{adapt}}\)——标准的 SFDA 损失(如信息熵最小化或邻域一致性),使模型适应目标域分布;(2) 遗忘损失 \(\mathcal{L}_{\text{forget}}\)——在生成的遗忘样本上,使用重缩放标签计算交叉熵损失,引导模型在遗忘类别上"变笨";(3) 保留损失 \(\mathcal{L}_{\text{retain}}\)——确保模型在保留类别上的性能不受遗忘操作影响。训练过程中两个阶段交替进行:先在目标域数据上做适应,再在合成遗忘样本上做遗忘更新。
此外,作者扩展了两个重要变体:(1) 持续遗忘版本——当新的遗忘需求陆续到来时,模型需要在不丢失之前遗忘和保留记忆的情况下继续遗忘新类别;(2) 未知遗忘类别版本——当不清楚具体需要遗忘哪些源域类别时,通过目标域数据分布与模型预测的不一致性自动检测需要遗忘的类别。
实验关键数据¶
主实验(OfficeHome 数据集)¶
| 域对 | 方法 | 保留类别准确率 ↑ | 遗忘类别准确率 ↓ | 遗忘效果评分 |
|---|---|---|---|---|
| Art → Product | 现有 SFDA (SHOT) | 高 | 高(泄漏) | 差 |
| Art → Product | 现有 MU + SFDA | 中等 | 中等 | 不足 |
| Art → Product | SCADA-UL (本文) | 高 | 低(接近随机) | 接近重训练 |
| Clipart → Real | 现有 SFDA (SHOT) | 高 | 高(泄漏) | 差 |
| Clipart → Real | SCADA-UL (本文) | 高 | 低 | 最优 |
注:实验在 OfficeHome 全部 12 个域对上进行,SCADA-UL 在所有域对上一致优于所有基线方法。
消融实验¶
| 配置 | 保留类别 Acc | 遗忘类别 Acc (↓更好) | 说明 |
|---|---|---|---|
| Full SCADA-UL | 最高 | 最低 | 完整模型 |
| w/o 对抗样本生成 | 下降 | 较高 | 无法有效定位遗忘类别的决策区域 |
| w/o 重缩放标签 | 明显下降 | 中等 | 遗忘过程不稳定,损害保留类别 |
| w/o 对抗优化 | 下降 | 中等 | 域适应和遗忘冲突未被妥善处理 |
| 随机噪声替代对抗样本 | 下降 | 较高 | 随机样本无法有效触发遗忘类别的特征 |
关键发现¶
- 零样本泄漏现象确实存在且严重:标准 SFDA 方法(如SHOT、NRC等)在源域独有类别上的零样本准确率可达 30-50%,远高于随机水平,证实了隐私泄漏风险
- 对抗样本生成是关键:对比随机噪声,对抗生成的遗忘样本能将遗忘效率提升约 2 倍——因为它们精准定位到遗忘类别的决策区域
- SCADA-UL 达到接近"重训练"水平的遗忘效果——遗忘类别的准确率降至接近随机猜测水平,同时保留类别的性能几乎不受影响
- 持续遗忘变体中,方法展现出稳定的遗忘记忆保持能力,不会因新的遗忘任务而"回忆起"已遗忘的类别
亮点与洞察¶
- 发现了一个重要的隐私风险盲区:SFDA 被认为是保护源域隐私的,但本文揭示了模型本身就是隐私泄漏通道。这个观察本身就很有价值——它表明"不访问数据"并不等于"不泄漏数据信息"
- 用模型的知识来消除模型的知识:对抗样本生成的策略很巧妙——没有真实源数据,就利用模型自己编码的类别原型来反向生成遗忘目标。这种"自反性"的设计思路可以迁移到其他隐私保护场景
- 理论与实践结合:论文不仅提供了实验验证,还给出了理论解释——从信息论角度分析了为什么 SFDA 模型会泄漏源域信息以及遗忘操作的信息论保证
局限与展望¶
- 当前仅在分类任务上验证,是否适用于目标检测、语义分割等更复杂的视觉任务有待探索
- 对抗样本生成的质量依赖源模型的判别能力——如果源模型本身在某些遗忘类别上就不强,生成的对抗样本可能无法有效覆盖决策边界
- "未知遗忘类别"变体的检测准确率受目标域类别分布的影响,极端不平衡时可能出现误判
- 实验主要在 OfficeHome 等中等规模数据集上进行,大规模(如 ImageNet-scale)的域自适应遗忘还需更多验证
- 方法假设遗忘类别之间是独立的,但某些类别可能共享特征子空间,遗忘一个可能会影响相关类别
相关工作与启发¶
- vs SHOT (Liang et al. 2020):SHOT 是经典 SFDA 方法,通过信息熵最小化和伪标签实现域自适应,但完全没有考虑源域信息遗忘问题
- vs Machine Unlearning 方法 (如 SCRUB, Bad Teaching):传统 MU 方法假设数据分布不变,在域偏移场景下遗忘效果显著下降——它们的遗忘操作可能把有用的目标域知识也一起删了
- vs Differential Privacy:差分隐私在训练阶段添加噪声,是一种前向保护;SCADA-UL 是一种后向保护——对已训练好的模型进行遗忘
- 启发:类似的隐私泄漏问题可能存在于模型蒸馏、联邦学习等其他模型共享场景中
评分¶
- 新颖性: ⭐⭐⭐⭐ 发现 SFDA 中的零样本泄漏问题并形式化定义 SCADA-UL 是重要贡献;方法设计(对抗生成+重缩放标签+minimax)自然但有效
- 实验充分度: ⭐⭐⭐⭐ 覆盖全部 12 个域对、三个变体设定、多种基线对比,消融和理论分析完善
- 写作质量: ⭐⭐⭐⭐ 问题动机阐述清晰,从现象观察到方法设计的逻辑链条完整
- 价值: ⭐⭐⭐⭐ 揭示了 SFDA 的隐私盲区,对安全敏感场景(医疗、军事图像)有直接意义