Towards Robust Defense against Customization via Protective Perturbation Resistant to Diffusion-based Purification¶
会议: ICCV 2025
arXiv: 2509.13922
代码: 无(未提及)
领域: 图像生成 / 对抗防御 / 扩散模型安全
关键词: Protective Perturbation, Anti-Purification, DreamBooth, Diffusion Purification, adversarial attack
一句话总结¶
提出 AntiPure,一种针对扩散模型净化(purification)过程的对抗扰动方法,通过 Patch-wise Frequency Guidance 和 Erroneous Timestep Guidance 两种引导机制,生成在净化后仍能持续干扰定制化微调的保护性扰动,在"净化-定制化"工作流中全面超越现有防护方法。
研究背景与动机¶
问题背景¶
Stable Diffusion 等扩散模型的定制化微调技术(如 DreamBooth、LoRA)虽然强大,但也带来了深度伪造和版权侵权的严重安全威胁。保护性扰动(Protective Perturbation)通过在图像中注入不可感知的对抗噪声来干扰微调输出,是一种有前景的防御手段。
核心挑战¶
现有保护性扰动(如 AdvDM、Anti-DreamBooth)可以被扩散模型净化(如 DiffPure、GrIDPure)轻松去除。净化过程通过向对抗图像添加噪声再去噪,有效消除了对抗扰动,使保护失效。在实际场景中,恶意用户可以先净化图像再微调,形成"净化-定制化"(P-C)工作流,导致现有防护方法几乎完全失效。
关键洞察¶
作者深入分析了 anti-purification 比 anti-customization 更困难的三个核心原因: 1. 缺乏脆弱组件:LDM 有易受攻击的 VAE encoder,而 DDPM 净化模型只有鲁棒的 UNet 2. 无需训练的冻结参数:净化过程不需要微调,对抗样本无法通过数据毒化影响模型先验 3. 固定高时间步去噪:净化的去噪从高时间步开始,低频结构已被锁定,攻击被限制在高频分量
方法详解¶
整体框架¶
AntiPure 不试图保留 anti-customization 扰动通过净化,而是直接攻击净化模型本身。核心思路是:即使后续定制化正常运行,净化过程引入的失真也会导致学到的概念偏离原始图像。
问题形式化¶
理想的抗净化扰动优化目标为:
由于直接反向传播计算图过深,作者将其分解为最大化净化前后的差异:
关键设计一:Patch-wise Frequency Guidance (PFG)¶
冻结参数中的清洁图像先验使净化模型能良好恢复低频结构,但对高频分量控制较弱。PFG 利用这一弱点:
- 对噪声对抗样本 \(x_t\) 使用 UNet 预测去噪图像 \(\widehat{x}_0\)
- 将 \(\widehat{x}_0\) 分解为 patch,对每个 patch 做 DCT 变换
- 提取高频分量(DCT 谱图右下角四分之一)并最大化:
PFG 增强净化模型预测中的高频分量,间接强化对抗扰动的高频元素,形成均匀网格模式。由于攻击目标是高频,局部结构信息变化最小,保证人类感知一致性。
关键设计二:Erroneous Timestep Guidance (ETG)¶
净化过程可视为高时间步去噪被固定的生成过程。ETG 通过注入对抗噪声,使 UNet 难以区分不同时间步的适当行为:
选择错误时间步 \(t_{err}\) 作为 UNet 输入获取更高时间步的噪声预测,最小化错误时间步和正确时间步预测间的差异,瓦解模型的时间步感知能力。
总体损失函数¶
将 PFG 和 ETG 与原始 \(\mathcal{L}_{ddpm}\) 结合,通过 PGD 梯度上升优化:
其中 \(\lambda_1 = \lambda_2 = 0.5\),攻击时间步 \(t \sim \mathcal{U}(1, t^p)\) 被限制在净化步范围内。系数 \(e^{\bar{\alpha}_t - 1}\) 使 PFG 随 \(t\) 降低时影响增大;指数函数应用于 ETG 实现更积极的优化。
实验¶
实验设置¶
- 数据集:CelebA-HQ 和 VGGFace2,各 50 个 ID × 12 张 512×512 图像
- 基线方法:AdvDM、Mist、Anti-DreamBooth、SimAC
- 净化方法:GrIDPure(2 轮 × 20 迭代,\(t^p=10\))
- 评估指标:FID↑、ISM↓、FDFR、BRISQUE↑(定制化输出质量),LPIPS↓(扰动感知差异)
主实验:DreamBooth P-C 工作流¶
| 数据集 | 方法 | FID↑ | ISM↓ | BRISQUE↑ |
|---|---|---|---|---|
| CelebA-HQ | AdvDM | 77.51 | 0.6561 | 31.33 |
| CelebA-HQ | Mist | 70.23 | 0.6688 | 37.00 |
| CelebA-HQ | Anti-DB | 78.84 | 0.6422 | 31.76 |
| CelebA-HQ | SimAC | 67.37 | 0.6734 | 33.73 |
| CelebA-HQ | AntiPure | 81.15 | 0.6112 | 43.60 |
| VGGFace2 | AdvDM | 83.90 | 0.5923 | 37.42 |
| VGGFace2 | Anti-DB | 90.29 | 0.5938 | 38.35 |
| VGGFace2 | AntiPure | 90.77 | 0.5475 | 46.01 |
AntiPure 在所有指标和两个数据集上均取得最优表现。
LoRA 微调验证¶
| 数据集 | 方法 | FID↑ | ISM↓ | BRISQUE↑ |
|---|---|---|---|---|
| VGGFace2 | Anti-DB | 117.89 | 0.5723 | 58.56 |
| VGGFace2 | AntiPure | 127.67 | 0.5428 | 69.97 |
在 LoRA 微调场景下仍全面领先,ISM 指标差距尤为显著。
净化迭代消融¶
| 方法 | 迭代=10 ISM | 迭代=20 ISM | 迭代=30 ISM | 迭代=40 ISM |
|---|---|---|---|---|
| Anti-DB | 0.6020 | 0.6352 | 0.6473 | 0.6391 |
| AntiPure | 0.6362 | 0.6271 | 0.6075 | 0.5994 |
Anti-DB 随迭代增加逐渐失效(ISM 升高),而 AntiPure 反而越来越强——这与其直接攻击净化过程本身的设计一致。
感知一致性¶
AntiPure 在相同 \(\eta\) 约束下实现了最小的 LPIPS 感知差异,这归功于 PFG 有效避免了对低频信息的修改。
亮点与洞察¶
- 首次形式化 anti-purification 任务:系统分析了为什么对抗净化比对抗定制化更困难,为后续研究奠定理论基础
- "以毒攻毒"的巧妙思路:不试图让扰动"幸存"净化过程,而是让净化过程本身产生失真,间接扰动后续微调
- 频率域与时间步的双重攻击:PFG 攻击净化模型的高频控制弱点,ETG 瓦解时间步感知,两者协同增效
- 随净化加深反而增效:独特的"越净化越有效"特性,展示了方法的鲁棒性
局限性¶
- 无法实现语义结构级别的严重失真(如完全扭曲人脸),只能引入可辨识的伪影
- 依赖白盒攻击,需要知道净化模型的具体架构和参数
- 评估主要限于人脸数据集和 DreamBooth/LoRA 两种微调方式
- 使用 JPEG 压缩时性能有所下降(CelebA-HQ 结果明显差于 VGGFace2)
相关工作¶
- 定制化微调:DreamBooth、LoRA、Textual Inversion、Custom Diffusion、ControlNet
- 保护性扰动:AdvDM、Mist、Anti-DreamBooth、SimAC、MetaCloak、CAAT
- 扩散净化:DiffPure、DensePure、GrIDPure
评分¶
- 新颖性:⭐⭐⭐⭐ — 首次系统定义并解决 anti-purification 问题
- 技术深度:⭐⭐⭐⭐ — 对三个核心挑战的分析透彻
- 实验充分度:⭐⭐⭐⭐ — 多数据集、多微调方法、多净化配置
- 实用价值:⭐⭐⭐ — 白盒假设限制了实际部署