Towards Robust Defense against Customization via Protective Perturbation Resistant to Diffusion-based Purification¶

会议: ICCV 2025
arXiv: 2509.13922
代码: 无（未提及）
领域: 图像生成 / 对抗防御 / 扩散模型安全
关键词: Protective Perturbation, Anti-Purification, DreamBooth, Diffusion Purification, adversarial attack

一句话总结¶

提出 AntiPure，一种针对扩散模型净化（purification）过程的对抗扰动方法，通过 Patch-wise Frequency Guidance 和 Erroneous Timestep Guidance 两种引导机制，生成在净化后仍能持续干扰定制化微调的保护性扰动，在"净化-定制化"工作流中全面超越现有防护方法。

研究背景与动机¶

问题背景¶

Stable Diffusion 等扩散模型的定制化微调技术（如 DreamBooth、LoRA）虽然强大，但也带来了深度伪造和版权侵权的严重安全威胁。保护性扰动（Protective Perturbation）通过在图像中注入不可感知的对抗噪声来干扰微调输出，是一种有前景的防御手段。

核心挑战¶

现有保护性扰动（如 AdvDM、Anti-DreamBooth）可以被扩散模型净化（如 DiffPure、GrIDPure）轻松去除。净化过程通过向对抗图像添加噪声再去噪，有效消除了对抗扰动，使保护失效。在实际场景中，恶意用户可以先净化图像再微调，形成"净化-定制化"（P-C）工作流，导致现有防护方法几乎完全失效。

关键洞察¶

作者深入分析了 anti-purification 比 anti-customization 更困难的三个核心原因： 1. 缺乏脆弱组件：LDM 有易受攻击的 VAE encoder，而 DDPM 净化模型只有鲁棒的 UNet 2. 无需训练的冻结参数：净化过程不需要微调，对抗样本无法通过数据毒化影响模型先验 3. 固定高时间步去噪：净化的去噪从高时间步开始，低频结构已被锁定，攻击被限制在高频分量

方法详解¶

整体框架¶

AntiPure 不试图保留 anti-customization 扰动通过净化，而是直接攻击净化模型本身。核心思路是：即使后续定制化正常运行，净化过程引入的失真也会导致学到的概念偏离原始图像。

问题形式化¶

理想的抗净化扰动优化目标为：

\[\delta^{adv} = \arg\max_{\|\delta\|_\infty \leq \eta} \min_{\theta_c} \mathbb{E}_x \mathcal{L}_{ldm}(\text{Pure}(x_0 + \delta); \theta_c)\]

由于直接反向传播计算图过深，作者将其分解为最大化净化前后的差异：

\[\delta^{adv'} = \arg\max_{\|\delta\|_\infty \leq \eta} \|\text{Pure}(x_0 + \delta) - (x_0 + \delta)\|_\infty\]

关键设计一：Patch-wise Frequency Guidance (PFG)¶

冻结参数中的清洁图像先验使净化模型能良好恢复低频结构，但对高频分量控制较弱。PFG 利用这一弱点：

对噪声对抗样本 \(x_t\) 使用 UNet 预测去噪图像 \(\widehat{x}_0\)
将 \(\widehat{x}_0\) 分解为 patch，对每个 patch 做 DCT 变换
提取高频分量（DCT 谱图右下角四分之一）并最大化：

\[\mathcal{L}_{fre}(x_0; \delta^{adv}) = \sigma\left(\mathbb{E}_P \frac{4}{s^2} \sum_{m,n=s/2}^{s-1} \text{PatchDCT}(\widehat{x}_0, s)_{m,n}\right)\]

PFG 增强净化模型预测中的高频分量，间接强化对抗扰动的高频元素，形成均匀网格模式。由于攻击目标是高频，局部结构信息变化最小，保证人类感知一致性。

关键设计二：Erroneous Timestep Guidance (ETG)¶

净化过程可视为高时间步去噪被固定的生成过程。ETG 通过注入对抗噪声，使 UNet 难以区分不同时间步的适当行为：

\[\mathcal{L}_{err\text{-}t}(x_0; \delta^{adv}) = -\|\epsilon_\theta(x_t, t_{err}) - \epsilon_\theta(x_t, t)\|_2^2\]

选择错误时间步 \(t_{err}\) 作为 UNet 输入获取更高时间步的噪声预测，最小化错误时间步和正确时间步预测间的差异，瓦解模型的时间步感知能力。

总体损失函数¶

将 PFG 和 ETG 与原始 \(\mathcal{L}_{ddpm}\) 结合，通过 PGD 梯度上升优化：

\[\mathcal{L}_{pgd}(x_0; \delta^{adv}) = \mathbb{E}_{\epsilon,t}\left(\mathcal{L}_{ddpm} + \lambda_1 e^{\bar{\alpha}_t - 1} \mathcal{L}_{fre} + \lambda_2 e^{\mathcal{L}_{err\text{-}t}}\right)\]

其中 \(\lambda_1 = \lambda_2 = 0.5\)，攻击时间步 \(t \sim \mathcal{U}(1, t^p)\) 被限制在净化步范围内。系数 \(e^{\bar{\alpha}_t - 1}\) 使 PFG 随 \(t\) 降低时影响增大；指数函数应用于 ETG 实现更积极的优化。

实验¶

实验设置¶

数据集：CelebA-HQ 和 VGGFace2，各 50 个 ID × 12 张 512×512 图像
基线方法：AdvDM、Mist、Anti-DreamBooth、SimAC
净化方法：GrIDPure（2 轮 × 20 迭代，\(t^p=10\)）
评估指标：FID↑、ISM↓、FDFR、BRISQUE↑（定制化输出质量），LPIPS↓（扰动感知差异）

主实验：DreamBooth P-C 工作流¶

数据集	方法	FID↑	ISM↓	BRISQUE↑
CelebA-HQ	AdvDM	77.51	0.6561	31.33
CelebA-HQ	Mist	70.23	0.6688	37.00
CelebA-HQ	Anti-DB	78.84	0.6422	31.76
CelebA-HQ	SimAC	67.37	0.6734	33.73
CelebA-HQ	AntiPure	81.15	0.6112	43.60
VGGFace2	AdvDM	83.90	0.5923	37.42
VGGFace2	Anti-DB	90.29	0.5938	38.35
VGGFace2	AntiPure	90.77	0.5475	46.01

AntiPure 在所有指标和两个数据集上均取得最优表现。

LoRA 微调验证¶

数据集	方法	FID↑	ISM↓	BRISQUE↑
VGGFace2	Anti-DB	117.89	0.5723	58.56
VGGFace2	AntiPure	127.67	0.5428	69.97

在 LoRA 微调场景下仍全面领先，ISM 指标差距尤为显著。

净化迭代消融¶

方法	迭代=10 ISM	迭代=20 ISM	迭代=30 ISM	迭代=40 ISM
Anti-DB	0.6020	0.6352	0.6473	0.6391
AntiPure	0.6362	0.6271	0.6075	0.5994

Anti-DB 随迭代增加逐渐失效（ISM 升高），而 AntiPure 反而越来越强——这与其直接攻击净化过程本身的设计一致。

感知一致性¶

AntiPure 在相同 \(\eta\) 约束下实现了最小的 LPIPS 感知差异，这归功于 PFG 有效避免了对低频信息的修改。

亮点与洞察¶

首次形式化 anti-purification 任务：系统分析了为什么对抗净化比对抗定制化更困难，为后续研究奠定理论基础
"以毒攻毒"的巧妙思路：不试图让扰动"幸存"净化过程，而是让净化过程本身产生失真，间接扰动后续微调
频率域与时间步的双重攻击：PFG 攻击净化模型的高频控制弱点，ETG 瓦解时间步感知，两者协同增效
随净化加深反而增效：独特的"越净化越有效"特性，展示了方法的鲁棒性

局限性¶

无法实现语义结构级别的严重失真（如完全扭曲人脸），只能引入可辨识的伪影
依赖白盒攻击，需要知道净化模型的具体架构和参数
评估主要限于人脸数据集和 DreamBooth/LoRA 两种微调方式
使用 JPEG 压缩时性能有所下降（CelebA-HQ 结果明显差于 VGGFace2）

评分¶

新颖性：⭐⭐⭐⭐ — 首次系统定义并解决 anti-purification 问题
技术深度：⭐⭐⭐⭐ — 对三个核心挑战的分析透彻
实验充分度：⭐⭐⭐⭐ — 多数据集、多微调方法、多净化配置
实用价值：⭐⭐⭐ — 白盒假设限制了实际部署