BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Edit¶

会议: NeurIPS 2025
arXiv: 2511.00143
代码: 有
领域: 图像安全 / 对抗扰动
关键词: 图像保护, 对抗扰动, AI编辑防御, 模糊预处理, 扩散模型

一句话总结¶

提出 BlurGuard——在生成对抗扰动之前先对图像做轻度模糊预处理，使扰动更鲁棒地抵御 JPEG 压缩、高斯噪声等后处理操作，从而更有效地保护图像不被 Stable Diffusion 等 AI 编辑工具篡改，在保护成功率上比不模糊基线提升 20%+。

领域现状：AI 图像编辑（Stable Diffusion inpainting、Instruct-Pix2Pix 等）使任何人都能轻易修改他人照片，引发肖像权和虚假信息风险。对抗扰动是主要防御手段——向图像添加人眼不可见的噪声使 AI 编辑失败。

现有痛点： - 对抗扰动本质上是高频信号，极易被简单的后处理操作（JPEG 压缩、高斯滤波、降噪）消除 - 社交媒体平台普遍对上传图片进行压缩处理，扰动在上传后就失效了 - 现有增强鲁棒性的方法（如 DiffPure、对抗训练）计算成本高或需要修改防御框架

核心矛盾：对抗扰动需要"不可见"（小幅度/高频），但正因为小幅度和高频，它们容易被压缩和滤波消除。增大扰动幅度可提高鲁棒性但损害图像质量。

本文目标 在不增大扰动幅度的前提下，使对抗扰动更能抵抗后处理。

切入角度：如果先对图像做轻度模糊再生成扰动，扰动会被优化到与模糊图像的低频结构耦合，从而更难被高频滤波消除。

核心 idea：先模糊（将图像移到低频域）→ 再生成扰动（扰动与低频结构耦合）→ 扰动更难被后处理消除。

原始图像 \(x\) → 轻度高斯模糊/降噪 \(x_{blur} = \text{Blur}(x)\) → 在 \(x_{blur}\) 上生成对抗扰动 \(\delta\) → 输出保护图像 \(x_{blur} + \delta\) → 上传社交媒体（经 JPEG/压缩）→ AI 编辑失败。

预模糊策略:
- 功能：在生成扰动前将图像移到低频域
- 核心思路：用轻度高斯模糊（\(\sigma \approx 0.5-1.0\)）或双边滤波处理图像。模糊强度需平衡——太弱无效，太强损害图像质量
- 设计动机：原始图像的高频细节（纹理、边缘）和对抗扰动都是高频信号，后处理时被一起删除。预模糊去除了图像自身的高频分量，迫使扰动生成算法将扰动"嵌入"到剩余的低频结构中，这些低频结构正是后处理难以消除的
扰动生成兼容性:
- 功能：确保 BlurGuard 可与任何现有扰动方法兼容
- 核心思路：BlurGuard 是预处理步骤，不修改扰动生成算法本身（PGD、C&W、AdvDM 等均可用）
- 设计动机：即插即用设计，用户可自由选择最适合的扰动方法
视觉质量控制:
- 功能：确保模糊不会过度损害图像质量
- 核心思路：模糊参数（\(\sigma\)、核大小）经网格搜索确定最优值，在保护成功率和 PSNR/SSIM 之间取得平衡
- 设计动机：保护图像如果视觉质量太差，用户不会使用

标准对抗扰动优化：\(\min_\delta \mathcal{L}_{edit}(x_{blur} + \delta) + \lambda \|\delta\|_\infty\)
无需训练，纯推理时操作
扰动幅度限制 \(\|\delta\|_\infty \leq \epsilon\)，通常 \(\epsilon = 8/255\)

在 Stable Diffusion Inpainting 上的保护成功率（编辑质量下降越多=保护越成功）：

方法	无后处理	JPEG q=75	高斯噪声	组合攻击
PGD（无模糊）	高	大幅下降	大幅下降	近乎失效
PGD + BlurGuard	高	仅略降	仅略降	仍然有效
AdvDM（无模糊）	高	下降	下降	下降
AdvDM + BlurGuard	高	保持	保持	保持

模糊 \(\sigma\)	保护成功率	图像 PSNR	说明
0（无模糊）	基线	最高	不防后处理
0.5	中等提升	高	轻度有效
1.0	显著提升	中高	最优平衡点
2.0	最高	较低	图像质量损失过大