跳转至

BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Edit

会议: NeurIPS 2025
arXiv: 2511.00143
代码: 有
领域: 图像安全 / 对抗扰动
关键词: 图像保护, 对抗扰动, AI编辑防御, 模糊预处理, 扩散模型

一句话总结

提出 BlurGuard——在生成对抗扰动之前先对图像做轻度模糊预处理,使扰动更鲁棒地抵御 JPEG 压缩、高斯噪声等后处理操作,从而更有效地保护图像不被 Stable Diffusion 等 AI 编辑工具篡改,在保护成功率上比不模糊基线提升 20%+。

研究背景与动机

领域现状:AI 图像编辑(Stable Diffusion inpainting、Instruct-Pix2Pix 等)使任何人都能轻易修改他人照片,引发肖像权和虚假信息风险。对抗扰动是主要防御手段——向图像添加人眼不可见的噪声使 AI 编辑失败。

现有痛点: - 对抗扰动本质上是高频信号,极易被简单的后处理操作(JPEG 压缩、高斯滤波、降噪)消除 - 社交媒体平台普遍对上传图片进行压缩处理,扰动在上传后就失效了 - 现有增强鲁棒性的方法(如 DiffPure、对抗训练)计算成本高或需要修改防御框架

核心矛盾:对抗扰动需要"不可见"(小幅度/高频),但正因为小幅度和高频,它们容易被压缩和滤波消除。增大扰动幅度可提高鲁棒性但损害图像质量。

本文目标 在不增大扰动幅度的前提下,使对抗扰动更能抵抗后处理。

切入角度:如果先对图像做轻度模糊再生成扰动,扰动会被优化到与模糊图像的低频结构耦合,从而更难被高频滤波消除。

核心 idea:先模糊(将图像移到低频域)→ 再生成扰动(扰动与低频结构耦合)→ 扰动更难被后处理消除。

方法详解

整体框架

原始图像 \(x\) → 轻度高斯模糊/降噪 \(x_{blur} = \text{Blur}(x)\) → 在 \(x_{blur}\) 上生成对抗扰动 \(\delta\) → 输出保护图像 \(x_{blur} + \delta\) → 上传社交媒体(经 JPEG/压缩)→ AI 编辑失败。

关键设计

  1. 预模糊策略:

    • 功能:在生成扰动前将图像移到低频域
    • 核心思路:用轻度高斯模糊(\(\sigma \approx 0.5-1.0\))或双边滤波处理图像。模糊强度需平衡——太弱无效,太强损害图像质量
    • 设计动机:原始图像的高频细节(纹理、边缘)和对抗扰动都是高频信号,后处理时被一起删除。预模糊去除了图像自身的高频分量,迫使扰动生成算法将扰动"嵌入"到剩余的低频结构中,这些低频结构正是后处理难以消除的
  2. 扰动生成兼容性:

    • 功能:确保 BlurGuard 可与任何现有扰动方法兼容
    • 核心思路:BlurGuard 是预处理步骤,不修改扰动生成算法本身(PGD、C&W、AdvDM 等均可用)
    • 设计动机:即插即用设计,用户可自由选择最适合的扰动方法
  3. 视觉质量控制:

    • 功能:确保模糊不会过度损害图像质量
    • 核心思路:模糊参数(\(\sigma\)、核大小)经网格搜索确定最优值,在保护成功率和 PSNR/SSIM 之间取得平衡
    • 设计动机:保护图像如果视觉质量太差,用户不会使用

损失函数 / 训练策略

  • 标准对抗扰动优化:\(\min_\delta \mathcal{L}_{edit}(x_{blur} + \delta) + \lambda \|\delta\|_\infty\)
  • 无需训练,纯推理时操作
  • 扰动幅度限制 \(\|\delta\|_\infty \leq \epsilon\),通常 \(\epsilon = 8/255\)

实验关键数据

主实验

在 Stable Diffusion Inpainting 上的保护成功率(编辑质量下降越多=保护越成功):

方法 无后处理 JPEG q=75 高斯噪声 组合攻击
PGD(无模糊) 大幅下降 大幅下降 近乎失效
PGD + BlurGuard 仅略降 仅略降 仍然有效
AdvDM(无模糊) 下降 下降 下降
AdvDM + BlurGuard 保持 保持 保持

消融:模糊强度的影响

模糊 \(\sigma\) 保护成功率 图像 PSNR 说明
0(无模糊) 基线 最高 不防后处理
0.5 中等提升 轻度有效
1.0 显著提升 中高 最优平衡点
2.0 最高 较低 图像质量损失过大

关键发现

  • 极其简单但显著有效:仅加一步高斯模糊就将 JPEG 后对抗扰动的存活率从约 30% 提升到 50%+
  • BlurGuard 与所有扰动方法兼容:PGD、C&W、AdvDM 加上 BlurGuard 后均获得显著的鲁棒性提升
  • 模糊强度 \(\sigma \approx 1.0\) 是最佳平衡点
  • 对自适应攻击也有效:即使攻击者知道使用了 BlurGuard,由于低频耦合的特性,扰动仍然更难消除

亮点与洞察

  • "先去掉高频再生成扰动"的思路简洁但深刻——直觉上反直觉(模糊不是在损害图像吗?),但从频域角度完全合理
  • 零成本即插即用:一行代码的高斯模糊,完全无训练
  • 对任何需要鲁棒对抗扰动的场景都有价值(不限于图像编辑保护)

局限与展望

  • 模糊本身是视觉质量的损失,对高分辨率细腻图像可能不可接受
  • 最优 \(\sigma\) 可能因图像内容和后处理类型而异,目前需手动调
  • 对非线性后处理(如AI去噪器)的效果需进一步验证
  • 未在真实社交媒体平台上端到端测试

相关工作与启发

  • vs PhotoGuard (Salman et al.):标准对抗扰动方法,不处理后处理鲁棒性。BlurGuard 可直接叠加
  • vs DiffPure:用扩散模型本身做纯化防御,计算成本高。BlurGuard 零成本
  • vs 对抗训练:需要预知后处理类型并训练。BlurGuard 无需先验

评分

  • 新颖性: ⭐⭐⭐ 思路简单但有效,技术创新有限
  • 实验充分度: ⭐⭐⭐⭐ 多种扰动方法、多种后处理、消融完整
  • 写作质量: ⭐⭐⭐⭐ 清晰直观
  • 价值: ⭐⭐⭐⭐ 即插即用的鲁棒性提升对图像隐私保护有实际意义