UniDef: Universal Defense Against Unauthorized Image Manipulation¶

会议: CVPR 2026
论文: CVF Open Access
领域: AI 安全 / 对抗扰动 / 图像版权保护
关键词: 未授权篡改防御、扩散模型、分布偏移、雅可比估计、可迁移保护

一句话总结¶

UniDef 给图像加上一层不可见的对抗扰动，让任何基于扩散模型的编辑/生成（SD、InstructPix2Pix、超分、图生视频、图生 3D）都生成语义崩坏的结果；它不再只扰动单步去噪方向，而是沿整条去噪轨迹把输出分布推离原图，并用有限差分雅可比估计做到无需特定模型梯度即可跨模型迁移。

研究背景与动机¶

领域现状：扩散模型让"拿一张参考图就能高保真编辑/生成"变得轻而易举，但这也带来隐私和版权风险——任何人的照片都可能被擅自做 deepfake、风格化或重绘。主动防御（active protection）这一路线的思路是：在图像里预先嵌入人眼不可见的对抗扰动 $\delta$，使得未授权的扩散模型一旦拿这张图去编辑，就只能产出扭曲、语义错乱的废图。代表工作有 PhotoGuard/AdvDM（扰动预测噪声）、Mist/ACE（叠加语义+纹理目标制造马赛克伪影）、DiffusionGuard（专攻早期去噪步）、AdvPaint（破坏注意力）等。

现有痛点：作者指出这些方法有两个共同的硬伤。其一，它们都只在单个/局部去噪步上做手脚（扰动某一步的预测噪声或某层注意力），导致即便扰动生效，生成图往往仍残留原图或编辑后的语义——视觉上看得出主体是谁。其二，优化扰动时强依赖特定模型的梯度，在 SD v1.4 上优化好的扰动换到 v2.1 或换个下游任务（超分、图生 3D）就大幅失效，缺乏可迁移性。

核心矛盾：为什么"局部扰动 + 模型专属梯度"行不通？作者去剖析扩散模型的梯度性质（Fig. 2）：从局部视角看，不同扩散变体（SD v1.4/v1.5、IP2P）在低噪声步上的去噪方向差异很大，梯度差异（L2 范数）显著——这正是过拟合单一模型、保护不通用的根源；但从全局视角看，所有扩散模型都在干同一件事——把纯噪声还原回原始数据分布，当把整条去噪轨迹积分起来看，它们的梯度差异趋于可忽略。换句话说，模型在"逐步方向"上各不相同，却在"最终分布目标"上高度一致。

本文目标 + 切入角度：既然局部方向不一致、全局分布一致，那就别在某一步上较劲，而是直接破坏"最终要收敛到的那个分布"——把生成结果整体推离原图分布。这样既能彻底抹掉残留语义（全局而非局部），又天然跨模型通用（打的是所有扩散模型共享的目标）。

核心 idea：用 Consistent Distribution Deviation（CDD） 沿完整去噪过程把输出分布推离原图分布，再用 Finite Difference-based Jacobian Estimation（FDJE） 以模型无关的方式估计这条全局轨迹的梯度，从而得到一份"打一次、处处生效"的通用防御扰动。

方法详解¶

整体框架¶

UniDef 的目标是为一张干净图 $x_0$ 求出一份 $\ell_\infty$ 受限的不可见扰动 $\delta$，使受保护图 $x_0' = x_0 + \delta$ 被任意扩散模型处理后，生成结果的分布严重偏离 $x_0$。整体是一个梯度上升迭代优化的闭环：在像素空间给图加扰动 → 走完整条扩散去噪轨迹得到分布偏移损失 $L(x_0')$ → 沿轨迹推导该损失对 $x_0'$ 的梯度（雅可比形式）→ 因雅可比依赖具体模型，改用有限差分 + 图像潜编码 $z$ 做模型无关估计 → 用估计梯度做投影梯度上升（PGD）更新 $\delta$ → 迭代收敛后输出受保护图。三个核心组件 CDD / 雅可比推导 / FDJE 分别解决"打哪里""怎么求梯度""怎么去模型依赖"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原图 x0 + 扰动 δ"] --> B["全图扩散去噪轨迹<br/>0→T"]
    B --> C["一致分布偏移 CDD<br/>沿整条轨迹推离原图分布"]
    C --> D["雅可比梯度推导<br/>沿轨迹积分得 ∇L"]
    D -->|雅可比依赖具体模型| E["有限差分雅可比估计 FDJE<br/>对称差分 + 潜编码 z 作探测方向"]
    E --> F["投影梯度上升更新 δ<br/>ℓ∞ 投影保不可见"]
    F -->|迭代未收敛| A
    F -->|收敛| G["受保护图 x0'<br/>跨模型/跨任务生效"]

关键设计¶

1. 一致分布偏移 CDD：从"扰一步"升级为"扰整条轨迹"

针对"局部扰动留残影"的痛点，CDD 把保护目标从单步去噪偏差改写成对整条去噪轨迹的分布偏移。作者先给出 Lemma 3.1：存在最优扰动 $\delta$ 使受保护图 $x_0'$ 的输出分布 $p_0$ 偏离原图分布 $q_0$，目标是最大化二者的 KL 散度 $$\delta = \arg\max_{\|\delta\|_p \le \varepsilon} L_{KL}\big(p_0(x_0+\delta)\,\|\,q_0\big) = \arg\max_{\|\delta\|_p \le \varepsilon} \int_0^T w(t)\,\big\|\epsilon_\theta(x_t', t) - \epsilon\big\|_2^2\, dt .$$ 关键在那个时间积分 $\int_0^T$：它把去噪当作连续时间过程，对每个噪声层 $t$ 的去噪偏差 $\|\epsilon_\theta(x_t',t)-\epsilon\|_2^2$ 加权 $w(t)$ 后累加，给出的是"整条轨迹的全局噪声差异"，而不是某一步的局部差异。证明里作者用连续时间的 score 差异表示 KL（$s_\theta - s^\star$ 的轨迹积分），再用单个采样噪声 $\epsilon$ 近似不可计算的真实分布 score、用单样本 $x_t'$ 替代分布级期望（因为目标是针对这一张图优化扰动），最终化简成 Eq. (9) 的可优化形式。这样得到的扰动破坏的是"扩散重建在分布层面的结果"，而非表面失真——消融里去掉 CDD 后生成图明显保留原语义（FID 从 405 跌到 140），印证了"全局轨迹"才是抹掉残影的关键。

2. 雅可比梯度推导：把"分布偏移"翻译成可反传的图像空间梯度

有了 CDD 的损失，还得求它对像素扰动 $x_0'$ 的梯度才能优化。由于 $\epsilon$ 与 $x_0'$ 无关，微分只经由 $x_t'$ 传播，作者推得单步梯度 $$\nabla_{x_0'}\|\epsilon_\theta(x_t',t)-\epsilon\|_2^2 = 2\sqrt{\bar\alpha_t}\, J_\theta(x_t',t)^\top\big(\epsilon_\theta(x_t',t)-\epsilon\big),$$ 其中 $J_\theta(x_t',t)=\partial \epsilon_\theta(x_t',t)/\partial x_t'$ 是去噪器对输入的雅可比。把它代回时间积分，得到对 $x_0'$ 的全局累积梯度 $$\nabla_{x_0'}L(x_0') = 2\int_0^T \sqrt{\bar\alpha_t}\, w(t)\, J_\theta(x_t',t)\big(\epsilon_\theta(x_t',t)-\epsilon\big)\, dt .$$ 这一步的意义是把抽象的"分布偏移"落到一份能驱动 PGD 的具体梯度上。但问题随之而来：$J_\theta$ 本身就是某个具体去噪网络 $\epsilon_\theta$ 的雅可比，直接算它等于把扰动绑死在这个模型上——这正是第二个痛点的来源，于是引出 FDJE。

3. 有限差分雅可比估计 FDJE：用图像潜编码 z 做模型无关的全局梯度估计

为摆脱对特定模型的依赖，FDJE 不再显式计算 $J_\theta$。它先用 Hutchinson 迹估计把 $J^\top v$ 写成随机投影的期望 $A^\top v = \mathbb{E}_y[y\langle Ay, v\rangle]$，再用对称有限差分近似昂贵的雅可比-向量积（JVP）： $$\hat J_z(t;z) = \frac{\epsilon_\theta(x_t'+\epsilon_{fd}z,\, t) - \epsilon_\theta(x_t'-\epsilon_{fd}z,\, t)}{2\,\epsilon_{fd}},$$ 其中 $\epsilon_{fd}$ 是差分步长（默认 0.01）。这意味着只需对去噪器做两次前向（正负各扰动一点），就能在不反传、不碰网络内部权重的情况下探到去噪方向的局部变化——天然不会过拟合某个具体架构。更关键的一笔是探测方向的选择：作者不用随机向量 $y$，而是用 AutoEncoder 编出的原图潜编码 $z$（仍服从 $\mathcal{N}(0,I)$）。因为随机方向在高维像素空间里大多与"真正决定语义的方向"无关，估出的全局梯度不准；而 $z$ 是与图像内容对齐、分布一致的方向，能给出语义感知的梯度估计。消融证实：把 $z$ 换成随机向量（w/o z）后，生成图仍保留原图主体结构，说明随机方向估不准全局去噪方向；去掉整个 FDJE（w/o FDJE）则跨任务（IP2P）泛化明显变差，正是过拟合特定梯度所致。

损失函数 / 训练策略¶

优化在像素空间对 $\delta$ 做投影梯度上升（PGD），第 $i$ 步更新为 $$\delta^{(i)} = \Pi_{\|\delta\|_\infty \le \xi}\Big(\delta^{(i-1)} + \eta\,\mathrm{sign}\big(\nabla_{x_0'}L(x_0')\big)\Big),$$ $\eta$ 为步长，$\Pi$ 把扰动投影到 $\ell_\infty$ 球内以保证不可见性。默认 $\xi = 16/255$、$\epsilon_{fd}=0.01$，扰动在 SD v1.4 上生成，再迁移到其他模型与任务测试，单张 RTX 4090 即可运行。

实验关键数据¶

数据：ImageNet 100 张 + Landscape 100 张（涵盖人物、物体、场景），统一中心裁剪到 512×512。指标 PSNR↓、CLIP↓、FID↑、LPIPS↑ 均在"原始编辑结果 vs 受保护图编辑结果"间计算——防御越强，受保护图导致的输出越偏离原图，故 PSNR/CLIP 越低、FID/LPIPS 越高越好。

主实验：跨模型保护（扰动在 SD v1.4 上生成）¶

测试模型	指标	UniDef	次优基线	说明
SD v1.4	FID↑ / CLIP↓	405.54 / 0.9011	Mist 380.20 / AdvDM 0.8545	FID 大幅领先，分布偏移最强
SD v1.5	FID↑ / LPIPS↑	400.01 / 0.6053	ACE 379.92 / SDS 0.6951	同源模型上保护最彻底
SD v2.1	FID↑ / PSNR↓	359.29 / 15.51	AdvPaint 332.18 / Mist 17.22	跨到异构 v2.1 仍最优

CLIP 个别格未必绝对最低（如 SD v1.4 上 AdvDM 的 0.8545 更低），但 UniDef 在反映"整体分布偏离"的 FID 上全面、大幅领先，且 PSNR/LPIPS 同样最优，说明它破坏的是分布层面的重建一致性，而非只制造表面伪影。

跨任务泛化（SD v1.4 扰动直接迁移，Table 2）¶

任务	UniDef CLIP↓ / FID↑	次优	结论
InstructPix2Pix	0.8086 / 239.88	ACE 0.8138 / AdvPaint 195.01	编辑语义被彻底打乱
Inpainting	0.8371 / 251.61	ACE 0.8404 / AdvPaint 240.07	重绘区域结构崩坏
Super-Resolution	0.9198 / 277.11	ACE 0.9262 / Mist 202.37	超分纹理失真最强
Image-to-Video (SVD)	0.8852 / 107.04	AdvPaint 0.8876 / SDS 94.45	视频时序语义被破坏
Image-to-3D (Zero123++)	0.7378 / 245.17	Mist 0.7445 / Mist 187.95	3D 重建视角一致性被毁

五个下游任务上 UniDef 同时取得最低 CLIP 与最高 FID，证明它打的是所有任务共享的底层生成分布，而非某个任务专属机制。

消融实验（Table 4，SD v1.4 / IP2P 两列）¶

配置	SD v1.4 FID↑	IP2P CLIP↓	说明
w/o CDD	140.31	0.8277	去掉全局分布偏移，残留原语义，FID 暴跌
w/o FDJE	242.84	0.8238	退回模型专属梯度，跨任务泛化变差
w/o z（用随机向量）	164.52	0.8155	随机方向估不准全局梯度，保留主体结构
Full UniDef	405.54	0.8086	三者齐备，分布偏移与泛化俱佳

鲁棒性（Table 3，后处理攻击）¶

后处理	PSNR↓	CLIP↓	FID↑	表现
无处理	16.40	0.9011	405.54	基准
JPEG 压缩	17.56	0.8940	155.37	FID 降但语义仍乱
裁剪 / 仿射	~18	~0.89–0.91	~182	几何变换下稳定
外部去噪	20.56	0.9356	93.56	唯一明显削弱，仍维持低语义对齐

关键发现¶

CDD 贡献最大：去掉它 FID 从 405 直接跌到 140，且生成图重新保留原语义——印证"全局轨迹偏移"是抹掉残影的核心，单步扰动远远不够。
FDJE 决定跨任务泛化：去掉后 IP2P 上保护变弱，因为退回到模型专属反传梯度会过拟合 SD v1.4 自身。
潜编码 z 不可替换：用随机向量做探测方向，生成图仍保留主体结构，说明随机方向无法对齐语义、估不准全局去噪方向。
去噪是最强攻击：外部去噪能把 FID 从 405 压到 93，是唯一显著削弱防御的后处理；JPEG/裁剪/仿射/加噪下保护基本稳定。

亮点与洞察¶

"局部各异、全局一致"这一观察是全文支点：作者用梯度差异随去噪步收敛的实证（Fig. 2）把"为什么要打全局分布而非局部步"讲成了一个有依据的设计动机，而不是空喊"我们更通用"。这种"先找模型间的不变量、再攻击不变量"的思路可迁移到任何需要跨模型攻击/防御的场景。
用图像自己的潜编码 z 当雅可比探测方向很巧：既满足 $\mathcal{N}(0,I)$ 的理论要求，又自带语义对齐，把"无意义的随机探测"换成"内容感知的探测"，这是 w/o z 消融大掉点的根因，也是个可复用的 trick。
有限差分换掉 JVP 让整套保护无需对去噪器反传、不碰模型内部，因此天然模型无关——这是"打一次、处处生效"工程上能成立的关键。

局限与展望¶

对外部去噪鲁棒性偏弱：Table 3 中去噪把 FID 从 405 压到 93、PSNR 升到 20.56，是最有效的反制；现实中攻击者只要先跑一遍去噪/超分预处理，保护强度就会明显下降。
评测规模较小：每个数据集仅 100 张、固定 512×512，且只在 SD 系 + 几个代表性下游模型上验证，对更新的扩散架构（如 SDXL、DiT/Flux 类、商用闭源 API）能否同样迁移未知。
CLIP 指标并非全面占优：个别设置下基线 CLIP 更低，论文主要靠 FID 论证优势；"分布偏移大"是否等价于"用户主观上更难辨认主体"还缺更直接的人评。
可改进方向：在优化目标里显式加入对去噪/JPEG 的对抗鲁棒项（EoT 式期望变换训练），有望补上去噪这块短板。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「局部各异、全局一致」的观察 + CDD 全局分布偏移 + FDJE 模型无关雅可比估计，首个跨模型跨任务的通用防御框架。
实验充分度: ⭐⭐⭐⭐ 三模型 + 五任务 + 鲁棒性 + 三项消融较完整，但每集仅 100 张、未覆盖 SDXL/DiT 类新架构。
写作质量: ⭐⭐⭐⭐ 动机—观察—方法推导链条清晰，公式与 Lemma 推导完整；个别符号渲染（缓存版）略乱但不影响理解。
价值: ⭐⭐⭐⭐ 直击 AIGC 时代图像版权/隐私防护的真实痛点，通用性强、单卡可跑，落地潜力大；去噪鲁棒性待加强。