Rel-Zero: Harnessing Patch-Pair Invariance for Robust Zero-Watermarking Against AI Editing¶
会议: CVPR 2026
arXiv: 2603.17531
代码: 无
领域: 图像生成
关键词: 零水印, 图像编辑鲁棒性, patch关系不变性, 内容认证, 扩散模型
一句话总结¶
本文发现图像patch对之间的关系距离在AI编辑后保持不变,并利用该不变性构建了一种零水印框架Rel-Zero,无需修改原图即可实现对多种生成式编辑的鲁棒内容认证。
研究背景与动机¶
领域现状:数字水印是保护图像版权和认证内容真实性的关键技术。现有方法分为嵌入式水印(在图像中注入信号)和零水印(不修改图像,提取特征指纹存储在外部数据库中)。
现有痛点:嵌入式水印(如VINE、RobustWide)为了抵抗扩散模型编辑,必须注入强信号,这不可避免地引入可感知的失真,降低图像质量。零水印方法虽然保持完美图像质量,但依赖全局特征(SIFT、深度分类器的绝对特征描述子),这些特征恰恰是生成模型擅长改变的,导致鲁棒性极低。
核心矛盾:保真度与鲁棒性的trade-off——嵌入式方法牺牲质量换鲁棒性,零水印方法保持质量但鲁棒性差。在医学影像、自动驾驶等高精度领域,水印引入的噪声可能导致灾难性后果。
本文目标 在不修改原图的前提下(零水印),实现对生成式AI编辑的高鲁棒性认证。
切入角度:作者通过大规模实验分析发现,虽然AI编辑会大幅改变单个patch的像素值和绝对特征,但patch对之间的关系距离(pairwise distance)却保持惊人的不变性。\(d_{ij}^{\text{after}} \approx \alpha \cdot d_{ij}^{\text{before}} + \beta\),其中 \(\alpha \approx 1, \beta \approx 0, R^2 > 0.95\)。
核心 idea:利用patch对关系距离的编辑不变性作为零水印的基础,将水印构建为一组稳定patch对的索引集合。
方法详解¶
整体框架¶
Rel-Zero 的出发点是一个反直觉的实证观察。作者从 UltraEdit 和 MagicBrush 中随机采样 10000 张图像(确定性重生成 2000、全局编辑 4000、局部编辑 4000),把每张图划成 \(N=256\) 个不重叠 patch,用 RGB 均值向量 \(\{v_i\}_{i=1}^N\) 表征每个 patch,然后计算所有 \(\binom{N}{2}\) 个 patch 对在编辑前后的 L2 距离差异。结果是:单个 patch 的像素和绝对特征被 AI 编辑改得面目全非,但 patch 对之间的距离差异却呈近零均值、紧密分布,没有系统性偏差。把编辑前后的距离画成散点做相关性分析,更得到一条近乎完美的直线 \(d_{ij}^{\text{after}} \approx \alpha \cdot d_{ij}^{\text{before}} + \beta\),斜率 \(\alpha \approx 1\)、截距 \(\beta \approx 0\)、\(R^2 > 0.95\)、Spearman \(\rho \approx 1\)。换句话说,编辑只是把 patch 间的相对距离做了一次几乎均匀的缩放——这就是特征空间里的近仿射不变性。
为什么会这样?一方面,扩散编辑模型训练时带着内容/结构保持损失(LPIPS、L1/L2 重建损失),会惩罚不必要的扰动,使跨 patch 的相对关系成为模型刻意维持的核心不变量;另一方面,一次语义编辑对应潜空间里的低维方向,解码回图像后施加的是一个近似均匀的变换。当这个变换近似仿射 \(v_i' \approx A v_i + b\) 时,\(v_i' - v_j' \approx A(v_i - v_j)\),距离被整体缩放而相对关系原封不动。Rel-Zero 正是把这个不变量做成水印:整条 pipeline 分三步——先用 VAE 模拟编辑造出"哪些 patch 对真正稳定"的训练标签,再训一个轻量 edge predictor 学会从单张图直接预测稳定对,最后取置信度最高的 top-K 对作为零水印索引。关键是推理时只用到第二步的网络,喂进一张图就能吐出水印索引集合,不需要 VAE、也不需要真去跑一遍编辑。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["原图 I"] --> P["ViT 提 patch 特征"]
A --> R["VAE 重建图(模拟编辑)"]
R --> P2["ViT 提 patch 特征"]
subgraph S1["稳定 patch 对识别(设计1)"]
direction TB
P --> C["算编辑前后距离差<br/>稳定性分数 s = exp(−|d − d̂|)"]
P2 --> C
C --> L["取 top-K 当不变对标签 E_g"]
end
L -->|BCE 监督| M["Patch 关系学习<br/>轻量 MLP 从单图预测稳定对(设计2)"]
M --> W["水印生成<br/>取 top-K 预测对编成索引集合存库(设计3)"]
W --> V2["验证:嫌疑图取 top-K<br/>算 Jaccard 重叠 η 比阈值"]
V2 -->|η ≥ 阈值| O["判为同源 / 认证通过"]
关键设计¶
1. 稳定 patch 对识别:用 VAE 廉价模拟编辑,造出训练用的「不变对」标签
edge predictor 要学的是"哪些 patch 对在编辑后会保持稳定",可监督信号从哪来是第一个难题——给每张训练图都真跑一遍扩散编辑代价高到不可行。作者(受 VINE 启发)改用预训练 VAE 的重建来近似编辑:把原图 \(\mathbf{I}\) 和它的 VAE 重建图分别过 ViT 提取 patch 级特征 \(\mathcal{F} = \phi_{\text{vit}}(\mathbf{I})\),对每个 patch 对算编辑前后的距离差,并定义稳定性分数 \(s_{ij} = \exp(-|d_{ij} - \hat{d}_{ij}|)\),取分数最高的 top-K 对当作 ground-truth 集合 \(\mathcal{E}_g\)。这样做的底气在于 VAE 重建对 patch 关系的扰动方式和扩散编辑类似,但便宜了一个数量级;同时注意分析阶段用的是 RGB 均值,到方法阶段已升级成 ViT 高维特征,距离度量因此能捕获更丰富的语义关系。
2. Patch 关系学习:一个轻量 MLP 从单张图预测哪些对稳定,刻意不用注意力
验证时手里只有一张待认证的图,没有编辑前后的配对,所以必须直接从单图判断哪些 patch 对会稳定。作者把 ViT 抽出的 \(N\) 个 patch 特征两两配成全连接 pair 集合 \(\mathcal{E}\),每个 pair \((i,j)\) 的输入特征是 \(\mathbf{f}_i \oplus \mathbf{f}_j \oplus \|\mathbf{f}_i - \mathbf{f}_j\|_2\)(两端拼接再附上距离),送进 MLP \(\psi\) 加 sigmoid 得到预测分数 \(p_{ij} = \sigma(\psi(\mathbf{f}_i \oplus \mathbf{f}_j \oplus \|\mathbf{f}_i - \mathbf{f}_j\|_2))\)。这里有个反直觉的取舍:消融显示把 MLP 换成 Transformer 或 GAT 反而更差(97.43% → 92.11% / 94.45%),因为这是个本质上的距离估计任务,关键信息藏在 pair 的局部距离特征里,而注意力会把不同 patch 的表征混在一起,恰好抹掉了需要精确判别的细微距离差。简单结构在这里是优势而非妥协。
3. 水印生成与验证:把水印编成 patch 对索引集合,靠 Jaccard 重叠认证
有了 predictor,生成水印就是取置信度最高的 top-K 预测对 \(\mathcal{E}_p = \text{Top-K}(\Phi(\phi_{\text{vit}}(\mathbf{I})))\),把这组索引(而非任何数值特征)存进外部数据库。验证时对嫌疑图同样抽 top-K 得 \(\mathcal{E}_p'\),算两者的 Jaccard 重叠率 \(\eta = |\mathcal{E}_p \cap \mathcal{E}_p'| / K\),再和按目标误报率 FPR=0.1% 校准出的阈值比较。比如存下 \(K=50\) 个 pair 索引,一张图被编辑后若仍有 46 个对重新出现,\(\eta = 0.92\) 远高于阈值,即判为同源。之所以编码成索引集合而不是绝对特征,正是为了承接前面的仿射不变性——索引集合记的是关系和保序性而非具体数值,距离整体缩放也不影响哪些对排在前列;索引还能进一步哈希加密存储(论文附录给了安全存储方案)。
损失函数 / 训练策略¶
用标准二元交叉熵训练 edge predictor:\(\mathcal{L}_{BCE} = -\sum_{i \neq j} [y_{ij} \log(\hat{y}_{ij}) + (1-y_{ij})\log(1-\hat{y}_{ij})] / N(N-1)\),其中 \(y_{ij}=1\) 标记 top-K 不变对(正样本),\(y_{ij}=0\) 标记其余 pair(负样本)。正负比约为 \(K : \binom{N}{2}-K\),极度不平衡(\(K=50\) vs \(\sim\)19000 负样本),但 BCE 在此场景下仍能有效收敛。实现上 ViT-B/16 作为冻结特征提取器(不参与训练),用 Stable Diffusion v1.4 的 VAE 生成训练目标,\(K=50\) pairs,patch 大小 \(16 \times 16\)(224×224 图像对应 \(N=196\) patches),在 COCO 上训练,单卡 NVIDIA A100。
实验关键数据¶
主实验¶
| 方法 | 类型 | PSNR↑ | Regen | Pix2Pix | Magic | Ultra | CtrlN | Cropout | Scale | Contrast | Bright | Gauss |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| DWT-DCT | 嵌入 | 40.38 | 0.09 | 0.04 | 0.05 | 0.32 | 0.56 | 10.35 | 6.78 | 30.18 | 51.88 | 12.45 |
| RobustWide | 嵌入 | 41.93 | 90.41 | 97.23 | 81.97 | 80.45 | 82.11 | 95.31 | 96.45 | 98.93 | 98.89 | 98.12 |
| VINE | 嵌入 | 37.34 | 99.98 | 97.46 | 94.58 | 99.96 | 93.04 | 54.87 | 76.43 | 98.43 | 97.90 | 98.37 |
| ConZWNet | 零水印 | ∞ | 0.10 | 0.02 | 0.01 | 5.13 | 2.41 | 98.75 | 97.43 | 96.22 | 96.56 | 98.75 |
| FGPCET | 零水印 | ∞ | 1.13 | 0.54 | 0.11 | 7.25 | 3.22 | 89.31 | 84.78 | 86.31 | 85.44 | 84.67 |
| Rel-Zero | 零水印 | ∞ | 85.13 | 89.65 | 95.63 | 96.55 | 97.43 | 98.45 | 98.57 | 96.45 | 97.93 | 95.12 |
所有TPR@(0.1%FPR)。核心结论: - Rel-Zero在零水印类别中碾压前作(其他零水印在生成编辑下TPR<10%,Rel-Zero达85-97%) - 在局部编辑(Ultra/CtrlN)上甚至超过嵌入式VINE和RobustWide - 常规扰动下Rel-Zero也保持98%+鲁棒性,因为unifrom变换保持patch对关系几何 - VINE在Cropout(54.87%)和Scaling(76.43%)上表现较差,而Rel-Zero天然鲁棒
消融实验¶
| 模型配置 | TPR@(0.1%FPR) | 说明 |
|---|---|---|
| Ours (ViT + MLP) | 97.43 | 完整模型 |
| ViT → ResNet-18 | 84.13 | Backbone弱导致特征不够好 |
| ViT → ResNet-50 | 85.21 | ResNet仍不如ViT的patch-level表征 |
| MLP → Transformer+MLP | 92.11 | 注意力模糊了距离差异 |
| MLP → GAT+MLP | 94.45 | GAT有类似问题但稍好 |
唯一性分析¶
在COCO、UltraEdit、MagicBrush三个数据集上各采样1000张图像,计算所有图像对的水印Jaccard重叠率。实验表明不同图像间的 \(\eta_{a,b}\) 集中在近零值,方差极小,验证了学到的关系对是图像特定的签名而非通用模板。
参数分析¶
- Top-K影响:\(K\) 增大时鲁棒性稳步提升,但 \(K=50\) 后收益饱和。ControlNet-Inpainting和UltraEdit最鲁棒,Regeneration最具挑战性
- Patch大小影响:\(14 \times 14\) 和 \(16 \times 16\) 效果接近,\(32 \times 32\) 性能骤降——过粗的划分削弱了关系建模能力,patch对过稀疏
关键发现¶
- ViT backbone贡献最大——因为ViT天然产生patch-level特征,对关系距离变化更敏感。ResNet虽有强特征提取能力但缺乏patch-wise结构
- 简单MLP优于Transformer/GAT——pair预测本质是距离估计任务,注意力机制反而模糊了精细距离差异
- 常规扰动(噪声、缩放、对比度、亮度)本质上是对图像施加均匀变换,不改变patch对的相对关系,故Rel-Zero天然鲁棒
- 全局编辑(如Regeneration)仍是最大挑战——因为大规模语义变化可能破坏部分patch关系
亮点与洞察¶
- Patch-pair关系不变性的发现极为巧妙。作者通过10000张图像的统计分析,发现编辑前后patch对距离呈近完美线性关系(\(R^2 > 0.95\)),这为零水印提供了坚实的理论基础
- 用VAE模拟扩散编辑来生成训练数据是很聪明的设计——降低了数量级的计算开销,又保持了对扩散过程结构性影响的近似
- 将水印编码为图索引(edge set)的范式值得借鉴——可迁移到视频水印(时空patch对)、3D模型水印(体素对关系)
局限与展望¶
- 分辨率限制:训练和测试全部在224×224上进行,实际应用中高分辨率图像(如4K医学影像)的效果未验证。高分辨率下patch数量剧增(\(N\) 从196到数千),pair数量呈 \(O(N^2)\) 增长,计算效率是问题
- 编辑模型泛化:仅在5种编辑模型上测试,对未来更强大的编辑器(如基于视频扩散的编辑、3D-aware编辑)的泛化能力未知
- 对抗安全性:攻击者如果知道patch划分方式、\(K\) 值和ViT类型,可能设计针对性攻击来破坏特定patch对的关系
- 正负样本不平衡:BCE损失下 \(K=50\) vs \(\sim\)19000 的极端不平衡,可以尝试focal loss或自适应采样
- 可扩展方向:多尺度patch划分增强鲁棒性;时序扩展到视频水印;结合语义分割的自适应patch划分
相关工作与启发¶
- vs VINE/RobustWide(嵌入式): 通过对抗训练将编辑模型纳入优化,鲁棒性强但代价是图像质量下降(VINE的PSNR仅37.34dB)和巨大的训练开销。Rel-Zero在保持完美保真度(PSNR=∞)的同时,在局部编辑(Ultra 96.55% vs VINE 99.96%、CtrlN 97.43% vs VINE 93.04%)和常规扰动上表现相当甚至更优
- vs ConZWNet/FGPCET(零水印): 同为零水印但思路完全不同。前者依赖深度特征的绝对描述子或手工特征,这些恰恰是生成模型擅长改变的,导致AI编辑下几乎完全失效(TPR < 10%)。Rel-Zero通过发现并利用关系不变性,鲁棒性提升了两个数量级
- vs 传统DWT-DCT: 频域嵌入方法在AI编辑下完全失效(TPR < 1%),说明频域信号在扩散重建过程中被彻底破坏
- 关联思考:关系不变性的insight可迁移到其他认证场景——如deepfake检测中利用面部patch间的关系一致性
评分¶
- 新颖性: ⭐⭐⭐⭐ patch对关系不变性的发现有insight,但框架整体较直接
- 实验充分度: ⭐⭐⭐⭐ 跨多种编辑模型测试,有唯一性分析和参数消融,但缺少高分辨率实验
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,从观察到假设到验证到方法的叙述链条非常流畅
- 价值: ⭐⭐⭐⭐ 为零水印领域提供了新范式,在高保真场景有实际应用价值