跳转至

SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking

会议: CVPR 2026
arXiv: 2603.12749
代码: 无
领域: 图像生成
关键词: 扩散模型水印, 语义水印, 篡改定位, 图像溯源, 隐私安全

一句话总结

提出 SLICE 语义水印框架,将图像语义分解为主体/环境/动作/细节四个因子并绑定到初始高斯噪声的不同空间分区,实现不仅可检测水印存在还可定位语义篡改的三状态验证机制,对最强 CSI 攻击的攻击成功率仅 19%(SEAL 为 81%)。

研究背景与动机

领域现状: 扩散模型水印技术从后处理(HiNet)→ 模型微调(Stable Signature)→ training-free 噪声空间注入(Tree-Ring, Gaussian Shading)不断演进。SEAL 进一步引入语义感知,使检测依赖图像内容而非固定全局模式。

现有痛点: 现有语义水印(如 SEAL)依赖单一全局语义绑定。CSI 攻击证明了攻击者可以做局部但全局连贯的语义编辑(如只改主体)来绕过全局水印验证,ASR 高达 81%。内容无关水印(Tree-Ring 等)在生成式伪造攻击下近乎全面崩溃(100% ASR)。

核心矛盾: 图像语义不是单一整体,而是由部分独立的语义因子组成。全局绑定无法区分"整体语义看起来一致但某个局部因子被恶意修改"的情况。

本文目标 (1) 如何将水印与细粒度语义因子绑定而非全局?(2) 如何实现篡改不仅可检测还可定位?(3) 如何保证理论上的安全性保证?

切入角度: 利用扩散模型潜空间的空间可分解性——不同空间区域可以独立携带不同语义的水印信号。

核心 idea: 将图像语义解耦为四因子并各自绑定到噪声潜空间的独立空间分区,使局部语义编辑仅导致对应分区验证失败,实现篡改定位。

方法详解

整体框架

SLICE 分为生成和检测两阶段。生成阶段:VLM 提取四维语义描述 → keyed hash 将每个语义因子映射到噪声潜空间的一个空间分区 → 扩散模型从此噪声生成水印图像。检测阶段:从可疑图像重新提取语义 → 重建参考噪声 → DDIM 反演获取实际噪声 → 逐分区对比 → 三状态判定。

关键设计

  1. 分区化语义注入(Spatially-Partitioned Semantic Injection):

    • 功能:将潜空间网格划分为四个不重叠区域,每个绑定一个语义因子
    • 核心思路:语义因子集 \(\mathcal{K} = \{sub, env, act, det\}\),VLM 用元提示 \(\mathcal{P}_{meta}\) 从图像提取四维描述 \(\mathcal{S} = \{s_k\}\)。对每个空间位置 \(p \in \mathcal{R}_k\),用文本编码器和 keyed hash 生成噪声值 \(\mathbf{z}_T(p) = H(E(s_k), p, \sigma)\)
    • 设计动机:局部语义编辑只会破坏对应分区的噪声匹配,其他分区不受影响。这从根本上解决了全局语义绑定对局部篡改不敏感的问题
  2. 三状态检测机制:

    • 功能:区分"完好"/"局部篡改"/"未水印"三种状态
    • 核心思路:定义逐位置距离 \(d(p) = \|\mathbf{z}_{inv}(p) - \hat{\mathbf{z}}_T(p)\|_2\),计算区域匹配率 \(m_k\) 和全局匹配率 \(m_g\)。State I(完好):\(m_g \geq \tau_g\) 且所有 \(m_k \geq \tau_k\);State II(局部篡改):\(m_g \geq \tau_g\) 但某些 \(m_k < \tau_k\)——失败的分区直接指示被篡改的语义因子;State III(未水印):\(m_g < \tau_g\)
    • 设计动机:传统二元判定(有/无水印)无法诊断篡改类型,三状态判定提供了更丰富的溯源信息
  3. 理论安全保证:

    • 功能:证明篡改定位的鲁棒性和误接受率的指数衰减
    • 核心思路:Theorem 4.3 在有界 DDIM 反演误差和语义分离假设下证明:未篡改因子保持高匹配率 \(m_k \geq 1 - \beta_k - \gamma_k\),篡改因子匹配率显著下降。Theorem 4.4 证明未水印图像的误接受概率随潜位置数指数下降
    • 设计动机:提供数学保证而非仅靠实验验证,增强方案的可信度

损失函数 / 训练策略

SLICE 是完全 training-free 的方法。使用 Stable Diffusion V2 生成,QWen3-VL 提取语义,采用中文提示(实验证明中文在 Qwen 上语义提取稳定性最高,余弦相似度接近 1.0)。

实验关键数据

主实验(攻击成功率 ASR% ↓,越低越好)

方法 LFA RPM CSI
Gaussian Shading 100 100 100
Tree-Ring 93.81 100 100
WIND 100 100 100
SEAL 0 7 81
SLICE 0 5 19

常见扰动鲁棒性

变换 Clean Rotate JPEG Blur Noise 亮度
准确率 1.000 1.000 0.990 0.988 0.993 0.941

关键发现

  • 对最强的 CSI 攻击 ASR 从 SEAL 的 81% 降到 SLICE 的 19%,提升 4x 以上
  • 内容无关水印对生成式伪造完全无防御力(ASR 近 100%),SLICE 彻底解决了这一问题
  • CLIP 得分下降极小(33.034→32.789),水印注入对图像质量几乎无影响
  • 中文提示在 Qwen3-VL 上语义稳定性最高(所有四维余弦相似度接近 1.0)

亮点与洞察

  • 语义分区化设计:将"monolithic global binding"替换为"compartmentalized binding"是解决局部篡改的根本思路——让不同语义因子各守其位,互不干扰
  • 三状态验证:超越了传统的有/无水印二元判定,提供篡改定位能力——这对内容溯源和版权纠纷解决有重大实用价值
  • 理论+实验双重保证:不仅有实验结果,还有误接受率的指数衰减定理和篡改定位的鲁棒性证明

局限与展望

  • 语义提取依赖 VLM(Qwen3-VL)的稳定性,不同 VLM 或 VLM 版本升级可能影响一致性
  • 四分区的数量固定,对语义结构更复杂的图像可能不够灵活
  • DDIM 反演的累积误差在高噪声步数或复杂架构上可能增大

相关工作与启发

  • vs SEAL: SEAL 用单一全局语义绑定,SLICE 用四因子分区绑定。CSI 攻击下 ASR 从 81% 降到 19%
  • vs Tree-Ring/Gaussian Shading: 内容无关水印对生成式伪造无防御力(100% ASR),SLICE 通过语义感知彻底解决
  • 语义水印 → 内容可信度: SLICE 的三状态判定开辟了"可信AI内容"的新方向

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 语义分区化水印是全新思路,三状态验证在水印领域首创
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多种攻击和扰动,有理论分析
  • 写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨,可视化案例直观
  • 价值: ⭐⭐⭐⭐⭐ 对 AI 内容溯源和可信生成具有重要推动意义