SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking¶

会议: CVPR 2026
arXiv: 2603.12749
代码: 无
领域: 图像生成
关键词: 扩散模型水印, 语义水印, 篡改定位, 图像溯源, 隐私安全

一句话总结¶

提出 SLICE 语义水印框架，将图像语义分解为主体/环境/动作/细节四个因子并绑定到初始高斯噪声的不同空间分区，实现不仅可检测水印存在还可定位语义篡改的三状态验证机制，对最强 CSI 攻击的攻击成功率仅 19%（SEAL 为 81%）。

研究背景与动机¶

领域现状: 扩散模型水印技术从后处理（HiNet）→ 模型微调（Stable Signature）→ training-free 噪声空间注入（Tree-Ring, Gaussian Shading）不断演进。SEAL 进一步引入语义感知，使检测依赖图像内容而非固定全局模式。

现有痛点: 现有语义水印（如 SEAL）依赖单一全局语义绑定。CSI 攻击证明了攻击者可以做局部但全局连贯的语义编辑（如只改主体）来绕过全局水印验证，ASR 高达 81%。内容无关水印（Tree-Ring 等）在生成式伪造攻击下近乎全面崩溃（100% ASR）。

核心矛盾: 图像语义不是单一整体，而是由部分独立的语义因子组成。全局绑定无法区分"整体语义看起来一致但某个局部因子被恶意修改"的情况。

本文目标 (1) 如何将水印与细粒度语义因子绑定而非全局？(2) 如何实现篡改不仅可检测还可定位？(3) 如何保证理论上的安全性保证？

切入角度: 利用扩散模型潜空间的空间可分解性——不同空间区域可以独立携带不同语义的水印信号。

核心 idea: 将图像语义解耦为四因子并各自绑定到噪声潜空间的独立空间分区，使局部语义编辑仅导致对应分区验证失败，实现篡改定位。

方法详解¶

整体框架¶

SLICE 分为生成和检测两阶段。生成阶段：VLM 提取四维语义描述 → keyed hash 将每个语义因子映射到噪声潜空间的一个空间分区 → 扩散模型从此噪声生成水印图像。检测阶段：从可疑图像重新提取语义 → 重建参考噪声 → DDIM 反演获取实际噪声 → 逐分区对比 → 三状态判定。

关键设计¶

分区化语义注入（Spatially-Partitioned Semantic Injection）:
- 功能：将潜空间网格划分为四个不重叠区域，每个绑定一个语义因子
- 核心思路：语义因子集 \(\mathcal{K} = \{sub, env, act, det\}\)，VLM 用元提示 \(\mathcal{P}_{meta}\) 从图像提取四维描述 \(\mathcal{S} = \{s_k\}\)。对每个空间位置 \(p \in \mathcal{R}_k\)，用文本编码器和 keyed hash 生成噪声值 \(\mathbf{z}_T(p) = H(E(s_k), p, \sigma)\)
- 设计动机：局部语义编辑只会破坏对应分区的噪声匹配，其他分区不受影响。这从根本上解决了全局语义绑定对局部篡改不敏感的问题
三状态检测机制:
- 功能：区分"完好"/"局部篡改"/"未水印"三种状态
- 核心思路：定义逐位置距离 \(d(p) = \|\mathbf{z}_{inv}(p) - \hat{\mathbf{z}}_T(p)\|_2\)，计算区域匹配率 \(m_k\) 和全局匹配率 \(m_g\)。State I（完好）：\(m_g \geq \tau_g\) 且所有 \(m_k \geq \tau_k\)；State II（局部篡改）：\(m_g \geq \tau_g\) 但某些 \(m_k < \tau_k\)——失败的分区直接指示被篡改的语义因子；State III（未水印）：\(m_g < \tau_g\)
- 设计动机：传统二元判定（有/无水印）无法诊断篡改类型，三状态判定提供了更丰富的溯源信息
理论安全保证:
- 功能：证明篡改定位的鲁棒性和误接受率的指数衰减
- 核心思路：Theorem 4.3 在有界 DDIM 反演误差和语义分离假设下证明：未篡改因子保持高匹配率 \(m_k \geq 1 - \beta_k - \gamma_k\)，篡改因子匹配率显著下降。Theorem 4.4 证明未水印图像的误接受概率随潜位置数指数下降
- 设计动机：提供数学保证而非仅靠实验验证，增强方案的可信度

损失函数 / 训练策略¶

SLICE 是完全 training-free 的方法。使用 Stable Diffusion V2 生成，QWen3-VL 提取语义，采用中文提示（实验证明中文在 Qwen 上语义提取稳定性最高，余弦相似度接近 1.0）。

实验关键数据¶

主实验（攻击成功率 ASR% ↓，越低越好）¶

方法	LFA	RPM	CSI
Gaussian Shading	100	100	100
Tree-Ring	93.81	100	100
WIND	100	100	100
SEAL	0	7	81
SLICE	0	5	19

常见扰动鲁棒性¶

变换	Clean	Rotate	JPEG	Blur	Noise	亮度
准确率	1.000	1.000	0.990	0.988	0.993	0.941

关键发现¶

对最强的 CSI 攻击 ASR 从 SEAL 的 81% 降到 SLICE 的 19%，提升 4x 以上
内容无关水印对生成式伪造完全无防御力（ASR 近 100%），SLICE 彻底解决了这一问题
CLIP 得分下降极小（33.034→32.789），水印注入对图像质量几乎无影响
中文提示在 Qwen3-VL 上语义稳定性最高（所有四维余弦相似度接近 1.0）

亮点与洞察¶

语义分区化设计：将"monolithic global binding"替换为"compartmentalized binding"是解决局部篡改的根本思路——让不同语义因子各守其位，互不干扰
三状态验证：超越了传统的有/无水印二元判定，提供篡改定位能力——这对内容溯源和版权纠纷解决有重大实用价值
理论+实验双重保证：不仅有实验结果，还有误接受率的指数衰减定理和篡改定位的鲁棒性证明

局限与展望¶

语义提取依赖 VLM（Qwen3-VL）的稳定性，不同 VLM 或 VLM 版本升级可能影响一致性
四分区的数量固定，对语义结构更复杂的图像可能不够灵活
DDIM 反演的累积误差在高噪声步数或复杂架构上可能增大

评分¶

新颖性: ⭐⭐⭐⭐⭐ 语义分区化水印是全新思路，三状态验证在水印领域首创
实验充分度: ⭐⭐⭐⭐ 覆盖多种攻击和扰动，有理论分析
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，可视化案例直观
价值: ⭐⭐⭐⭐⭐ 对 AI 内容溯源和可信生成具有重要推动意义