Attention to Neural Plagiarism: Diffusion Models Can Plagiarize Your Copyrighted Images!¶

会议: ICCV 2025
arXiv: 2603.00150
代码: https://github.com/zzzucf/Neural-Plagiarism
领域: 图像生成
关键词: 神经抄袭, 扩散模型, 版权保护, 水印去除, 注意力扰动

一句话总结¶

揭示"神经抄袭"威胁——扩散模型可轻松复制受版权保护的图像（包括受水印保护的图像），提出基于"锚点与垫片"的通用攻击框架，通过在交叉注意力机制中搜索扰动实现从粗到细的语义修改，绕过从可见商标到隐形水印的各类版权保护。

研究背景与动机¶

扩散模型的生成能力日益强大，引发了数据版权侵犯的严重担忧。这种被称为"神经抄袭"的威胁有两种形式：

伪造攻击（Forgery Attack）：生成视觉相似的副本同时移除水印，使版权验证失败\(\mathcal{V}(x^*) \neq w\)

模糊攻击（Ambiguity Attack）：替换为新水印制造所有权争议\(\mathcal{V}(x^*) = w^*\)

现有防护措施包括法律框架（GDPR、版权法）和技术手段（可见/隐形水印）。但现有的水印去除方法（如Regen、Rinse）仅通过简单的加噪-去噪过程去除水印，效果有限且往往引入明显噪声。

直接优化目标函数\(\min_{x_T^*} d_{visual}(x_0^w, x_0^*) - \gamma d_{latent}(x_T, x_T^*)\)面临三个挑战：

显存爆炸：每个时间步需计算梯度\(\frac{\partial x_{t-1}^*}{\partial x_t^*}\)，10步需>100GB显存

过度平滑：跳步估计梯度导致图像模糊

噪声输出：高扰动产生噪声而非有意义的语义变化

核心idea：用"锚点"（反转隐变量序列）保持轨迹，用"垫片"（学习的扰动）在特定时间步微调语义，类似安装门时用垫片调整间距——在保持门框对齐的同时调整局部空间。

方法详解¶

整体框架¶

攻击流水线分为两阶段： 1. 锚点获取：将版权图像通过VAE编码为\(\hat{x}_0\)，用DPM solver反转生成过程得到锚点序列\(\{\hat{x}_1, ..., \hat{x}_T\}\) 2. 垫片搜索：从选定时间步K开始反向采样，在特定时间步\(\mathcal{T}_{select}\)上优化垫片\(\delta_t\)（注入到交叉注意力的文本嵌入中），使生成图像视觉相似但隐变量偏离锚点

关键设计¶

锚点与垫片优化（Anchors and Shims）:
- 功能：解耦隐变量的长链依赖，逐时间步独立优化扰动
- 核心思路：保存完整的反转隐变量轨迹作为锚点\(\{\hat{x}_t\}\)，定义垫片\(\delta_t\)为搜索变量：\(x_t^* = \Delta_{\delta_t \in \mathcal{S}}(x_t, \delta_t)\)
- 范数约束：\(\mathcal{L}_{norm}(t) = \max(0, \hat{\varepsilon}_t - \|\delta_t\|)\)，确保垫片足够大以偏离锚点（从而破坏水印）
- 设计动机：通过保存锚点解耦时间步链，每步仅需一步反向传播的显存，解决了>100GB的显存问题
基于注意力的语义搜索（Semantic Search via Attention Perturbation）:
- 功能：在语义空间中进行可控的修改搜索
- 核心思路：不直接扰动隐变量，而是扰动交叉注意力中的文本嵌入——在空字符串嵌入\(\mathbf{e}_\emptyset\)上注入垫片\(\delta_t\)
- 语义保持损失：\(\mathcal{L}_{semantic}(t) = -\frac{\mathbf{e}_\emptyset \cdot (\mathbf{e}_\emptyset + \delta_t)}{\|\mathbf{e}_\emptyset\| \|\mathbf{e}_\emptyset + \delta_t\|}\)（最大化余弦相似度）
- 对齐损失：\(\mathcal{L}_{align}(t) = d(x_{t-1}, \hat{x}_{t-1})\)，保证扰动后输出接近锚点
- 关键洞察：不同时间步的垫片控制不同粒度的语义变化——大时间步改变大语义（如颜色、形状），小时间步改变细节纹理
- 设计动机：交叉注意力是扩散模型中语义控制的核心机制，通过扰动\(K\)和\(V\)的输入实现精确语义操控
迭代搜索过程:
- 功能：在选定时间步上联合优化垫片
- 联合目标：\(\min_{\delta_t} \mathcal{L}_{norm}(t) + \gamma_1 \mathcal{L}_{semantic}(t) + \gamma_2 \mathcal{L}_{align}(t)\)
- 超参数：\(\gamma_1 = 10^5, \gamma_2 = 0.1, \hat{\varepsilon}_t = 10\)
- 使用Adam优化器（学习率0.01），权重衰减\(10^{-3}\)，梯度裁剪（最大范数1.0）
- DPM solver，50个时间步
- 两种启动模式：
  - 晚期启动 + 噪声初始化（\(K=140\)，垫片在100和60步）：小扰动，适合隐形水印去除
  - 早期启动 + 反转初始化（\(K=1000\)，垫片在600和200步）：大扰动，大幅语义修改

攻击算法（Algorithm 1）¶

输入：版权图像 x^w
1. VAE编码 → x̂_0
2. DPM Solver反转 → 锚点序列 {x̂_1,...,x̂_T}
3. 初始化 x*_K = x̂_K 或 noisy latent
4. For t = K to 1:
   If t ∈ T_select:  # 需要扰动的时间步
     初始化 δ_t = 0
     While 未收敛:
       x*_{t-1} = x*_t - ζ_t·ε_θ(x*_t, t, e_∅ + δ_t)
       δ_t -= η·∇L(t, δ_t, x*_{t-1}, x̂_{t-1})
   Else:  # 正常去噪
     x*_{t-1} = x*_t - ζ_t·ε_θ(x*_t, t, e_∅)
5. 输出 x* = D(x*_0)

实验关键数据¶

主实验（隐形水印去除，MS-COCO）¶

方法	DwtDctSvd BA↓	DwtDctSvd ACC↓	RivaGAN BA↓	RivaGAN ACC↓	PSNR↑	SSIM↑
Regen	0.64	0.15	0.60	0.05	26.21	0.75
Rinse	0.54	0.04	0.52	0.01	23.68	0.68
Ours(晚期)	0.52	0.01	0.56	0.02	25.27	0.73
Ours(早期)	0.52	0.03	0.52	0.00	21.16	0.70

方法	Stable Signature T@1%F↓	Tree-Ring T@1%F↓
Regen	0.00	1.00
Ours	0.00	0.98

消融实验（语义修改程度 vs 时间步选择）¶

启动模式	垫片时间步	效果	适用场景
晚期(K=140) + 噪声	100, 60	小语义变化，保持图像质量	隐形水印去除
早期(K=1000) + 反转	600, 200	大语义变化（改变发型、服装等）	可见版权绕过
-	大时间步单步	改变颜色、形状等全局语义	IP字符修改
-	小时间步单步	改变纹理、细节等局部语义	精细伪造

关键发现¶

Bit准确率降至接近50%（随机水平），说明水印被有效移除
与Regen/Rinse相比，本方法在保持图像质量的同时水印去除更彻底
对Stable Signature有效（T@1%F降至0），但无法去除Tree-Ring水印——因为Tree-Ring在傅里叶空间注入局部模式，隐变量的全局偏移不影响局部傅里叶特征
模糊攻击成功：可在已攻击图像上嵌入新水印，两个水印同时可检测（Tree-Ring T@1%F双方均为1.00/0.99）
生成100张Elon Musk变体，GPT仲裁无法确定性地识别任何一张为本人
可见版权攻击：成功修改Disney Elsa的标志性发型和服装、Monet画作风格、Van Gogh签名

亮点与洞察¶

"锚点与垫片"的比喻直观且方法设计优雅——既解决了显存问题，又提供了多粒度的语义控制
注意力扰动是一种低成本且精确的语义操控方式，仅修改文本嵌入而非整个网络
纯梯度搜索，不需要额外训练或微调，适用于任何预训练扩散模型
清晰揭示了现有版权保护的脆弱性，为防御研究提供了重要的攻击基线
时间步选择提供了coarse-to-fine的语义控制能力

局限与展望¶

无法去除Tree-Ring水印（傅里叶域局部模式对隐变量全局偏移免疫）
早期启动模式下FID较高，语义变化过大时图像质量下降
未结合ControlNet、额外图像编码器、负面提示词等增强手段（论文明确指出留作future work）
从防御角度看，研究如何使水印抵抗这种基于注意力的扰动搜索是急需的方向
仅在Stable Diffusion上测试，对其他扩散架构（如DiT）的效果未知

评分¶

新颖性: ⭐⭐⭐⭐ "锚点与垫片"框架设计精巧，注意力扰动搜索视角新颖
实验充分度: ⭐⭐⭐⭐ 覆盖多种水印方法、可见/隐形版权、伪造/模糊攻击、真实版权图像
写作质量: ⭐⭐⭐⭐ 问题形式化清晰，攻击类型定义严谨，但部分符号和术语偏多
价值: ⭐⭐⭐⭐⭐ 揭示了紧迫的AI安全威胁，对版权保护社区具有警示意义和防御研究的基准价值