Echoes of Ownership: Adversarial-Guided Dual Injection for Copyright Protection in MLLMs¶
会议: CVPR2026
arXiv: 2602.18845
代码: GitHub
领域: 多模态大模型安全
关键词: MLLM版权保护, 对抗攻击, 触发图像, 双注入, CLIP语义对齐, 黑盒追踪
一句话总结¶
提出 AGDI 框架,通过对抗优化生成 trigger image 进行 MLLM 黑盒版权追踪:双注入机制同时在 response 级(CE loss 驱动辅助模型输出 target answer)和 semantic 级(最小化 trigger image 与 target text 的 CLIP 余弦距离)注入版权信息,并引入模型对抗训练模拟 fine-tune 抵抗,在 Qwen2-VL/LLaVA-1.5 上全面超越 PLA 和 RNA 基线。
背景与动机¶
- MLLM 开源引发版权纠纷:开源 MLLM(如 LLaVA、Qwen-VL)被恶意用户 fine-tune 后用于商业牟利并虚假声称所有权,模型发布者需要有效的版权追踪手段
- 白盒方法不实际:依赖模型内部参数、梯度或特征分布的方法(watermarking、fingerprinting)在实际场景中受限于黑盒访问——可疑模型通常仅提供 API 查询
- 现有黑盒方法过拟合 base model:PLA 等方法通过对抗训练注入 trigger,但 trigger image 过度依赖 base model 的特定响应模式,在下游 fine-tune 后性能严重退化
- CLIP-like 对齐模块的稳定性:大多数 MLLM 内含 CLIP-like 跨模态对齐模块,其高层 image-text embedding 在 fine-tune 后保持相对稳定,为设计可泛化的 trigger 机制提供了机会
- 单一注入层级不足:仅用 response-level 注入缺乏跨模型泛化性;仅用 semantic-level(CLIP 特征对齐)缺乏对特定模型的激活精度。需要双层注入互补
方法详解¶
整体框架¶
开源 MLLM 被人 fine-tune 后拿去牟利、还反咬说模型是自己的,发布者却往往只能黑盒查询可疑模型、拿不到参数。AGDI 的目标是造一张 trigger image \(x_{\text{trig}}\):base model 和它的 fine-tune 衍生模型在 \((x_{\text{trig}}, q_{\text{trig}})\) 输入下都会吐出预设的 target answer \(a_{\text{tar}}\),而无关模型不会——于是发布者只要喂这张图问一句,就能验证版权。trigger 的 Q-A 故意选成罕见搭配(如 "Q: Detecting copyright. A: ICLR Conference."),保证正常训练不会误触发。核心是一个 min-max 博弈:
交替优化 trigger image \(x\)(最小化注入损失,把版权信息写进像素)和辅助模型参数 \(\theta\)(最大化注入损失,主动模拟下游 fine-tune 的抵抗),让 trigger 对参数变化也稳。整体流程是:先定好 trigger 的稀有 Q-A 与扰动预算,再在 min-max 内外循环里同时做两路注入并对抗训练,最后导出 trigger image 用于黑盒验证。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["Trigger 设计<br/>稀有 Q-A 搭配 + ε=16/255 扰动预算"] --> B["初始化 trigger image x + 辅助模型 θ"]
B --> C
subgraph LOOP["min-max 交替优化(PGD,K=1000 步)"]
direction TB
C["min_x 步·双注入"]
C --> D["Response 级注入<br/>CE loss 逼辅助模型逐 token 生成 target answer"]
C --> E["Semantic 级注入<br/>CLIP 空间拉近 x 与 target text"]
D --> F["L_res + λ·L_sem 反传 → PGD 更新像素 x"]
E --> F
F --> G["max_θ 步·对抗训练<br/>更新辅助模型抵抗生成 → 复位 θ ← θ_ref"]
G --> C
end
LOOP --> H["输出 trigger image x_trig"]
H --> I["黑盒验证:喂 x_trig + q_trig,看是否吐出 a_tar"]
关键设计¶
1. Trigger 设计:稀有 Q-A 搭配 + 固定扰动预算
一切的起点是定义「触发什么、扰动多大」。trigger 必须在正常使用中绝不被误触发,所以作者特意用 5 组日常罕见的 Q-A 搭配(如 "Detecting copyright → ICLR Conference"、"What are you busy with → I'm playing games"),这种生僻搭配在正常训练数据里几乎不会出现,从而保证只有发布者主动查询时才会激活。配 200 张 ImageNet 验证集图像 × 5 组 Q-A,共 1000 个 trigger 查询;像素扰动预算 \(\epsilon = 16/255\),PGD 步数 \(K = 1000\),步长 \(\alpha = 1/255\)。这些设定决定了后面两路注入往哪个 target answer 优化、像素能动多大。
2. Response 级注入:用 CE loss 把 target answer 写死进像素
只在语义层对齐还不足以驱动模型真去「生成」那句 target text,得有一路直接逼输出。这一路用交叉熵强制辅助 MLLM 在 trigger image + trigger question 下逐 token 生成 target answer:
梯度反传到图像像素,把版权相关信息注进去。消融里去掉这一路,ASR 直接掉到接近 0%——只靠语义对齐根本驱动不出 target 文本。
3. Semantic 级注入:借 CLIP 模块的「fine-tune 不变性」换泛化
只有 response 注入会过拟合 base model 的特定响应模式,下游 fine-tune 后就失效(PLA 的毛病)。作者观察到大多数 MLLM 内含的 CLIP-like 对齐模块,其高层 image-text embedding 在 fine-tune 后相当稳定(实测 cosine 漂移仅 0.5%~9.3%),于是再加一路把 trigger image 与 target text 在 CLIP 空间里拉近:
其中 \(\mathcal{E}_\phi, \mathcal{E}_\psi\) 是 CLIP 图像 / 文本编码器。这一路把版权信息绑在「衍生模型也改不动」的子模块上,trigger 因此能跨 fine-tune 泛化;去掉它,方法就退回 PLA 的水平。Response 与 Semantic 两路一起构成标题里的 dual injection——前者保激活精度、后者保跨模型泛化,在 min 步里以 \(\mathcal{L}_{\text{res}} + \lambda \mathcal{L}_{\text{sem}}\) 同时反传更新像素 \(x\)。
4. 对抗训练 + 参数复位:让 trigger 扳得住真实 fine-tune
前面两路只是把信息写进像素,但下游用户会 fine-tune 模型——要让 trigger 对参数变化鲁棒,就得在优化时预演 fine-tune 的破坏,这就是 min-max 里的 max 步。固定 trigger image、反向更新辅助模型去抵抗生成 target:\(\mathcal{L}_{\text{model}} = -\mathcal{L}_{\text{res}} - \lambda \mathcal{L}_{\text{sem}}\),参数更新 \(\theta \leftarrow \theta - \gamma \cdot \text{clip}(\nabla_\theta \mathcal{L}_{\text{model}})\),图像更新走 PGD 风格 \(x \leftarrow x - \alpha \cdot \text{sign}(\nabla_x \mathcal{L}_{\text{trig}})\)。关键的一笔是:每张 trigger 优化完,辅助模型参数立刻复位到 reference 模型 \(\theta \leftarrow \theta_{\text{ref}}\),防止多张 trigger 之间累积漂移、把后面的优化带偏。比起 RNA 那种无方向的随机扰动,这种有方向的对抗更贴近真实 fine-tune 行为。
实验关键数据¶
设置¶
- Base models: LLaVA-1.5-7B、Qwen2-VL-2B-Instruct
- Fine-tune 方式: LoRA (rank=16, α=32, lr=2e-4) 和 Full fine-tune (lr=1e-5)
- 下游数据集: V7W、ST-VQA、TextVQA、PaintingForm、MathV360k
- 评价指标: Attack Success Rate (ASR) = trigger 查询中模型输出包含 target text 的比例
- 基线: Ordinary(vanilla CE + frozen model)、RNA、PLA
主实验结果(Qwen2-VL,ASR%)¶
| 方法 | LoRA V7W | ST-VQA | TextVQA | PaintingF | MathV | Avg | Full V7W | ST-VQA | TextVQA | PaintingF | MathV | Avg |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Ordinary | 36 | 46 | 22 | 48 | 41 | 38.6 | 34 | 43 | 15 | 48 | 26 | 33.2 |
| RNA | 36 | 39 | 22 | 40 | 37 | 34.8 | 32 | 38 | 15 | 40 | 21 | 29.2 |
| PLA | 48 | 68 | 33 | 76 | 60 | 57.0 | 43 | 60 | 28 | 75 | 38 | 48.8 |
| AGDI | 53 | 77 | 41 | 81 | 68 | 64.0 | 46 | 65 | 33 | 80 | 45 | 53.8 |
LLaVA-1.5 结果(LoRA fine-tuning,ASR%)¶
| 方法 | V7W | ST-VQA | TextVQA | PaintingF | MathV | Avg |
|---|---|---|---|---|---|---|
| PLA | 51 | 43 | 21 | 55 | 18 | 37.6 |
| AGDI | 64 | 56 | 36 | 79 | 30 | 53.0 |
AGDI 在所有 base model × fine-tune 方式组合上全面领先。LoRA avg AGDI 64% vs PLA 57%(Qwen2-VL),LLaVA-1.5 上差距更大(53% vs 37.6%)。
非衍生模型验证¶
在 MiniGPT-4、Qwen2-VL、Llama3-Vision、LLaVA-1.6 上测试 LLaVA-1.5 生成的 trigger:RNA/PLA/AGDI 均为 0% ASR,无误触发。
消融实验(LLaVA-1.5 LoRA,ASR%)¶
| 配置 | V7W | ST-VQA | TextVQA | PaintingF | MathV |
|---|---|---|---|---|---|
| w/o response injection | 0 | 1 | 1 | 1 | 4 |
| w/o semantic injection | 51 | 43 | 21 | 55 | 18 |
| w/o LLM update(仅更新 CLIP) | 32 | 39 | 20 | 19 | 13 |
| w/o encoder update(仅更新 LLM) | 60 | 55 | 29 | 70 | 29 |
| AGDI(完整) | 64 | 56 | 36 | 79 | 30 |
- 去掉 response injection → ASR 接近 0%(仅 CLIP 对齐无法驱动生成 target text)
- 去掉 semantic injection → 退化为 PLA 水平(过拟合 base model)
- 双注入 + 完整对抗训练缺一不可
鲁棒性分析¶
- 模型剪枝:Magnitude / Wanda pruning(10-30% sparsity),AGDI 在 PaintingF 上 59-79% ASR vs PLA 14-46%
- 模型合并:Linear / TIES merging,AGDI 保持领先
- 量化:8-bit 量化下 ASR 仅轻微下降
- 输入变换:Resizing(256) / Gaussian noise(5) / JPEG compression,ASR 分别降至原始的 ~65% / ~92% / ~62%
- 系统提示变化:切换不同 system prompt,ASR 波动 ±3%
- 推理参数:temperature/top-p 从 0.1 到 1.0,ASR 波动 ±1%
- 更多 MLLM:InternVL3.5-2B/8B 上同样有效(8B LoRA avg ~57%)
亮点¶
- Dual injection 设计优雅:response-level 保证激活精度,semantic-level 利用 CLIP 模块稳定性保证泛化性,两者互补且均有理论基础
- 对抗训练模拟 fine-tune:通过 max-min 博弈让 trigger image 对参数变化具备鲁棒性,且参数复位机制避免累积漂移
- 完全黑盒:publisher 只需查询可疑模型即可验证版权,无需访问模型内部参数
- 不修改模型参数:trigger 仅在图像侧优化,不影响 base model 性能,适合 post-deployment 场景
- 实验覆盖全面:2 个 base model × 2 种 fine-tune × 5 个下游数据集,外加剪枝/合并/量化/输入变换/系统提示等鲁棒性测试
局限与展望¶
- PGD 优化 1000 步 × 1000 个 trigger 查询,trigger 生成成本不低,未讨论加速方案
- 扰动预算 \(\epsilon=16/255\) 在视觉上可能不够隐蔽,论文缺少用户感知实验(如 human study)
- TextVQA 数据集上 ASR 始终最低(LoRA 41%、Full 33%),可能因 OCR 任务的 fine-tune 对模型改变更大
- 仅在 2B/7B 规模模型上验证,更大模型(如 70B+)的效果未知
- Trigger Q-A pairs 需人工设计为稀有组合,自动化设计方案未探索
- 未与 watermarking 方法(需 fine-tune 模型嵌入水印)做比较,两类方法适用场景不同但读者期望看到对比
与相关工作的对比¶
- vs PLA (ICLR 2025):PLA 同为 trigger image 方法,但仅用 response-level 注入(CE loss),过拟合 base model 响应模式。AGDI 增加 semantic-level 注入利用 CLIP 稳定性 + 对抗训练,Qwen2-VL LoRA avg 64% vs 57%
- vs RNA:RNA 引入随机噪声扰动模型参数模拟 fine-tune,但扰动方向不可控。AGDI 的对抗训练是有方向的——专门训练辅助模型抵抗 target 生成,更有效模拟真实 fine-tune 行为
- vs IF (ACL 2024):IF 是 LLM 方法,通过 instruction tuning 嵌入 fingerprint,需修改模型参数且在 LLaVA-1.5 LoRA 上仅 22.4% avg ASR(远弱于 AGDI 53%)
- vs 模型水印方法:水印方法(REEF、SLIP)需要 fine-tune 模型嵌入水印,会降低模型性能且在下游 fine-tune 后容易被移除;AGDI 完全在图像侧操作,不接触模型参数
启发与关联¶
- CLIP-like 对齐模块作为 MLLM 的"不变子模型"这一观察非常有价值,可推广到其他跨模型迁移场景
- 对抗训练 + 参数复位的范式可应用于其他需要"对参数变化鲁棒"的优化问题
- Trigger image 方法本质是一种对抗攻击的正向应用,和 jailbreak 攻击(负向应用)形成对偶关系
评分¶
- 新颖性: ⭐⭐⭐⭐ — Dual injection + adversarial training 的组合有创新,CLIP 稳定性观察有洞察力,但单个组件(CE loss、CLIP 对齐、PGD)均为已有技术
- 实验充分度: ⭐⭐⭐⭐⭐ — 2 个 base model、2 种 fine-tune、5+5 个数据集、完整消融、6 种鲁棒性测试,覆盖极为全面
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,公式简洁,实验表格丰富;部分符号可进一步统一
- 价值: ⭐⭐⭐⭐ — 实用性强,直接可用于开源模型版权保护;但依赖 trigger image 的隐蔽性和稀有 Q-A 的假设在大规模部署中需进一步验证