LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models¶

会议: AAAI2026
arXiv: 2601.21220
代码: 无
领域: AI安全
关键词: Universal Adversarial Perturbation, Multi-Image MLLM, Black-box Attack, Attention Manipulation, Transferable Attack

一句话总结¶

提出 LAMP，一种针对多图 MLLM 的 black-box Universal Adversarial Perturbation 学习方法，通过 attention 约束和"传染式"损失实现仅扰动少量图像即可跨模型/任务迁移攻击。

背景与动机¶

领域现状¶

领域现状：多模态大语言模型 (MLLM) 已支持多图输入（比较、推理、时序理解等），但其对抗鲁棒性几乎未被探索

现有痛点¶

现有痛点：现有对抗攻击主要面向单图场景，且多为 white-box 设定，不适用于实际 black-box 场景

核心矛盾¶

核心矛盾：在真实场景中（如社交媒体图片被模型处理），攻击者无法控制模型接收的图片数量和顺序，现有单图 UAP 方法在多图场景下效果有限

解决思路¶

本文目标：如何在 black-box 设定下学习少量固定的 Universal Adversarial Perturbation，使其能在攻击者无法控制推理时图片数量和顺序的条件下，有效攻击多图 MLLM？

方法详解¶

整体框架¶

利用预训练的 surrogate 模型（Mantis-CLIP）学习 UAP，保持 MLLM 参数冻结，仅优化扰动 $\delta_k$（$\|\delta_k\|_\infty \leq \epsilon$）。总损失由五项组成：

\[\mathcal{L}_{adv} = \lambda_1 \mathcal{L}_{adv}^{lm} + \lambda_2 \mathcal{L}_{adv}^{dec} + \lambda_3 \mathcal{L}_{adv}^{h} + \lambda_4 \mathcal{L}_{adv}^{ctg} + \lambda_5 \mathcal{L}_{adv}^{ias}\]

关键设计¶

Adversarial Language Modeling Loss $\mathcal{L}_{adv}^{lm}$：降低正确 token 的生成概率 $$\mathcal{L}_{adv}^{lm} = -\frac{1}{N}\sum_{i=1}^{N}\log(1 - P_\theta(t_{i+1}|s_{1:i}))$$
Hidden States Divergence Loss $\mathcal{L}_{adv}^{dec}$：最大化 clean 与 adversarial hidden states 间的 cosine 距离 $$\mathcal{L}_{adv}^{dec} = \frac{1}{L}\sum_{l=1}^{L}\cos(z_l^{adv}, z_l^{clean})$$
Attention via Pompeiu-Hausdorff Distance $\mathcal{L}_{adv}^{h}$：利用 Hausdorff 距离衡量 clean/adversarial attention 权重的 worst-case 偏差，比 KL 散度更能捕捉局部差异
Contagious Loss $\mathcal{L}_{adv}^{ctg}$（核心创新）：鼓励 clean token 在 self-attention 中更关注被扰动的 image token，使对抗效果从扰动图像"传染"到干净图像 $$\mathcal{L}_{adv}^{ctg} = -\frac{1}{LH}\sum_{l}\sum_{h}\sum_{i \in \mathcal{C}}\sum_{j \in \mathcal{N}} A^{(l)}_{:,h,i,j}$$
Index-Attention Suppression Loss $\mathcal{L}_{adv}^{ias}$：抑制 image token 对其位置索引 text token 的注意力，实现 position-invariant 攻击

实验关键数据¶

主实验¶

设定	Avg. Best Baseline	LAMP	Δ (pp)
所有模型平均	56.3%	75.8%	+19.5
Mantis-CLIP	51.5%	71.9%	+20.4
VILA-1.5	56.1%	76.2%	+20.1
LLaVA-v1.6	58.5%	78.9%	+20.4
Qwen-2.5	62.5%	79.4%	+16.9

跨模型 zero-shot 迁移攻击均大幅领先 baseline
在防御策略下仍保持 ~70% ASR（vs baseline 20-56%）
最优扰动数量 $|\delta|=2$，超过 2 个改善不大（contagious loss 的贡献）
LPIPS 仅 0.021（baseline 最优 0.068），不可感知性更好

亮点与洞察¶

首个多图 MLLM 对抗攻击：填补了 multi-image 场景 UAP 攻击的空白
Contagious Loss 设计精巧：用固定数量 UAP 即可"感染"clean tokens，解决了推理时图片数量未知的难题
Position-invariant 攻击：通过 index-attention suppression 使攻击不依赖图像位置
强迁移性：在 surrogate 模型上训练的 UAP 可跨 7+ 不同架构的目标模型有效攻击

局限与展望¶

仅在开源模型上验证，未测试 GPT-4V、Gemini 等闭源模型
扰动预算 $\epsilon=12/255$ 相对较大，对更严格预算下的表现未充分探讨
防御仅测试了 query-based defense，未评估更强的对抗训练防御
训练需要 A100 GPU 和 17K 样本，计算成本未详细分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ (首个多图 UAP 攻击 + contagious loss + position-invariant)
实验充分度: ⭐⭐⭐⭐ (7+ 目标模型、5 benchmark、但缺闭源模型测试)
写作质量: ⭐⭐⭐⭐ (结构清晰、公式推导完整)
价值: ⭐⭐⭐⭐⭐ (对多图 MLLM 安全性研究有重要意义)

LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models¶

一句话总结¶

背景与动机¶

领域现状¶

现有痛点¶

核心矛盾¶

解决思路¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

相关工作与启发¶

评分¶

LAMP: Learning Universal Adversarial Perturbations for Multi-Image Tasks via Pre-trained Models¶

一句话总结¶

背景与动机¶

领域现状¶

现有痛点¶

核心矛盾¶

解决思路¶

方法详解¶

整体框架¶

关键设计¶

实验关键数据¶

主实验¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

相关工作与启发¶

评分¶

相关论文¶