A Frustratingly Simple Yet Highly Effective Attack Baseline: Over 90% Success Rate Against the Strong Black-box Models of GPT-4.5/4o/o1¶

会议: NeurIPS 2025
arXiv: 2503.10635
代码: https://github.com/VILA-Lab/M-Attack
领域: 多模态VLM / 对抗攻击
关键词: 黑盒迁移攻击, 局部语义匹配, 对抗扰动, LVLM安全, 模型集成

一句话总结¶

提出 M-Attack，通过对源图像做随机裁剪后与目标图像在嵌入空间做局部-全局/局部-局部匹配，配合多 CLIP 模型集成，使对抗扰动自然聚集在语义关键区域形成清晰的语义细节，在 GPT-4.5/4o/o1 等商业黑盒 LVLM 上实现 >90% 的定向攻击成功率。

研究背景与动机¶

领域现状：基于迁移的定向对抗攻击是攻击黑盒商业 LVLM 的主要手段。现有方法（AttackVLM、SSA-CWA、AnyAttack、AdvDiffVLM）通常在白盒代理模型上生成对抗扰动，期望扰动能迁移到未知的商业模型上。

现有痛点：这些方法生成的扰动大多呈现类均匀分布，缺乏清晰的语义结构。作者通过实证分析发现两个关键失败模式：(1) 扰动的经验累积分布函数几乎与均匀分布重叠，说明扰动均匀散布在整个图像上而没有聚焦于语义关键区域；(2) 即使商业 LVLM 检测到了扰动的"异样"，也只能给出"模糊的"、"抽象的"描述，而非具体的语义名词，表明扰动中缺乏可被模型解读的语义信息。

核心矛盾：传统的全局-全局特征匹配方法虽然在嵌入空间中能快速拉近相似度，但正因如此导致过拟合——相似度迅速饱和，限制了进一步学习精细语义的空间。而局部匹配由于每步的随机裁剪引入了随机性，收敛更慢但能捕获更细粒度的语义细节。

本文目标 如何让对抗扰动在局部区域编码清晰的目标语义，使商业黑盒 LVLM 不仅能"看到"扰动，还能准确地将其解码为目标语义。

切入角度：作者观察到商业 LVLM 无论训练数据和架构如何差异，都会优先提取图像中的语义特征。因此，只要扰动本身带有足够清晰的语义信息，就有可能跨模型迁移。

核心 idea：将全局匹配改为随机裁剪后的局部匹配，让扰动在重叠的中心区域自然聚合出丰富的目标语义。

方法详解¶

整体框架¶

M-Attack 包含两个核心组件：(1) Local Matching (LM)——每步对源图像做随机裁剪+缩放后，与目标图像（全局或局部）在嵌入空间做余弦相似度对齐；(2) Model Ensemble (ENS)——使用多个白盒 CLIP 模型的集成来避免对单一模型过拟合。输入是一对源-目标图像，输出是在 \(\ell_\infty\) 约束下的对抗图像，使黑盒 LVLM 将其描述为目标图像的内容。

关键设计¶

局部-全局/局部-局部匹配 (Local Matching):
- 功能：通过随机裁剪在源图像上生成局部区域，与目标图像在嵌入空间对齐
- 核心思路：每个优化步骤 \(i\)，对当前对抗图像做随机裁剪（scale 范围 \([0.5, 1.0]\)），缩放到原始尺寸后计算与目标图像的余弦相似度作为损失。由于不同步骤的裁剪区域相互重叠（一致性条件 \(\hat{x}_i \cap \hat{x}_j \neq \emptyset\)）又不完全相同（多样性条件 \(|\hat{x}_i \cup \hat{x}_j| > |\hat{x}_i|\)），扰动在图像中心区域被反复优化从而聚合出清晰的语义，而边缘区域则贡献多样化的细节
- 设计动机：全局匹配相似度快速饱和导致过拟合，而局部匹配引入的随机性使收敛更慢但能捕获更精细的语义结构，从而大幅提升迁移性
模型集成 (Model Ensemble):
- 功能：利用多个白盒代理模型提取共享语义，提升对未知黑盒模型的迁移性
- 核心思路：使用 ViT-B/16、ViT-B/32 和 ViT-g-14 三个 CLIP 变体，对每步的匹配损失取平均 \(\mathcal{M} = \mathbb{E}_{f_{\phi_j} \sim \phi}[\text{CS}(f_{\phi_j}(\hat{x}_i^s), f_{\phi_j}(\hat{x}_i^t))]\)。不同模型因 patch size 不同而具有互补的感受野——小 patch 模型捕获精细细节，大 patch 模型保留整体结构
- 设计动机：单模型容易过拟合其特定的嵌入空间，模型集成能提取多个模型共享的语义特征，这些共享语义更有可能迁移到未知的商业模型
KMRScore 评估指标:
- 功能：提供更客观、可复现的攻击成功率评估
- 核心思路：为每张图像手动标注多个语义关键词，设置三档匹配阈值（0.25/0.5/1.0）对应 KMR_a/KMR_b/KMR_c，然后用 GPT-4o 做半自动匹配。KMR_c 要求所有关键词都匹配，是最严格的度量
- 设计动机：之前的评估方法依赖主观的"语义主体"定义，人为偏差大且不可复现

训练策略¶

使用 I-FGSM 优化，步长 \(\alpha=1\)（Claude 为 0.75），扰动预算 \(\epsilon=16\)（\(\ell_\infty\) 范数），总迭代步数 300。每步对源图像做随机裁剪后用 PGD 风格梯度更新。

实验关键数据¶

主实验¶

方法	GPT-4o ASR	Gemini-2.0 ASR	Claude-3.5 ASR	\(\ell_1\)↓	\(\ell_2\)↓
AttackVLM (B/32)	0.02	0.00	0.00	0.036	0.041
SSA-CWA (Ensemble)	0.09	0.04	0.05	0.059	0.060
AnyAttack (Ensemble)	0.42	0.48	0.23	0.048	0.052
M-Attack (Ours)	0.95	0.78	0.29	0.030	0.036

消融实验（不同匹配方式对比）¶

匹配方式	GPT-4o ASR	Gemini-2.0 ASR	Claude-3.5 ASR
Global-to-Global	0.05	0.05	0.01
Local-to-Global	0.93	0.83	0.22
Local-to-Local	0.95	0.78	0.26

关键发现¶

局部匹配相比全局匹配在 GPT-4o 上的 ASR 从 5% 暴涨到 95%，提升幅度惊人
M-Attack 在扰动不可感知性上（\(\ell_1\)/\(\ell_2\) 范数）反而优于所有对比方法，说明局部聚合产生了更高效的扰动
不同扰动预算 \(\epsilon\) 下（4/8/16），M-Attack 始终保持最优，且在 \(\epsilon=8\) 时就已在 GPT-4o 上达到 82% ASR
严格的 KMR_c 指标（需要所有关键词匹配）揭示之前方法的 ASR 被严重高估——它们在 KMR_c 下基本为 0

亮点与洞察¶

极致简洁却有效的设计：M-Attack 的核心操作就是"随机裁剪 + 缩放 + 余弦相似度对齐"，没有引入任何复杂模块，却比所有已有方法高出一个量级。这种"less is more"的思路非常值得借鉴
对失败案例的深入分析驱动了方法设计：作者先分析了为什么已有方法失败（扰动呈均匀分布 + 语义模糊），然后针对性地设计了局部匹配来解决语义缺失问题。这种"从失败中找灵感"的研究范式很有参考价值
KMRScore 评估方法的多阈值设计可以迁移到其他攻击评估任务中，提供更细粒度的成功率度量

局限与展望¶

Claude 系列模型的攻击成功率显著低于 GPT 和 Gemini（29% vs 95%/78%），作者未深入分析原因，可能与 Claude 的额外安全机制有关
方法依赖 CLIP 作为代理模型，没有探索非 CLIP 架构的代理模型（如 SigLIP、EVA）对迁移性的影响
仅在 224x224 分辨率下实验，高分辨率场景下的效果未验证
防御侧视角缺失——没有讨论如何检测或防御此类攻击

评分¶

新颖性: ⭐⭐⭐⭐ 核心idea（局部裁剪匹配）虽然简单但洞察深刻，从失败分析到方法设计的逻辑链完整
实验充分度: ⭐⭐⭐⭐⭐ 在 7 个商业 LVLM 上测试，包括推理模型 o1 和 Claude-3.7-thinking，消融细致
写作质量: ⭐⭐⭐⭐ 论文结构清晰，从动机到方法到实验的叙事流畅
价值: ⭐⭐⭐⭐⭐ 对 LVLM 安全领域有重要警示意义，90%+ 的攻击成功率表明当前商业模型的对抗鲁棒性堪忧