跳转至

Transferable and Stealthy Adversarial Attacks on Large Vision-Language Models

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=liQueBuFXi
代码: 待发布
领域: 多模态大模型安全 / LVLM 对抗攻击
关键词: 大视觉语言模型安全, 黑盒迁移攻击, 隐蔽对抗样本, 扩散模型, 渐进语义注入

一句话总结

这篇论文提出 Progressive Semantic Infusion (PSI),用扩散模型把目标图像的自然语义逐步注入源图像,在保持视觉隐蔽性的同时显著提升对 GPT-5、Grok-4、Gemini 等黑盒大视觉语言模型的迁移攻击成功率。

研究背景与动机

领域现状:针对大视觉语言模型 (LVLM/VLM) 的黑盒攻击,常见做法是先找一个白盒替代模型,比如 CLIP 或 BLIP 系列,再优化一张源图像,让它在替代模型上的视觉特征接近目标图像。攻击者真正想要的是:受害模型看到被改过的源图像后,输出像是在描述目标图像的文本;但因为商业 LVLM 的参数、梯度和训练数据都不可见,只能依赖这种“替代模型上对齐,黑盒模型上迁移”的路径。

现有痛点:固定特征对齐并不等于可迁移。AttackVLM、CoA 等方法可以把 adversarial image 在替代模型上推向目标特征,但这个优化发生在像素空间,很容易把样本推离自然图像分布;一旦样本变成“替代模型喜欢、真实 LVLM 不买账”的非自然解,迁移性就会掉。另一类方法如 AnyAttack、M-Attack、FOA 虽然更强地注入目标语义,常常能攻击成功,却会留下肉眼可见或模型可检测的纹理、轮廓、overlay、artifact,使攻击在输入层或输出层暴露。

核心矛盾:迁移攻击需要目标语义足够强,隐蔽攻击又要求源图像看起来仍像原图,二者之间不是简单的 \(\ell_\infty\) 预算能解决的权衡。论文的关键判断是:黑盒 LVLM 和替代模型都在大规模自然图像-文本数据上训练,如果对抗样本既贴近目标语义,又仍落在自然图像分布附近,那么它更可能在不同模型之间产生一致的语义响应。

本文目标:作者把目标拆成三个子问题:第一,如何在攻击优化里显式利用自然图像分布,而不是只追替代模型特征相似度;第二,如何避免单一固定目标导致过拟合,让攻击信号沿生成过程逐步注入;第三,如何让最终图像仍保留源图像的视觉线索,避免被人或 LVLM 识别为“被篡改的图”。

切入角度:扩散模型本身就是在自然图像分布上训练出来的生成先验,反向去噪过程可以被看作把样本往自然图像流形上拉。作者于是不用传统的像素级迭代扰动作为主舞台,而是在 DDPM 去噪轨迹中一边生成、一边对齐、一边把源图像信息带回去。

核心 idea:用“扩散先验约束自然性 + 渐进局部语义对齐提升迁移性 + 源感知 DDPM inversion 保持隐蔽性”替代单一固定特征对齐,从而生成既能跨模型攻击又不容易露馅的 LVLM 对抗图像。

方法详解

整体框架

PSI 的输入是一张源图像 \(x\) 和一张目标图像 \(x_{tar}\),输出是一张对抗图像 \(x_{adv}\):它在人眼看来应当接近源图像,但让黑盒 LVLM 产生接近目标图像的描述。整体流程先把源图像反演到扩散模型的中间时刻 \(t^*\),再从 \(t^*\) 到 0 执行去噪;每个 timestep 都会用当前的局部目标区域做一次替代模型特征对齐,并用带源图像线索的噪声项保持视觉一致性。

作者先把传统固定目标写成 \(L_{fixed}=\cos(f_{tar}, f_{adv})\),再指出这只管替代模型对齐,不管样本是不是自然。PSI 实际要近似优化的是联合目标 \(L_{joint}=p_F(f_{tar}\mid x_{adv})\cdot p_D(x_{adv})\):前一项代表替代模型上的目标语义对齐,后一项代表自然图像分布上的可信度。扩散去噪负责自然性,渐进对齐负责攻击语义,源感知噪声负责隐蔽性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["源图像 x + 目标图像 x_tar"] --> B["扩散优化框架<br/>反演到中间时刻"]
    B --> C["渐进对齐目标<br/>局部目标语义注入"]
    C --> D["源感知去噪<br/>带回源图像线索"]
    D --> E{"t 到 0?"}
    E -->|否| C
    E -->|是| F["对抗图像 x_adv<br/>迁移且隐蔽"]

在威胁模型上,攻击者不能查询或修改受害 LVLM,也不能改 prompt、system instruction 或其他文本输入,只能制作一张之后会被 LVLM 消费的恶意图像。攻击目标不是让模型输出某个固定标签,而是让模型对 \(x_{adv}\) 的自然语言描述在语义上接近目标图像 \(x_{tar}\) 的描述。

关键设计

1. 扩散优化框架:把自然性放进攻击过程本身

传统迁移攻击往往直接在像素空间优化 \(\cos(F(x_{adv}),F(x_{tar}))\),这会把“替代模型上的高相似度”误当成“黑盒 LVLM 上的可迁移性”。PSI 的第一步是把自然性也放进目标:如果 \(F\) 和黑盒模型 \(M\) 都来自相近的自然图文数据分布,那么更自然的 \(x_{adv}\) 更可能让二者产生一致语义。论文把这个想法写成 \(L_{joint}=p_F(f_{tar}\mid x_{adv})\cdot p_D(x_{adv})\),其中 \(p_D(x_{adv})\) 虽然不能直接求导,但可以由扩散模型的去噪先验近似承担。

DDPM 的反向一步为 \(x_{t-1}=\mu(x_t,t)+\sigma_t\epsilon_t\),而 \(\mu(x_t,t)\) 可以近似看作 \(x_t+\sigma_t^2\nabla_{x_t}\log p_D(x_t)\)。这意味着每次去噪都在把样本往自然图像分布高密度区域推。PSI 先对源图像做 diffusion inversion 得到中间潜变量 \(x_{t^*}\),再沿 \(t^*,t^*-1,\dots,1\) 去噪;攻击扰动不只在最终图像上加,而是在每个去噪步注入:\(x_{t-1}=\mathrm{Denoise}_t(x_t)+\mathrm{Perturbation}(t)\)。这样,攻击信号一边被注入,一边接受扩散先验的“自然化”约束。

2. 渐进对齐目标:避免固定全局目标把样本推向非自然过拟合解

单一固定目标的问题在于它会让优化一直追同一个全局 target feature,容易学到替代模型的局部偏好,而不是黑盒 LVLM 也会认的自然语义。PSI 把一次全局对齐改成一串随 timestep 变化的局部对齐目标 \(\{L_{align}(t)\}_{t=1}^{t^*}\)。每一步只做一次小更新:\(\mathrm{Perturbation}(t)=\gamma\cdot\mathrm{Clip}_\infty(\nabla_{\mu(x_t,t)}L_{align}(t),\delta)\),其中 \(\gamma\) 控制指导强度,\(\delta\) 限制该步梯度扰动幅度。

关键不只是“裁剪区域”,而是目标区和源区一起演化。对目标图像,PSI 先用 SAM 找到显著物体区域 \(o_t\),再用插值把参考区域 \(r_t\) 从紧凑的语义主体逐步扩展到完整目标图像:\(r_t=\mathrm{Interpolation}(o_t,x_{tar},1-t/t^*)\)。早期先注入最清楚的主体语义,后期再引入更复杂的全图上下文。对当前 adversarial latent,PSI 随机采样 \(N\) 个同尺度候选局部区域,再选择与 \(r_t\) 在替代模型特征上最相似的那个 \(a_t=\arg\max_{a\in A_t}\cos(F(a),F(r_t))\)。这种 co-evolving selection 比纯随机 crop 更稳定,因为它让每一步的源区域和目标区域在语义上有较近的对应关系。

这种设计实际上把“目标语义注入”做成 curriculum:先对齐简单、主导、局部的目标概念,再逐步增加背景和细节;同时,局部区域在不同时间变化,相当于给固定目标加了空间多样性正则。论文的实验也显示,直接去掉 progressive alignment 时 GPT-5 ASR 从 78.6% 掉到 22.8%,说明它不是小修小补,而是迁移性的核心来源。

3. 源感知去噪:把隐蔽性从后处理变成生成轨迹约束

如果只用普通 DDIM inversion 或确定性采样,源图像的信息主要被编码在起点 \(x_{t^*}\) 里;一旦后续每步都注入攻击扰动,最终图像可能逐渐偏离源图像,变成“语义上像目标、视觉上露馅”的样本。PSI 的做法是把源图像线索写进每个 timestep 的噪声项,而不是只依赖初始 latent。

具体地,作者先用源图像构造一串前向加噪状态 \(\hat{x}_t=\sqrt{\bar{\alpha}_t}x+\sqrt{1-\bar{\alpha}_t}n_t\),再反推每一步对应的噪声 \(\hat{\epsilon}_t=(\hat{x}_{t-1}-\mu(\hat{x}_t,t))/\sigma_t\)。这些 \(\hat{\epsilon}_t\) 不再是独立高斯噪声,而携带了源图像的纹理、布局和低层视觉线索。真正生成时,PSI 使用 \(\mathrm{Denoise}_t(x_t)=\mu(x_t,t)+\sigma_t\hat{\epsilon}_t\),让每个去噪步都受到源图像的牵引。

这个设计解释了为什么 PSI 的 stealthiness 不是简单靠小扰动预算。论文中 w/o source-aware denoising 的 GPT-5 ASR 甚至略高到 81.0%,但 S-ASR 从 62.8% 掉到 57.0%,LPIPS 从 0.192 变差到 0.241。也就是说,不带源感知去噪可以更激进地攻击,却更容易让视觉一致性破裂;PSI 有意牺牲一小部分攻击强度,换来更高的输出层隐蔽性。

一个完整示例

可以把论文里的“鞋子被攻击成 giraffe”理解成 PSI 的典型工作方式。源图像是一双鞋,目标图像包含长颈鹿语义。如果用 CoA 这类固定对齐,放大扰动后主要是非语义噪声;如果用 AnyAttack 或 M-Attack,图像里会出现较明显的长颈鹿轮廓或纹理叠加,模型可能被欺骗,但人或 LVLM 也容易说出“overlay”“artifact”之类暴露词。

PSI 的流程更像“在鞋面上自然地长出一点长颈鹿相关纹理”。早期 timestep 先从目标图中选显著主体区域,把粗粒度 giraffe 语义注入当前 adversarial latent;中间 timestep 通过 co-evolving selection 在鞋面等更合适的源区域上做局部对齐;后期 timestep 逐渐扩展到目标图的更完整区域,同时源感知噪声不断把鞋子的原始形状和布局带回来。最后,GPT-5 可能在 caption 中提到与目标语义相关的内容,但图像本身不出现突兀大块贴图,输出也较少触发“neural artifacts”警告。

这个例子也说明 PSI 的攻击不是把目标物体硬贴到源图上,而是把目标概念以局部、渐进、受源图约束的方式融入源图。它追求的是让 LVLM 的语义理解偏向目标,而不是让人眼直接看到完整目标物体。

损失函数 / 训练策略

PSI 使用 CLIP 系列作为替代模型,包括 ViT-B/16、ViT-B/32 和 ViT-g-14 laion2B-s12B-b42K,默认取多个 surrogate 的 mean similarity。核心对齐损失是局部区域间的 cosine similarity:\(L_{align}(t)=\cos(F(a_t),F(r_t))\)。每一步梯度只作用在被选中的局部 adversarial region 上,区域之外为 0,然后通过 \(\gamma\cdot\mathrm{Clip}_\infty(\cdot,\delta)\) 控制注入强度。

实现上,作者使用 stable-diffusion-2-1 作为生成模型,用 SAM 从目标图像中检测显著物体区域。默认 \(t^*\) 设为总扩散步数的 20%,候选区域数 \(N=4\),随机尺度因子 \(s\in[0.4,0.9]\),指导强度 \(\gamma=20\),裁剪阈值 \(\delta=0.0025\)。论文附录还给出一个直觉性证明:在同等有效对齐贡献下,把小扰动分散到多个 timestep,比集中在单一步注入会带来更小的二阶自然性损失,因此更符合联合目标。

实验关键数据

主实验

论文在图像描述任务上评估攻击,prompt 为 “Describe this image in 30 words.”。受害模型覆盖开源模型 MiniGPT-4、对抗鲁棒模型 FARE4,以及 GPT-5、Gemini-2.5 Flash、Grok-4、Claude-3.5 Sonnet 等商业模型。迁移性用 ASR 衡量:GPT-4o judge 判断对抗图输出和目标图输出的语义相似度,分数大于等于 0.3 视为成功。隐蔽攻击成功率 S-ASR 进一步要求输出中不能出现 artifact、overlay、adversarial、perturbed 等暴露攻击痕迹。

方法 MiniGPT-4 ASR / S-ASR FARE4 ASR / S-ASR GPT-5 ASR / S-ASR Gemini-2.5 ASR / S-ASR Grok-4 ASR / S-ASR Claude-3.5 ASR / S-ASR BRISQUE↓ LPIPS↓
AttackVLM 8.9 / 8.2 0.3 / 0.2 3.0 / 2.7 2.7 / 2.1 2.6 / 2.0 0.4 / 0.1 53.93 0.262
CoA 13.5 / 13.2 0.7 / 0.6 9.6 / 7.6 9.3 / 8.0 6.3 / 5.7 1.2 / 0.5 55.64 0.258
AdvDiffVLM 29.1 / 28.5 14.2 / 13.9 13.1 / 8.9 14.9 / 12.5 13.0 / 11.6 4.5 / 3.3 22.59 0.214
AnyAttack 33.2 / 28.6 11.6 / 9.2 24.5 / 11.2 31.5 / 20.8 26.6 / 19.4 7.0 / 3.9 68.32 0.478
M-Attack 82.4 / 77.1 53.2 / 49.5 73.8 / 54.5 71.4 / 64.3 77.9 / 70.0 12.4 / 9.8 47.68 0.209
FOA 84.7 / 77.5 54.4 / 51.0 75.8 / 56.5 73.5 / 63.4 80.0 / 72.7 14.6 / 10.4 50.37 0.217
PSI 85.1 / 82.3 64.3 / 63.5 78.6 / 62.8 75.8 / 71.5 81.4 / 75.0 21.8 / 15.2 22.14 0.192

PSI 在所有受害模型上都取得最高 ASR,并且 S-ASR 也整体最高。尤其在 GPT-5 上,FOA 的 ASR/S-ASR 为 75.8/56.5,PSI 提升到 78.6/62.8;在 adversarially robust 的 FARE4 上,PSI 的 S-ASR 达到 63.5,明显高于 FOA 的 51.0,说明它不只是攻击普通模型,对鲁棒模型也更难防。

防御 方法 GPT-5 ASR GPT-5 S-ASR 变化解读
Gaussian smoothing FOA 58.7 48.2 相比原始 75.8 / 56.5 明显下降
Gaussian smoothing PSI 61.1 56.6 ASR 下降,但 S-ASR 只从 62.8 降到 56.6
JPEG compression FOA 61.9 48.9 像素扰动被压缩破坏
JPEG compression PSI 64.9 56.7 语义注入比像素噪声更耐 JPEG
DiffPure FOA 19.7 14.7 扩散净化对传统扰动杀伤很大
DiffPure PSI 34.2 29.6 仍下降,但保留更多攻击能力

防御实验说明 PSI 的 unrestricted perturbation 和自然语义注入不容易被简单平滑、压缩或扩散净化完全抹掉。它不是局部高频噪声主导的攻击,因此在防御后仍保留更多目标语义。

消融实验

配置 GPT-5 ASR GPT-5 S-ASR BRISQUE↓ 说明
PSI 完整版 78.6 62.8 22.14 三个组件同时启用
w/o diffusion (16/255) 75.5 57.0 51.49 去掉扩散先验后图像质量显著变差
w/o diffusion (12/255) 65.5 47.4 42.45 减小预算改善质量但牺牲攻击
w/o progressive alignment 22.8 15.0 22.28 自然性还在,但目标语义注入失败
w/o co-evolving selection 71.3 52.5 25.60 随机局部对齐不如语义对应稳定
w/o source-aware denoising 81.0 57.0 23.60 ASR 略高但隐蔽性和 LPIPS 变差

最关键的消融是去掉 progressive alignment:BRISQUE 仍接近完整 PSI,说明图像仍自然,但 ASR/S-ASR 崩掉。这说明扩散先验负责“像自然图”,渐进对齐负责“像目标语义”;二者缺一不可。去掉 source-aware denoising 的 ASR 变高但 S-ASR 变低,也支持作者的论点:强攻击和隐蔽攻击不是同一个指标。

关键发现

  • 渐进对齐是迁移性的最大贡献项。固定目标即使配合扩散生成,也会让 GPT-5 ASR 从 78.6 掉到 22.8,说明单一全局特征对齐确实容易走向对迁移无效的解。
  • 扩散先验主要改善自然性和输出层隐蔽性。PSI 的 BRISQUE 为 22.14,接近 AdvDiffVLM 的 22.59,远好于 AnyAttack 的 68.32;同时 LPIPS 0.192 也是表中最低。
  • 商业模型不一定更难被攻击,但更会识别攻击痕迹。GPT-5、Grok-4 的 ASR 接近 MiniGPT-4,但 S-ASR 相对更低;Claude-3.5 的 ASR/S-ASR 最低,表现出更强鲁棒性。
  • 目标图像越简单、主体越明确,迁移越容易。附录中 M-Attack 在低复杂度目标上的 GPT-5 ASR 为 81.4%,高复杂度全图目标为 73.8%,支持 PSI 从显著主体到全图的 curriculum 设计。
  • PSI 的隐蔽性仍不是完美无痕。附录检测实验显示,GPT-5、Gemini-2.5、Grok-4 对 PSI 样本仍有 82%、85%、85% 的检测准确率,只是低于多数基线;模型常抓到的是物体关系、边界、透视、纹理一致性等场景级异常。

亮点与洞察

  • 把迁移性和自然性统一到一个目标里:论文没有只说“扩散模型生成更自然”,而是先提出 \(p_F(f_{tar}\mid x_{adv})\cdot p_D(x_{adv})\) 这样的联合目标,再用扩散去噪近似自然性项。这让方法设计比单纯堆模块更有解释力。
  • 渐进语义注入比强行贴目标更隐蔽:AnyAttack 之类方法常把目标概念以明显轮廓或纹理 overlay 的方式打到图像上;PSI 更像在源图已有结构上长出目标相关语义,使 LVLM 的 caption 偏移,但人眼不一定直接看到完整目标物体。
  • S-ASR 是比 ASR 更适合 LVLM 攻击的指标:大模型会在输出中说“这是带噪声/overlay 的图”,这对真实攻击场景几乎等于失败。论文把攻击成功和输出不暴露结合起来评价,很贴近多模态模型的使用方式。
  • 局部目标课程学习可以迁移到其他黑盒攻击:从显著主体开始,再扩展到完整上下文,这个设计不只适用于图像扩散攻击,也可用于视频、3D 或多对象 VLM 攻击中的逐阶段目标语义注入。
  • 防御启发很直接:PSI 的成功说明只检测高频噪声不够,鲁棒 LVLM 需要同时具备 adversarial awareness 和语义稳定性;附录指出 Claude 可能更鲁棒却不敏感,这个 trade-off 值得后续系统研究。

局限与展望

  • PSI 主要注入目标图像的核心语义,细粒度纹理、材质和复杂空间关系仍不稳定。作者在附录承认,它在语义注入和隐蔽性之间做了取舍,不能保证完整复现目标图的所有细节。
  • 当源图像结构非常干净、语义非常明确,目标图像又复杂或抽象时,扰动更容易显眼。论文的 failure case 显示,平滑或视觉空白的源图会让 donut-like perturbation 更突出,隐蔽性下降。
  • 评估仍依赖 LLM-as-a-Judge。虽然用 GPT-4o judge 语义相似度和隐蔽性很符合 LVLM 场景,但 judge 本身的偏差、阈值 0.3 的选择、不同模型输出风格都会影响 ASR/S-ASR。
  • 威胁模型是 image-only targeted transfer attack,攻击者不能改 prompt,也不能查询受害模型。这个设定很现实,但不覆盖多轮交互、agentic VLM、工具调用链路中的更复杂攻击。
  • 防御侧还只是初步测试 Gaussian、JPEG、DiffPure。未来更有价值的是把 PSI 当成训练或评测数据,系统研究多模态鲁棒训练、场景一致性检测、跨模型 adversarial warning 校准。

相关工作与启发

  • vs AttackVLM / CoA: 这些方法沿用固定替代模型特征对齐,优化目标清楚但容易过拟合 surrogate,迁移性弱。PSI 的区别在于把固定全局目标拆成随扩散过程演化的局部目标,并用扩散先验减少非自然解。
  • vs M-Attack / FOA: M-Attack 和 FOA 通过 random cropping、local feature alignment 提升迁移性,PSI 可以看作把这种局部对齐推进到 diffusion trajectory 中,并用 co-evolving selection 让源区和目标区更有语义对应。结果上,PSI 在 GPT-5 S-ASR 从 FOA 的 56.5 提升到 62.8。
  • vs AnyAttack: AnyAttack 能生成强语义扰动,但常有明显 neural artifacts,BRISQUE 和 LPIPS 都很差。PSI 的优势是让目标语义嵌进源图结构,而不是以大范围混合或贴图方式出现。
  • vs AdvDiffVLM: 两者都用扩散模型改善 imperceptibility,但 AdvDiffVLM 的迁移性弱,GPT-5 ASR 只有 13.1。PSI 的关键增量是 progressive alignment 和 source-aware denoising,使扩散不只是“美化器”,而成为攻击优化的一部分。
  • 对安全研究的启发: 这篇论文提醒我们,LVLM 安全不能只看文本 jailbreak 或显式有害内容过滤。图像侧的自然语义注入可以在不改 prompt 的情况下改变模型理解,因此安全评测应包含 targeted image-only transfer attacks、输出层 warning 检测,以及对场景级语义异常的鲁棒判断。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 从联合目标到扩散轨迹中的渐进局部对齐,方法动机和实现都比较完整,不是简单组合已有攻击技巧。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖开源、鲁棒、商业模型,包含 ASR/S-ASR、视觉质量、防御、组件消融、超参数和失败案例,证据链很扎实。
  • 写作质量: ⭐⭐⭐⭐ 论文主线清楚,公式和图能支撑方法理解;部分实验依赖未来模型命名和 LLM judge,读者需要留意评测设定的可复现性。
  • 价值: ⭐⭐⭐⭐⭐ 对 LVLM 安全评测和防御都有直接价值,尤其强调了“攻击成功但输出暴露”这一过去容易被忽略的问题。