Transferable and Stealthy Adversarial Attacks on Large Vision-Language Models¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=liQueBuFXi
代码: 待发布
领域: 多模态大模型安全 / LVLM 对抗攻击
关键词: 大视觉语言模型安全, 黑盒迁移攻击, 隐蔽对抗样本, 扩散模型, 渐进语义注入

一句话总结¶

这篇论文提出 Progressive Semantic Infusion (PSI)，用扩散模型把目标图像的自然语义逐步注入源图像，在保持视觉隐蔽性的同时显著提升对 GPT-5、Grok-4、Gemini 等黑盒大视觉语言模型的迁移攻击成功率。

研究背景与动机¶

领域现状：针对大视觉语言模型 (LVLM/VLM) 的黑盒攻击，常见做法是先找一个白盒替代模型，比如 CLIP 或 BLIP 系列，再优化一张源图像，让它在替代模型上的视觉特征接近目标图像。攻击者真正想要的是：受害模型看到被改过的源图像后，输出像是在描述目标图像的文本；但因为商业 LVLM 的参数、梯度和训练数据都不可见，只能依赖这种“替代模型上对齐，黑盒模型上迁移”的路径。

现有痛点：固定特征对齐并不等于可迁移。AttackVLM、CoA 等方法可以把 adversarial image 在替代模型上推向目标特征，但这个优化发生在像素空间，很容易把样本推离自然图像分布；一旦样本变成“替代模型喜欢、真实 LVLM 不买账”的非自然解，迁移性就会掉。另一类方法如 AnyAttack、M-Attack、FOA 虽然更强地注入目标语义，常常能攻击成功，却会留下肉眼可见或模型可检测的纹理、轮廓、overlay、artifact，使攻击在输入层或输出层暴露。

核心矛盾：迁移攻击需要目标语义足够强，隐蔽攻击又要求源图像看起来仍像原图，二者之间不是简单的 \(\ell_\infty\) 预算能解决的权衡。论文的关键判断是：黑盒 LVLM 和替代模型都在大规模自然图像-文本数据上训练，如果对抗样本既贴近目标语义，又仍落在自然图像分布附近，那么它更可能在不同模型之间产生一致的语义响应。

本文目标：作者把目标拆成三个子问题：第一，如何在攻击优化里显式利用自然图像分布，而不是只追替代模型特征相似度；第二，如何避免单一固定目标导致过拟合，让攻击信号沿生成过程逐步注入；第三，如何让最终图像仍保留源图像的视觉线索，避免被人或 LVLM 识别为“被篡改的图”。

切入角度：扩散模型本身就是在自然图像分布上训练出来的生成先验，反向去噪过程可以被看作把样本往自然图像流形上拉。作者于是不用传统的像素级迭代扰动作为主舞台，而是在 DDPM 去噪轨迹中一边生成、一边对齐、一边把源图像信息带回去。

核心 idea：用“扩散先验约束自然性 + 渐进局部语义对齐提升迁移性 + 源感知 DDPM inversion 保持隐蔽性”替代单一固定特征对齐，从而生成既能跨模型攻击又不容易露馅的 LVLM 对抗图像。

方法详解¶

整体框架¶

PSI 的输入是一张源图像 \(x\) 和一张目标图像 \(x_{tar}\)，输出是一张对抗图像 \(x_{adv}\)：它在人眼看来应当接近源图像，但让黑盒 LVLM 产生接近目标图像的描述。整体流程先把源图像反演到扩散模型的中间时刻 \(t^*\)，再从 \(t^*\) 到 0 执行去噪；每个 timestep 都会用当前的局部目标区域做一次替代模型特征对齐，并用带源图像线索的噪声项保持视觉一致性。

作者先把传统固定目标写成 \(L_{fixed}=\cos(f_{tar}, f_{adv})\)，再指出这只管替代模型对齐，不管样本是不是自然。PSI 实际要近似优化的是联合目标 \(L_{joint}=p_F(f_{tar}\mid x_{adv})\cdot p_D(x_{adv})\)：前一项代表替代模型上的目标语义对齐，后一项代表自然图像分布上的可信度。扩散去噪负责自然性，渐进对齐负责攻击语义，源感知噪声负责隐蔽性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["源图像 x + 目标图像 x_tar"] --> B["扩散优化框架<br/>反演到中间时刻"]
    B --> C["渐进对齐目标<br/>局部目标语义注入"]
    C --> D["源感知去噪<br/>带回源图像线索"]
    D --> E{"t 到 0?"}
    E -->|否| C
    E -->|是| F["对抗图像 x_adv<br/>迁移且隐蔽"]

在威胁模型上，攻击者不能查询或修改受害 LVLM，也不能改 prompt、system instruction 或其他文本输入，只能制作一张之后会被 LVLM 消费的恶意图像。攻击目标不是让模型输出某个固定标签，而是让模型对 \(x_{adv}\) 的自然语言描述在语义上接近目标图像 \(x_{tar}\) 的描述。

关键设计¶

1. 扩散优化框架：把自然性放进攻击过程本身

传统迁移攻击往往直接在像素空间优化 \(\cos(F(x_{adv}),F(x_{tar}))\)，这会把“替代模型上的高相似度”误当成“黑盒 LVLM 上的可迁移性”。PSI 的第一步是把自然性也放进目标：如果 \(F\) 和黑盒模型 \(M\) 都来自相近的自然图文数据分布，那么更自然的 \(x_{adv}\) 更可能让二者产生一致语义。论文把这个想法写成 \(L_{joint}=p_F(f_{tar}\mid x_{adv})\cdot p_D(x_{adv})\)，其中 \(p_D(x_{adv})\) 虽然不能直接求导，但可以由扩散模型的去噪先验近似承担。

DDPM 的反向一步为 \(x_{t-1}=\mu(x_t,t)+\sigma_t\epsilon_t\)，而 \(\mu(x_t,t)\) 可以近似看作 \(x_t+\sigma_t^2\nabla_{x_t}\log p_D(x_t)\)。这意味着每次去噪都在把样本往自然图像分布高密度区域推。PSI 先对源图像做 diffusion inversion 得到中间潜变量 \(x_{t^*}\)，再沿 \(t^*,t^*-1,\dots,1\) 去噪；攻击扰动不只在最终图像上加，而是在每个去噪步注入：\(x_{t-1}=\mathrm{Denoise}_t(x_t)+\mathrm{Perturbation}(t)\)。这样，攻击信号一边被注入，一边接受扩散先验的“自然化”约束。

2. 渐进对齐目标：避免固定全局目标把样本推向非自然过拟合解

单一固定目标的问题在于它会让优化一直追同一个全局 target feature，容易学到替代模型的局部偏好，而不是黑盒 LVLM 也会认的自然语义。PSI 把一次全局对齐改成一串随 timestep 变化的局部对齐目标 \(\{L_{align}(t)\}_{t=1}^{t^*}\)。每一步只做一次小更新：\(\mathrm{Perturbation}(t)=\gamma\cdot\mathrm{Clip}_\infty(\nabla_{\mu(x_t,t)}L_{align}(t),\delta)\)，其中 \(\gamma\) 控制指导强度，\(\delta\) 限制该步梯度扰动幅度。

关键不只是“裁剪区域”，而是目标区和源区一起演化。对目标图像，PSI 先用 SAM 找到显著物体区域 \(o_t\)，再用插值把参考区域 \(r_t\) 从紧凑的语义主体逐步扩展到完整目标图像：\(r_t=\mathrm{Interpolation}(o_t,x_{tar},1-t/t^*)\)。早期先注入最清楚的主体语义，后期再引入更复杂的全图上下文。对当前 adversarial latent，PSI 随机采样 \(N\) 个同尺度候选局部区域，再选择与 \(r_t\) 在替代模型特征上最相似的那个 \(a_t=\arg\max_{a\in A_t}\cos(F(a),F(r_t))\)。这种 co-evolving selection 比纯随机 crop 更稳定，因为它让每一步的源区域和目标区域在语义上有较近的对应关系。

这种设计实际上把“目标语义注入”做成 curriculum：先对齐简单、主导、局部的目标概念，再逐步增加背景和细节；同时，局部区域在不同时间变化，相当于给固定目标加了空间多样性正则。论文的实验也显示，直接去掉 progressive alignment 时 GPT-5 ASR 从 78.6% 掉到 22.8%，说明它不是小修小补，而是迁移性的核心来源。

3. 源感知去噪：把隐蔽性从后处理变成生成轨迹约束

如果只用普通 DDIM inversion 或确定性采样，源图像的信息主要被编码在起点 \(x_{t^*}\) 里；一旦后续每步都注入攻击扰动，最终图像可能逐渐偏离源图像，变成“语义上像目标、视觉上露馅”的样本。PSI 的做法是把源图像线索写进每个 timestep 的噪声项，而不是只依赖初始 latent。

具体地，作者先用源图像构造一串前向加噪状态 \(\hat{x}_t=\sqrt{\bar{\alpha}_t}x+\sqrt{1-\bar{\alpha}_t}n_t\)，再反推每一步对应的噪声 \(\hat{\epsilon}_t=(\hat{x}_{t-1}-\mu(\hat{x}_t,t))/\sigma_t\)。这些 \(\hat{\epsilon}_t\) 不再是独立高斯噪声，而携带了源图像的纹理、布局和低层视觉线索。真正生成时，PSI 使用 \(\mathrm{Denoise}_t(x_t)=\mu(x_t,t)+\sigma_t\hat{\epsilon}_t\)，让每个去噪步都受到源图像的牵引。

这个设计解释了为什么 PSI 的 stealthiness 不是简单靠小扰动预算。论文中 w/o source-aware denoising 的 GPT-5 ASR 甚至略高到 81.0%，但 S-ASR 从 62.8% 掉到 57.0%，LPIPS 从 0.192 变差到 0.241。也就是说，不带源感知去噪可以更激进地攻击，却更容易让视觉一致性破裂；PSI 有意牺牲一小部分攻击强度，换来更高的输出层隐蔽性。

一个完整示例¶

可以把论文里的“鞋子被攻击成 giraffe”理解成 PSI 的典型工作方式。源图像是一双鞋，目标图像包含长颈鹿语义。如果用 CoA 这类固定对齐，放大扰动后主要是非语义噪声；如果用 AnyAttack 或 M-Attack，图像里会出现较明显的长颈鹿轮廓或纹理叠加，模型可能被欺骗，但人或 LVLM 也容易说出“overlay”“artifact”之类暴露词。

PSI 的流程更像“在鞋面上自然地长出一点长颈鹿相关纹理”。早期 timestep 先从目标图中选显著主体区域，把粗粒度 giraffe 语义注入当前 adversarial latent；中间 timestep 通过 co-evolving selection 在鞋面等更合适的源区域上做局部对齐；后期 timestep 逐渐扩展到目标图的更完整区域，同时源感知噪声不断把鞋子的原始形状和布局带回来。最后，GPT-5 可能在 caption 中提到与目标语义相关的内容，但图像本身不出现突兀大块贴图，输出也较少触发“neural artifacts”警告。

这个例子也说明 PSI 的攻击不是把目标物体硬贴到源图上，而是把目标概念以局部、渐进、受源图约束的方式融入源图。它追求的是让 LVLM 的语义理解偏向目标，而不是让人眼直接看到完整目标物体。

损失函数 / 训练策略¶

PSI 使用 CLIP 系列作为替代模型，包括 ViT-B/16、ViT-B/32 和 ViT-g-14 laion2B-s12B-b42K，默认取多个 surrogate 的 mean similarity。核心对齐损失是局部区域间的 cosine similarity：\(L_{align}(t)=\cos(F(a_t),F(r_t))\)。每一步梯度只作用在被选中的局部 adversarial region 上，区域之外为 0，然后通过 \(\gamma\cdot\mathrm{Clip}_\infty(\cdot,\delta)\) 控制注入强度。

实现上，作者使用 stable-diffusion-2-1 作为生成模型，用 SAM 从目标图像中检测显著物体区域。默认 \(t^*\) 设为总扩散步数的 20%，候选区域数 \(N=4\)，随机尺度因子 \(s\in[0.4,0.9]\)，指导强度 \(\gamma=20\)，裁剪阈值 \(\delta=0.0025\)。论文附录还给出一个直觉性证明：在同等有效对齐贡献下，把小扰动分散到多个 timestep，比集中在单一步注入会带来更小的二阶自然性损失，因此更符合联合目标。

实验关键数据¶

主实验¶

论文在图像描述任务上评估攻击，prompt 为 “Describe this image in 30 words.”。受害模型覆盖开源模型 MiniGPT-4、对抗鲁棒模型 FARE4，以及 GPT-5、Gemini-2.5 Flash、Grok-4、Claude-3.5 Sonnet 等商业模型。迁移性用 ASR 衡量：GPT-4o judge 判断对抗图输出和目标图输出的语义相似度，分数大于等于 0.3 视为成功。隐蔽攻击成功率 S-ASR 进一步要求输出中不能出现 artifact、overlay、adversarial、perturbed 等暴露攻击痕迹。

方法	MiniGPT-4 ASR / S-ASR	FARE4 ASR / S-ASR	GPT-5 ASR / S-ASR	Gemini-2.5 ASR / S-ASR	Grok-4 ASR / S-ASR	Claude-3.5 ASR / S-ASR	BRISQUE↓	LPIPS↓
AttackVLM	8.9 / 8.2	0.3 / 0.2	3.0 / 2.7	2.7 / 2.1	2.6 / 2.0	0.4 / 0.1	53.93	0.262
CoA	13.5 / 13.2	0.7 / 0.6	9.6 / 7.6	9.3 / 8.0	6.3 / 5.7	1.2 / 0.5	55.64	0.258
AdvDiffVLM	29.1 / 28.5	14.2 / 13.9	13.1 / 8.9	14.9 / 12.5	13.0 / 11.6	4.5 / 3.3	22.59	0.214
AnyAttack	33.2 / 28.6	11.6 / 9.2	24.5 / 11.2	31.5 / 20.8	26.6 / 19.4	7.0 / 3.9	68.32	0.478
M-Attack	82.4 / 77.1	53.2 / 49.5	73.8 / 54.5	71.4 / 64.3	77.9 / 70.0	12.4 / 9.8	47.68	0.209
FOA	84.7 / 77.5	54.4 / 51.0	75.8 / 56.5	73.5 / 63.4	80.0 / 72.7	14.6 / 10.4	50.37	0.217
PSI	85.1 / 82.3	64.3 / 63.5	78.6 / 62.8	75.8 / 71.5	81.4 / 75.0	21.8 / 15.2	22.14	0.192

PSI 在所有受害模型上都取得最高 ASR，并且 S-ASR 也整体最高。尤其在 GPT-5 上，FOA 的 ASR/S-ASR 为 75.8/56.5，PSI 提升到 78.6/62.8；在 adversarially robust 的 FARE4 上，PSI 的 S-ASR 达到 63.5，明显高于 FOA 的 51.0，说明它不只是攻击普通模型，对鲁棒模型也更难防。

防御	方法	GPT-5 ASR	GPT-5 S-ASR	变化解读
Gaussian smoothing	FOA	58.7	48.2	相比原始 75.8 / 56.5 明显下降
Gaussian smoothing	PSI	61.1	56.6	ASR 下降，但 S-ASR 只从 62.8 降到 56.6
JPEG compression	FOA	61.9	48.9	像素扰动被压缩破坏
JPEG compression	PSI	64.9	56.7	语义注入比像素噪声更耐 JPEG
DiffPure	FOA	19.7	14.7	扩散净化对传统扰动杀伤很大
DiffPure	PSI	34.2	29.6	仍下降，但保留更多攻击能力

防御实验说明 PSI 的 unrestricted perturbation 和自然语义注入不容易被简单平滑、压缩或扩散净化完全抹掉。它不是局部高频噪声主导的攻击，因此在防御后仍保留更多目标语义。

消融实验¶

配置	GPT-5 ASR	GPT-5 S-ASR	BRISQUE↓	说明
PSI 完整版	78.6	62.8	22.14	三个组件同时启用
w/o diffusion (16/255)	75.5	57.0	51.49	去掉扩散先验后图像质量显著变差
w/o diffusion (12/255)	65.5	47.4	42.45	减小预算改善质量但牺牲攻击
w/o progressive alignment	22.8	15.0	22.28	自然性还在，但目标语义注入失败
w/o co-evolving selection	71.3	52.5	25.60	随机局部对齐不如语义对应稳定
w/o source-aware denoising	81.0	57.0	23.60	ASR 略高但隐蔽性和 LPIPS 变差

最关键的消融是去掉 progressive alignment：BRISQUE 仍接近完整 PSI，说明图像仍自然，但 ASR/S-ASR 崩掉。这说明扩散先验负责“像自然图”，渐进对齐负责“像目标语义”；二者缺一不可。去掉 source-aware denoising 的 ASR 变高但 S-ASR 变低，也支持作者的论点：强攻击和隐蔽攻击不是同一个指标。

关键发现¶

渐进对齐是迁移性的最大贡献项。固定目标即使配合扩散生成，也会让 GPT-5 ASR 从 78.6 掉到 22.8，说明单一全局特征对齐确实容易走向对迁移无效的解。
扩散先验主要改善自然性和输出层隐蔽性。PSI 的 BRISQUE 为 22.14，接近 AdvDiffVLM 的 22.59，远好于 AnyAttack 的 68.32；同时 LPIPS 0.192 也是表中最低。
商业模型不一定更难被攻击，但更会识别攻击痕迹。GPT-5、Grok-4 的 ASR 接近 MiniGPT-4，但 S-ASR 相对更低；Claude-3.5 的 ASR/S-ASR 最低，表现出更强鲁棒性。
目标图像越简单、主体越明确，迁移越容易。附录中 M-Attack 在低复杂度目标上的 GPT-5 ASR 为 81.4%，高复杂度全图目标为 73.8%，支持 PSI 从显著主体到全图的 curriculum 设计。
PSI 的隐蔽性仍不是完美无痕。附录检测实验显示，GPT-5、Gemini-2.5、Grok-4 对 PSI 样本仍有 82%、85%、85% 的检测准确率，只是低于多数基线；模型常抓到的是物体关系、边界、透视、纹理一致性等场景级异常。

亮点与洞察¶

把迁移性和自然性统一到一个目标里：论文没有只说“扩散模型生成更自然”，而是先提出 \(p_F(f_{tar}\mid x_{adv})\cdot p_D(x_{adv})\) 这样的联合目标，再用扩散去噪近似自然性项。这让方法设计比单纯堆模块更有解释力。
渐进语义注入比强行贴目标更隐蔽：AnyAttack 之类方法常把目标概念以明显轮廓或纹理 overlay 的方式打到图像上；PSI 更像在源图已有结构上长出目标相关语义，使 LVLM 的 caption 偏移，但人眼不一定直接看到完整目标物体。
S-ASR 是比 ASR 更适合 LVLM 攻击的指标：大模型会在输出中说“这是带噪声/overlay 的图”，这对真实攻击场景几乎等于失败。论文把攻击成功和输出不暴露结合起来评价，很贴近多模态模型的使用方式。
局部目标课程学习可以迁移到其他黑盒攻击：从显著主体开始，再扩展到完整上下文，这个设计不只适用于图像扩散攻击，也可用于视频、3D 或多对象 VLM 攻击中的逐阶段目标语义注入。
防御启发很直接：PSI 的成功说明只检测高频噪声不够，鲁棒 LVLM 需要同时具备 adversarial awareness 和语义稳定性；附录指出 Claude 可能更鲁棒却不敏感，这个 trade-off 值得后续系统研究。

局限与展望¶

PSI 主要注入目标图像的核心语义，细粒度纹理、材质和复杂空间关系仍不稳定。作者在附录承认，它在语义注入和隐蔽性之间做了取舍，不能保证完整复现目标图的所有细节。
当源图像结构非常干净、语义非常明确，目标图像又复杂或抽象时，扰动更容易显眼。论文的 failure case 显示，平滑或视觉空白的源图会让 donut-like perturbation 更突出，隐蔽性下降。
评估仍依赖 LLM-as-a-Judge。虽然用 GPT-4o judge 语义相似度和隐蔽性很符合 LVLM 场景，但 judge 本身的偏差、阈值 0.3 的选择、不同模型输出风格都会影响 ASR/S-ASR。
威胁模型是 image-only targeted transfer attack，攻击者不能改 prompt，也不能查询受害模型。这个设定很现实，但不覆盖多轮交互、agentic VLM、工具调用链路中的更复杂攻击。
防御侧还只是初步测试 Gaussian、JPEG、DiffPure。未来更有价值的是把 PSI 当成训练或评测数据，系统研究多模态鲁棒训练、场景一致性检测、跨模型 adversarial warning 校准。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从联合目标到扩散轨迹中的渐进局部对齐，方法动机和实现都比较完整，不是简单组合已有攻击技巧。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖开源、鲁棒、商业模型，包含 ASR/S-ASR、视觉质量、防御、组件消融、超参数和失败案例，证据链很扎实。
写作质量: ⭐⭐⭐⭐ 论文主线清楚，公式和图能支撑方法理解；部分实验依赖未来模型命名和 LLM judge，读者需要留意评测设定的可复现性。
价值: ⭐⭐⭐⭐⭐ 对 LVLM 安全评测和防御都有直接价值，尤其强调了“攻击成功但输出暴露”这一过去容易被忽略的问题。