On the Adversarial Robustness of Large Vision-Language Models under Visual Token Compression¶

会议: ICML 2026
arXiv: 2601.21531
代码: https://github.com/XinweiZhang1998/CAGE (有)
领域: 多模态VLM / AI安全 / 对抗鲁棒性
关键词: 视觉Token压缩, 对抗攻击, 鲁棒性评估, LVLM, 编码器攻击

一句话总结¶

本文首次系统研究了带视觉Token压缩的大视觉语言模型(LVLM)的对抗鲁棒性，指出现有编码器攻击存在"优化-推理空间不匹配"问题，并提出 CAGE 攻击通过期望特征扰动 (EFD) 与排名-扰动对齐 (RDA) 两个目标，在未知压缩机制与未知Token预算下显著降低被压缩 LVLM 的鲁棒精度。

研究背景与动机¶

领域现状：LLaVA-NeXT、InternVL 这类主流 LVLM 每张图都要走数百到上千个视觉 Token，部署成本非常高。为此 VisionZip、VisPruner、DivPrune、FlowCut、PruMerge 等"插即用"的视觉Token压缩方法成为部署标配——它们先用注意力分数挑选 Top-K 个信息量大的 Token，再可选地把次要 Token 合并进来，把视觉序列长度从 \(N=576\) 砍到 \(K\ll N\)，在几乎不掉点的前提下大幅提速。

现有痛点：这类压缩 LVLM 越来越多地落地在自动驾驶、机器人等安全敏感场景，但学界几乎没有评估过"压缩后"的对抗鲁棒性。现有评估基本沿用编码器攻击（如 VEAttack），在完整的 \(N\) 个 Token 表征空间里优化扰动，再拿这个扰动去打压缩后的模型——评估结果可能严重失真。

核心矛盾：扰动是在"全 Token 表征"上优化的，但推理只走"压缩后表征"，存在两条具体的失效路径：(i) 预算稀释：相当一部分优化信号被分配给了那些会被裁掉、根本不参与推理的 Token；(ii) 依赖断裂：压缩裁掉了上下文/背景 Token，破坏了攻击在全局优化时所依赖的跨 Token 交互。两者合起来导致鲁棒精度被显著高估。

本文目标：(1) 把"压缩 LVLM 的鲁棒性"作为独立问题立起来；(2) 设计一个在部署预算 \(K_{\text{model}}\) 与具体压缩机制 \(\mathcal{C}\) 都未知的灰盒条件下，仍能与压缩瓶颈对齐的攻击。

切入角度：作者观察到两个互补现象：① 把 Token 按注意力排序后，扰动后特征的 cosine 偏移随 \(K\) 增大单调下降——说明扰动天然集中在高重要性 Token 上，而这些恰好是会"幸存"的；② 在 \(K_{\text{attack}}=K_{\text{model}}\) 时攻击最强（如 16-Token 部署下，全 Token 攻击的鲁棒精度 49.7%，对齐到 16 后降到 44.4%）。

核心 idea：不要把扰动均摊到所有 Token，而是用一个概率化框架，将扰动能量集中在那些"在多种可能预算下都会幸存"的 Token 上，同时主动把这些 Token 的注意力得分推高，确保它们真的被选中。

方法详解¶

整体框架¶

CAGE 维持编码器攻击的灰盒前提（白盒访问视觉编码器 \(\mathcal{E}\)，黑盒访问压缩模块 \(\mathcal{C}\) 与 LLM \(\mathcal{F}\)，且 \(K_{\text{model}}\) 未知）。整条优化流水线一次 PGD 迭代如下：(1) 输入图像 \(\mathbf{x}+\boldsymbol{\delta}\) 过编码器得到含扰动特征 \(\mathbf{H}'\) 与含扰动注意力分数 \(s_i^{\mathrm{adv}}\)；(2) 根据 \(s_i^{\mathrm{adv}}\) 排出 \(r_i\) 并按一个先验分布 \(P(K_{\text{model}})\) 计算每个 Token 的幸存概率 \(\pi_i\)；(3) 用 \(\pi_i\) 加权 cosine 距离 \(d_i\) 得到 EFD 损失；(4) 把 \(d_i\) 和 \(s_i^{\mathrm{adv}}\) 分别 softmax 成分布，最大化对齐项 RDA；(5) 联合反传更新 \(\boldsymbol{\delta}\)，并投影到 \(\ell_\infty\) 球面 \(\|\boldsymbol{\delta}\|_\infty\le \epsilon\)。攻击目标始终是编码器，不依赖文本 prompt，也不假设知道 \(K_{\text{model}}\) 或 \(\mathcal{C}\)。

关键设计¶

期望特征扰动 EFD（与未知 Token 预算对齐）:
- 功能：把扰动能量集中到"在多种可能预算下都会幸存"的 Token 上，规避预算稀释与依赖断裂。
- 核心思路：把部署预算 \(K_{\text{model}}\) 当作未知离散随机变量，先验设为 \(K_{\text{model}}\sim\mathcal{U}[K_{\min},K_{\max}]\)；定义 Token \(i\) 的幸存概率 \(\pi_i=P(K_{\text{model}}>r_i)\)，它形成一条随排名衰减的软掩码（高排名为 1，中段渐降，低排名为 0）；再用余弦距离 \(d_i=1-\mathcal{S}(\mathbf{z}_i^{\mathrm{adv}},\mathbf{z}_i^{\mathrm{cln}})\) 度量每个 Token 的扰动强度，损失为 \(\mathcal{L}_{\text{EFD}}=\sum_i \pi_i d_i / \sum_i \pi_i\)。
- 设计动机：直接用注意力分数 \(s_i\) 加权会过度集中在极少数 Top Token 上（softmax 太尖），中段 Token 几乎拿不到梯度；而中段 Token 在中等/未知预算下其实有非平凡概率被选中，因此换成跨预算积分得到的 \(\pi_i\) 才是真正"与压缩瓶颈对齐"的权重。
排名-扰动对齐 RDA（确保扰动重的 Token 被选中）:
- 功能：主动把高扰动 Token 推到注意力排名前列，提升它们真正经过压缩瓶颈、影响 LLM 输入的概率。
- 核心思路：把 \(d_i\) 和 \(s_i^{\mathrm{adv}}\) 各自 softmax 成分布 \(p_i^{(d)}\)、\(p_i^{(s)}\)，最大化 \(\mathcal{L}_{\text{RDA}}=\sum_i p_i^{(d)} \log p_i^{(s)}\)（即让选择分布拟合扰动分布）；优化时对 \(p^{(d)}\) stop-gradient，避免两边同时漂移产生退化。
- 设计动机：理论上对 \(\mathcal{L}_{\text{EFD}}\) 求梯度可分解为 \(\sum_i \pi_i \nabla d_i\)（已选 Token 上继续加扰动）和 \(\sum_i d_i \nabla \pi_i\)（把高扰动 Token 推上排名）两项，但第二项由于 Top-K 选择是分段常数函数，梯度稀疏且在切换点处病态；RDA 用可微的分布匹配把这条"被埋掉"的梯度通路显式补回来。
联合优化与编码器攻击形式:
- 功能：在 PGD 框架下融合两个目标，保持攻击与具体压缩机制解耦。
- 核心思路：总损失 \(\mathcal{L}_{\text{total}}=\mathcal{L}_{\text{EFD}}+\lambda\cdot\mathcal{L}_{\text{RDA}}\)，受 \(\|\boldsymbol{\delta}\|_\infty\le\epsilon\) 约束；EFD 在"幸存集"内造伤害（payload），RDA 把高扰动 Token 推进幸存集（delivery）。
- 设计动机：所有主流压缩方法的第一步几乎都是 Top-K 选择（纯选择型如 DivPrune、Alvar，或选完再合并如 VisionZip、PruMerge），打这一步是统一接口，天然覆盖差异化的下游合并机制；联合两项让攻击对"选谁"和"选了之后被扰动多少"都有控制力。

损失函数 / 训练策略¶

攻击仍是编码器攻击（不需文本、不需 LLM 前传），用 PGD 迭代 + \(\ell_\infty\) 投影；幸存概率 \(\pi_i\) 在每步用当前的对抗注意力分数重新计算；\(p^{(d)}\) 做 stop-gradient；\(\lambda\) 与 \(\epsilon\) 是主要超参。先验分布选均匀分布 \([K_{\min},K_{\max}]\)，这样不需要事先猜真实部署预算就能覆盖一片合理区间。

实验关键数据¶

主实验¶

评估在 LLaVA 上对 5 种代表性压缩方法（VisionZip / VisPruner / DivPrune / FlowCut / PruMerge）× 3 个数据集（GQA / TextVQA / VQA-v2）做攻击。下表给出 \(K_{\text{model}}=192\) 下的平均鲁棒精度对比（数值越低攻击越强）。

数据集	Clean	Robust (Base 基线攻击)	Robust (CAGE)	鲁棒精度下降
GQA	56.1	40.8	36.2	↓11.3%
TextVQA	56.7	33.5	23.4	↓30.1%
VQA-v2	73.4	55.4	47.2	↓14.8%
上界 (576 Tokens, 无压缩)	60.3 / 57.5 / 74.5	42.3 / 34.7 / 55.8	39.4 / 26.5 / 49.4	↓6.9 / 23.6 / 11.4%

可以看到：(1) CAGE 在所有压缩方法上一致地把鲁棒精度压得比基线更低，尤其在 TextVQA 上幅度最大（一项 OCR-VQA 任务，依赖精细视觉证据，对 Token 丢失更敏感）；(2) 即便在无压缩的"上界"设置下，CAGE 也优于基线，说明 EFD/RDA 提供的"扰动集中 + 注意力推高"机制本身就是个更强的编码器攻击。

消融与动机分析¶

配置	在 \(K_{\text{model}}=16\) 下的鲁棒精度 (%, ↓)	结论
\(K_{\text{attack}}=576\)（全 Token，VEAttack 默认）	49.7	优化-推理空间不匹配，明显偏弱
\(K_{\text{attack}}=192\)	45.3	缩小到接近部署预算时增强
\(K_{\text{attack}}=64\)	44.7	进一步对齐
\(K_{\text{attack}}=16\)（与部署精确对齐）	44.4	最强，但需知道真实 \(K_{\text{model}}\)
CAGE (EFD only)	介于上两行之间	仅集中扰动还不够
CAGE (EFD + RDA, 完整)	在多预算上同时优于上述固定 \(K_{\text{attack}}\)	跨预算更鲁棒

关键发现¶

压缩本身会"保留"被严重扰动的 Token：注意力排序下 cosine 偏移随 \(K\) 单调递减，说明扰动天然集中在 Top Token 上，而压缩恰恰留下这些 Token，因此压缩并不"自动免疫"对抗扰动——反而把最脏的证据保留下来。
预算对齐效应：固定攻击预算下，攻击最强的位置基本对齐部署预算 \(K_{\text{model}}\)；这解释了为什么传统全 Token 攻击会高估鲁棒性。
防御初探：作者尝试了若干潜在防御策略，结果显示有一定缓解但远不足以堵住漏洞，呼吁面向压缩的安全评估与防御。

亮点与洞察¶

首次把"压缩"摆到 LVLM 安全评估的正中央：把一个工程加速技巧重新定性为安全攻击面，方法干净——一个先验、一条 KL 风味的对齐项即可，迁移代价低。
概率化处理未知预算：用均匀先验把 \(K_{\text{model}}\) 期望积分掉，避免攻击者必须先猜部署配置，这对真实灰盒环境非常实用，思路可迁移到任何"推理路径不可见但有 Top-K 选择"的场景（如 MoE 路由攻击、稀疏注意力攻击）。
梯度分析直接驱动 RDA：从 \(\nabla_x \mathcal{L}_{\text{EFD}}\) 的两项分解里识别出"分布提升项"由于离散 Top-K 而失效，再用可微 KL 把它补回来——这种"先把隐式梯度算出来再显式化"的方法论可以套用到很多带 Top-K 的模块上。

局限与展望¶

仅评估 LLaVA + 5 种插即用压缩，未覆盖训练阶段就引入压缩（如训练时 Token Merging）、跨模态压缩或多图 agent 设置；后者恰恰是动机里强调的部署场景。
攻击仍是编码器攻击，未与端到端 LLM 反传攻击对比强度上限，且对文本 prompt-agnostic 反过来也意味着无法利用任务相关线索做更精细的攻击。
防御部分较薄，应深入研究"压缩感知"防御，例如随机化 \(K\)、重排注意力、压缩-鲁棒训练等。
先验设为均匀分布是工程简化，若真实部署预算偏向某端，EFD 权重可能不最优；可考虑用攻击成功反馈在线调整先验。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一篇系统揭示"Token压缩 vs 鲁棒性评估"失配的工作，问题定义独立。
实验充分度: ⭐⭐⭐⭐ 覆盖 5 种压缩 × 3 个 VQA 数据集 × 多预算，主结论稳定；但仅一个 LVLM 主干。
写作质量: ⭐⭐⭐⭐ 动机两条 insight + 梯度分析推导 RDA，叙事清晰；图 1/2 信息密度很高。
价值: ⭐⭐⭐⭐⭐ 直接给出"压缩 LVLM 部署必须重新做安全评估"的明确结论，对工业部署影响大。