STRAP-ViT: Segregated Tokens with Randomized Transformations for Defense against Adversarial Patches in ViTs¶

会议: CVPR 2025
arXiv: 2603.12688
代码: 无
领域: 其他
关键词: 对抗补丁防御, Vision Transformer, Jensen-Shannon散度, token分离, 随机变换, 即插即用防御

一句话总结¶

STRAP-ViT 提出一种无需训练的即插即用 ViT 防御模块，利用 Jensen-Shannon 散度将受对抗补丁影响的 token 从正常 token 中分离出来，再通过随机复合变换消除其对抗效应，在多种 ViT 架构和攻击方法下实现了接近干净基线 2-3% 的鲁棒精度。该方法的核心优势在于完全不需要重训练或微调现有模型。

研究背景与动机¶

领域现状：Vision Transformer 已成为视觉 AI 核心架构，广泛部署于自动驾驶、监控、医疗影像等高价值场景，各公司每季度投入数百亿美元用于 AI 基础设施。

现有痛点：对抗补丁（adversarial patches）是一种物理可实现的攻击——只需贴一个高对比度小补丁即可劫持 ViT 自注意力，腐蚀 class token，导致高置信度误分类。

核心矛盾：ViT 的全局自注意力既是优势也是弱点——对抗补丁可利用注意力劫持影响所有 token 交互。现有防御（对抗训练、补丁检测器、token 平滑、认证半径）计算开销大或不可靠。

本文目标 如何在不需额外训练的前提下，以极低计算代价检测并消除对抗补丁对 ViT 推理的影响？

切入角度：受对抗补丁覆盖的 token 与正常 token 在统计分布上有显著差异——对抗 token 的 Shannon 熵更高，通道分布出现系统性偏移，为基于信息论的检测提供理论基础。

核心 idea：用 JSD 定位异常 token，用随机复合变换破坏其对抗信息，全程无需训练、即插即用。

方法详解¶

整体框架¶

STRAP-ViT 嵌入 ViT 推理流程的 patch embedding 和位置编码之后、Transformer 编码器之前，执行两阶段：(1) 检测——JSD 分数识别异常 token；(2) 缓解——随机复合变换使对抗噪声失效。变换后 token 和正常 token 一起送入后续 ViT 层。

关键设计¶

检测：基于 JSD 的 Token 分离
- 功能：计算每个 token 与干净参考分布的 Jensen-Shannon 散度，识别受对抗补丁影响的 token 子集 \(\mathcal{A}\)
- 核心思路：token embedding \(z_{\ell,t}\) 通过温度 softmax 映射到概率单纯形 \(p_{\ell,t} = \text{softmax}(z_{\ell,t}/T)\)，与干净参考 \(q_{\ell,t}\) 计算 JSD。异常分数 \(s_{\ell,t} = \sqrt{\mathrm{JSD}(p_{\ell,t} \| q_{\ell,t})}\)，超过阈值 \(\tau\) 的 token 标记为异常
- 设计动机：\(\sqrt{\text{JSD}}\) 是真度量，直接关联互信息——值越大说明 token 是异常的证据越强；对称有界 \([0, \log 2]\)，比单纯熵更适合校准检测
缓解：随机复合 Token 变换
- 功能：对异常 token 随机选取并组合三种变换来消除对抗效果
- 核心思路：对每个异常 token 随机采样变换子集 \(S_t \subseteq \{1,2,3\}\) 和排列 \(\pi_t\)，依次应用 \(L_p\) 投影（抑制极端通道能量）、仿射收缩（重新中心化）、softmax 温度缩放（缓和尖峰分布）
- 设计动机：随机组合使攻击者无法通过 EOT 训练出免疫的补丁，指数级增加自适应攻击难度
超参数 K 的选择
- 功能：确定最少需变换多少 token 使防御有效
- 核心思路：覆盖对抗补丁面积 50% 即可使其失效。\(K\) 从 2（~1% token）到 8（~4% token）
- 设计动机：变换破坏 token 信息，需平衡"覆盖补丁"和"最小化信息损失"

损失函数 / 训练策略¶

无需训练。STRAP-ViT 是纯推理时防御模块，参考分布从干净数据集预计算，零训练成本。参考分布 \(q_{\ell,t}\) 的计算仅需一次前向传播干净图像集，存储开销极小。实际部署时只增加 JSD 计算和变换操作的延迟，相比 ViT 本身的计算量可忽略不计。温度参数 \(T\) 控制 softmax 的平滑度，影响检测灵敏度——较低的 \(T\) 使分布更尖锐，更容易检测异常。

实验关键数据¶

主实验（ViT-B/16, ImageNet）¶

攻击方法	补丁大小	无防御 Top-1	STRAP-ViT Top-1	提升
GoogleAP	40×40	3.6%	78.8%	+75.2%
GoogleAP	50×50	1.2%	78.3%	+77.1%
LAVAN	40×40	7.4%	79.2%	+71.8%
GDPA	50×50	12.9%	76.1%	+63.2%

干净基线 80.5%；STRAP-ViT 在干净样本上 80.1%（仅下降 0.4%）

消融实验¶

配置	关键指标	说明
K=2 (1% token)	鲁棒精度 ~78%	覆盖补丁 50% 即有效
K=8 (4% token)	鲁棒精度 ~76%	过多变换损害干净精度
仅单一变换	低于复合变换	随机组合增加防御多样性

关键发现¶

鲁棒精度恢复到距干净基线仅 2-3%，跨越所有攻击方法和数据集
干净样本几乎无精度损失（仅 -0.4%），假阳性率极低
对补丁大小不敏感——40×40 到 50×50 面积增大 56%，防御效果几乎不变
DinoV2 骨干上干净精度甚至提升 2.2%，说明 JSD 检测有正则化效果

亮点与洞察¶

零训练即插即用：不需修改权重、重新训练或微调，对已部署的 ViT 极其友好
信息论驱动检测：用 JSD 而非启发式阈值，有互信息理论支撑，可校准异常证据
随机性作为安全保障：随机变换组合使自适应攻击难度指数级增长
可迁移到其他 token 架构：只要有 patch embedding 层即可插入，适用于 VLM、多模态模型等

局限与展望¶

需预计算干净参考分布，域变化时可能需重新估计
变换会损失部分信息，当补丁覆盖关键目标信息时可能有影响（虽然实验影响很小）
仅在分类任务上验证，未测试目标检测、分割等下游任务
假设补丁面积 ≤5%，更大面积攻击效果待验证

评分¶

新颖性: ⭐⭐⭐⭐ JSD token 级异常检测 + 随机复合变换的组合设计有新意
实验充分度: ⭐⭐⭐⭐ 多模型×多数据集×多攻击的全面评测
写作质量: ⭐⭐⭐⭐ 结构清晰，数学严谨，部分符号偏重
价值: ⭐⭐⭐⭐ 实际部署价值高——即插即用、零训练的安全加固方案
总体: ⭐⭐⭐⭐ 简单有效的工程化防御方案，对实际部署场景有直接价值