跳转至

STRAP-ViT: Segregated Tokens with Randomized Transformations for Defense against Adversarial Patches in ViTs

会议: CVPR 2025
arXiv: 2603.12688
代码: 无
领域: 其他
关键词: 对抗补丁防御, Vision Transformer, Jensen-Shannon散度, token分离, 随机变换, 即插即用防御

一句话总结

STRAP-ViT 提出一种无需训练的即插即用 ViT 防御模块,利用 Jensen-Shannon 散度将受对抗补丁影响的 token 从正常 token 中分离出来,再通过随机复合变换消除其对抗效应,在多种 ViT 架构和攻击方法下实现了接近干净基线 2-3% 的鲁棒精度。 该方法的核心优势在于完全不需要重训练或微调现有模型。

研究背景与动机

领域现状:Vision Transformer 已成为视觉 AI 核心架构,广泛部署于自动驾驶、监控、医疗影像等高价值场景,各公司每季度投入数百亿美元用于 AI 基础设施。

现有痛点:对抗补丁(adversarial patches)是一种物理可实现的攻击——只需贴一个高对比度小补丁即可劫持 ViT 自注意力,腐蚀 class token,导致高置信度误分类。

核心矛盾:ViT 的全局自注意力既是优势也是弱点——对抗补丁可利用注意力劫持影响所有 token 交互。现有防御(对抗训练、补丁检测器、token 平滑、认证半径)计算开销大或不可靠。

本文目标 如何在不需额外训练的前提下,以极低计算代价检测并消除对抗补丁对 ViT 推理的影响?

切入角度:受对抗补丁覆盖的 token 与正常 token 在统计分布上有显著差异——对抗 token 的 Shannon 熵更高,通道分布出现系统性偏移,为基于信息论的检测提供理论基础。

核心 idea:用 JSD 定位异常 token,用随机复合变换破坏其对抗信息,全程无需训练、即插即用。

方法详解

整体框架

STRAP-ViT 嵌入 ViT 推理流程的 patch embedding 和位置编码之后、Transformer 编码器之前,执行两阶段:(1) 检测——JSD 分数识别异常 token;(2) 缓解——随机复合变换使对抗噪声失效。变换后 token 和正常 token 一起送入后续 ViT 层。

关键设计

  1. 检测:基于 JSD 的 Token 分离

    • 功能:计算每个 token 与干净参考分布的 Jensen-Shannon 散度,识别受对抗补丁影响的 token 子集 \(\mathcal{A}\)
    • 核心思路:token embedding \(z_{\ell,t}\) 通过温度 softmax 映射到概率单纯形 \(p_{\ell,t} = \text{softmax}(z_{\ell,t}/T)\),与干净参考 \(q_{\ell,t}\) 计算 JSD。异常分数 \(s_{\ell,t} = \sqrt{\mathrm{JSD}(p_{\ell,t} \| q_{\ell,t})}\),超过阈值 \(\tau\) 的 token 标记为异常
    • 设计动机:\(\sqrt{\text{JSD}}\) 是真度量,直接关联互信息——值越大说明 token 是异常的证据越强;对称有界 \([0, \log 2]\),比单纯熵更适合校准检测
  2. 缓解:随机复合 Token 变换

    • 功能:对异常 token 随机选取并组合三种变换来消除对抗效果
    • 核心思路:对每个异常 token 随机采样变换子集 \(S_t \subseteq \{1,2,3\}\) 和排列 \(\pi_t\),依次应用 \(L_p\) 投影(抑制极端通道能量)、仿射收缩(重新中心化)、softmax 温度缩放(缓和尖峰分布)
    • 设计动机:随机组合使攻击者无法通过 EOT 训练出免疫的补丁,指数级增加自适应攻击难度
  3. 超参数 K 的选择

    • 功能:确定最少需变换多少 token 使防御有效
    • 核心思路:覆盖对抗补丁面积 50% 即可使其失效。\(K\) 从 2(~1% token)到 8(~4% token)
    • 设计动机:变换破坏 token 信息,需平衡"覆盖补丁"和"最小化信息损失"

损失函数 / 训练策略

无需训练。STRAP-ViT 是纯推理时防御模块,参考分布从干净数据集预计算,零训练成本。 参考分布 \(q_{\ell,t}\) 的计算仅需一次前向传播干净图像集,存储开销极小。 实际部署时只增加 JSD 计算和变换操作的延迟,相比 ViT 本身的计算量可忽略不计。 温度参数 \(T\) 控制 softmax 的平滑度,影响检测灵敏度——较低的 \(T\) 使分布更尖锐,更容易检测异常。

实验关键数据

主实验(ViT-B/16, ImageNet)

攻击方法 补丁大小 无防御 Top-1 STRAP-ViT Top-1 提升
GoogleAP 40×40 3.6% 78.8% +75.2%
GoogleAP 50×50 1.2% 78.3% +77.1%
LAVAN 40×40 7.4% 79.2% +71.8%
GDPA 50×50 12.9% 76.1% +63.2%

干净基线 80.5%;STRAP-ViT 在干净样本上 80.1%(仅下降 0.4%)

消融实验

配置 关键指标 说明
K=2 (1% token) 鲁棒精度 ~78% 覆盖补丁 50% 即有效
K=8 (4% token) 鲁棒精度 ~76% 过多变换损害干净精度
仅单一变换 低于复合变换 随机组合增加防御多样性

关键发现

  • 鲁棒精度恢复到距干净基线仅 2-3%,跨越所有攻击方法和数据集
  • 干净样本几乎无精度损失(仅 -0.4%),假阳性率极低
  • 对补丁大小不敏感——40×40 到 50×50 面积增大 56%,防御效果几乎不变
  • DinoV2 骨干上干净精度甚至提升 2.2%,说明 JSD 检测有正则化效果

亮点与洞察

  • 零训练即插即用:不需修改权重、重新训练或微调,对已部署的 ViT 极其友好
  • 信息论驱动检测:用 JSD 而非启发式阈值,有互信息理论支撑,可校准异常证据
  • 随机性作为安全保障:随机变换组合使自适应攻击难度指数级增长
  • 可迁移到其他 token 架构:只要有 patch embedding 层即可插入,适用于 VLM、多模态模型等

局限与展望

  • 需预计算干净参考分布,域变化时可能需重新估计
  • 变换会损失部分信息,当补丁覆盖关键目标信息时可能有影响(虽然实验影响很小)
  • 仅在分类任务上验证,未测试目标检测、分割等下游任务
  • 假设补丁面积 ≤5%,更大面积攻击效果待验证

相关工作与启发

  • vs PatchCleanser:后者提供认证保证但需两阶段掩码和分类器无关设计,计算开销更大;STRAP-ViT 无认证保证但更轻量实用,且在实际鲁棒精度上更高
  • vs Jedi:Jedi 通过高局部熵定位补丁并用自编码器修复,操作在像素空间。STRAP-ViT 在 token 特征空间操作,对 ViT 架构更加原生
  • vs 对抗训练:对抗训练需针对特定威胁模型重训,成本高且不可迁移。STRAP-ViT 完全不需要训练,可直接部署
  • vs DefensiveDR:DefensiveDR 将图像投影到低维空间抑制局部扰动,但丢失了任务相关的结构信息;STRAP-ViT 仅变换异常 token,保留正常信息
  • 可迁移到多模态 VLM:任何使用 token 表示的视觉模型理论上都可以插入 STRAP-ViT 模块,包括 LLaVA 等 VLM 的视觉编码器

评分

  • 新颖性: ⭐⭐⭐⭐ JSD token 级异常检测 + 随机复合变换的组合设计有新意
  • 实验充分度: ⭐⭐⭐⭐ 多模型×多数据集×多攻击的全面评测
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,数学严谨,部分符号偏重
  • 价值: ⭐⭐⭐⭐ 实际部署价值高——即插即用、零训练的安全加固方案
  • 总体: ⭐⭐⭐⭐ 简单有效的工程化防御方案,对实际部署场景有直接价值