CleanSight: Test-Time Attention Purification for Backdoored Large Vision Language Models¶
会议: CVPR 2025
arXiv: 2603.12989
代码: 待确认
领域: 多模态VLM / AI安全
关键词: backdoor attack, LVLM防御, attention mechanism, test-time defense, visual token pruning
一句话总结¶
CleanSight 发现 LVLM 后门攻击的机制不在像素层面而在注意力层面——触发器通过"注意力窃取"(trigger token 抢夺 text token 的注意力)来激活后门,据此提出了一种免训练、即插即用的 test-time 防御方法:通过检测跨模态注意力比例异常来识别中毒输入,再通过剪枝高注意力视觉 token 来中和后门,ASR 降至接近 0% 且几乎不影响模型性能。
研究背景与动机¶
领域现状:LVLM(如 LLaVA)通过微调适配器适应下游任务,但微调阶段容易被后门攻击——攻击者在训练数据中注入带触发器的样本。
现有痛点:现有防御方法要么需要用干净数据重训练(计算昂贵、降低下游性能),要么在像素空间扰动输入(如图像变换),但像素扰动对 LVLM 后门几乎无效。
核心矛盾:与从头训练的 CLIP 不同,LVLM 的后门关联不绑定在低层视觉特征上,而是隐藏在跨模态注意力交互模式中——像素扰动碰不到注意力层面的异常。
本文目标 如何在不修改模型参数的情况下,在 test time 检测并中和 LVLM 后门?
切入角度:作者发现关键现象——后门激活的机理是"attention stealing":中毒输入的视觉 token 在 LVLM 中间层异常抢夺文本 token 的注意力权重,压制指令遵循能力。
核心 idea:后门在注意力而非像素 → 检测注意力比例异常 + 剪枝高注意力视觉 token = 免训练 test-time 防御。
方法详解¶
整体框架¶
CleanSight 分两步工作: 1. 检测(Detection):在选定的中间跨模态融合层中,计算每个 attention head 的视觉-文本注意力比率,与干净参考分布比较(whitened \(\ell_2\) 距离),判断输入是否中毒 2. 净化(Purification):对标记为中毒的输入,聚合各 head 中异常高注意力的视觉 token,剪枝这些 token,阻止它们在后续层和解码过程中"窃取"注意力
关键设计¶
-
Attention Stealing 机制发现:
- 功能:揭示 LVLM 后门激活的真实机理
- 核心思路:正常输入中,视觉 token 在中间层的注意力远低于文本 token;中毒输入中,触发器区域的视觉 token 注意力急剧上升,文本 token 注意力对应下降——"窃取"了文本的注意力
- 设计动机:这解释了为什么像素扰动无效(触发器模式仍在)但注意力扰动有效(均匀化注意力即可消除后门)
-
基于注意力比率的检测:
- 功能:用 head-specific 的视觉-文本注意力比率来检测中毒输入
- 核心思路:在选定的中间层 \(\ell\) 中,对每个 head \(h\) 计算视觉注意力占总注意力的比例,组成 attention ratio vector \(\mathbf{r}\)。用少量干净样本估计 clean distribution \((\boldsymbol{\mu}, \boldsymbol{\Sigma})\),检测时用 whitened \(\ell_2\) distance \(d = \|(\mathbf{r} - \boldsymbol{\mu}) \boldsymbol{\Sigma}^{-1/2}\|_2\) 与阈值比较
- 设计动机:head-specific 比率比全局平均更敏感,whitened distance 处理不同 head 的方差差异
-
视觉 token 剪枝净化:
- 功能:识别并移除"窃取注意力"的触发器 token
- 核心思路:在所有选定 head 中,收集注意力值超过阈值(如 top-k 或百分位)的视觉 token 索引,取交集或并集后剪枝这些 token(直接从 KV cache 中移除),后续层不再看到这些 token
- 设计动机:精准移除触发器关联 token 而非均匀扰动,最大限度保留干净语义
损失函数 / 训练策略¶
完全免训练。仅需少量干净样本(~100)估计 attention ratio 的参考分布。
实验关键数据¶
主实验(VQA + Image Captioning)¶
| 防御方法 | BadNet ASR↓ | Blended ASR↓ | ISSBA ASR↓ | WaNet ASR↓ | TrojVLM ASR↓ | VLOOD ASR↓ |
|---|---|---|---|---|---|---|
| No defense | 100.00 | 100.00 | 99.22 | 99.61 | 100.00 | 100.00 |
| ST defense | 85.55 | 98.05 | 67.19 | 53.91 | 77.73 | 82.42 |
| BDMAE | 88.28 | 100.00 | 100.00 | 99.22 | 80.86 | 86.33 |
| ZIP | 80.47 | 84.77 | 74.22 | 7.03 | 85.94 | 95.31 |
| CleanSight | 0 | 0 | 0 | 0 | 3.14 | 0 |
Clean Utility(VQAv2 准确率)在 CleanSight 下保持 62-68%,与无防御时基本持平。
消融实验¶
| 组件 | ASR↓ | 说明 |
|---|---|---|
| Detection only (flag + no action) | n/a | 仅检测不净化 |
| Pruning without detection | ASR↓ 但 CU↓ | 所有输入都剪枝损害正常性能 |
| Detection + Pruning (CleanSight) | ~0% | 检测+净化结合最优 |
| 均匀注意力扰动 | ~0% ASR 但 CU↓ | 有效但损害干净输入 |
关键发现¶
- 像素扰动对 LVLM 后门几乎无效:ST defense 和 Blur 在多数攻击下 ASR 仍 >80%,而注意力扰动在强度为 1 时就消除后门
- CleanSight 在 6 种攻击类型上 ASR 接近 0%:显著优于所有 baseline(ZIP 最强但 ASR 仍 55-95%)
- 注意力窃取现象在多种触发器类型(patch/global/WaNet/ISSBA)中一致出现
- 剪枝的关键层是中间融合层(而非最深或最浅层)
亮点与洞察¶
- 机制发现比方法更重要:"Attention Stealing" 的发现深刻揭示了 LVLM 后门的工作原理,为该领域提供了新的理解框架
- 免训练+即插即用的实用性:不修改模型参数、不需要重训练、只需前向传播中的轻量干预,部署成本极低
- 意外联系:视觉 token pruning 原本用于加速推理(FastV, LLaVA-PruMerge),本文发现它还能增强后门安全性——加速和安全可以同时实现
- 可迁移思路:attention ratio 分析可以用于检测其他类型的 LVLM 异常行为(对抗样本、输入污染等)
局限与展望¶
- 需要少量干净样本估计参考分布——虽然数量极少(~100),但在零样本场景下仍需探索
- 检测阈值的设定需要调优,不同模型/攻击可能需要不同阈值
- 仅在 LLaVA 系列验证,其他 LVLM 架构(如 Qwen-VL、InternVL)的泛化性待测
- 自适应攻击者可能设计不依赖注意力窃取的新型后门
- TrojVLM 类语义保留攻击的 ASR 降至 3-5% 但未完全消除,因其后门行为与正常任务目标紧密纠缠
相关工作与启发¶
- vs ST defense: 在像素空间做空间变换(旋转/翻转),对 LVLM 后门无效(ASR>80%),因为后门不在像素层
- vs BDMAE: 用 MAE 重建来净化输入,对部分攻击有效但不稳定
- vs ZIP: 通过零阶优化在输入空间搜索净化方向,对 WaNet 有效但其他攻击仍高 ASR
- vs FastV: FastV 剪枝的是低注意力 token(加速),CleanSight 剪枝的是高注意力异常 token(安全)——两者互补
- vs BDMAE/SampDetox: 基于 MAE/扩散模型的生成式净化方法在 LVLM 上效果不稳定,因后门不在像素层面
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 注意力窃取机制的发现非常深刻且启发性强
- 实验充分度: ⭐⭐⭐⭐⭐ 6种攻击×多个数据集×多个baseline,消融充分
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑链清晰:观察→机制→方法→验证
- 价值: ⭐⭐⭐⭐⭐ 首个LVLM test-time后门防御,实用性极强