Test-Time Attention Purification for Backdoored Large Vision Language Models¶
会议: CVPR 2026
arXiv: 2603.12989
代码: 待确认
领域: 多模态VLM
关键词: 后门攻击防御, 注意力净化, LVLM安全, 测试时防御, 视觉token剪枝
一句话总结¶
发现LVLM后门行为的本质是跨模态注意力窃取(trigger视觉token抢夺文本token的注意力),提出CleanSight——首个无需训练的测试时后门防御框架,通过检测和剪枝高注意力trigger token来消除后门效应。
研究背景与动机¶
领域现状:LVLM通过微调轻量adapter适配下游任务已成为主流,但这也引入了后门攻击风险——攻击者可在微调数据中注入trigger样本,使模型在推理时遇到trigger就输出攻击者指定的结果。
现有痛点:现有防御方法主要是"训练时防御"——用干净数据重训练被后门污染的参数,计算成本高且常降低下游性能。少数测试时防御方法(如像素扰动)是为从零训练的模型设计的,对LVLM几乎无效。
核心矛盾:LVLM中的后门关联不在低层像素特征中,而在跨模态注意力交互中——这是与传统后门模型(如ViT、CLIP)本质不同的发现。像素扰动无法破坏这种注意力层面的后门关联。
本文目标:设计首个LVLM测试时后门防御方法,无需重训练、即插即用。
切入角度:发现"注意力窃取"现象——被投毒输入的visual token会异常夺取text token的注意力权重,且高注意力区域精确对应trigger区域。
核心 idea:通过检测注意力比异常并剪枝高注意力视觉token,在测试时消除后门而不改变模型参数。
方法详解¶
整体框架¶
CleanSight在推理时操作:首先在选定的中间层计算视觉-文本注意力比来检测是否为投毒输入,若检测为投毒则剪枝异常高注意力的视觉token。
关键设计¶
-
注意力窃取检测 (Attention Stealing Detection):
- 功能:在跨模态融合的中间层,计算每个注意力头的视觉-文本注意力比
- 核心思路:对检测层集合 \(\mathcal{L}_{\text{det}}\) 中每层每头计算 \(S^{\ell,h} = \frac{\sum_{j\in\mathcal{I}_{\text{vis}}}\alpha_{q,j}^{\ell,h}}{\sum_{j\in\mathcal{I}_{\text{prm}}}\alpha_{q,j}^{\ell,h}}\),拼接所有头的比值向量后与干净参考分布做白化 \(\ell_2\) 距离: \(d(\hat{s}) = \|\frac{\hat{s}-\mu}{\sigma}\|_2\),超过99分位阈值 \(\gamma\) 则判为投毒
- 设计动机:中间层是跨模态融合的主要场所,此处的注意力异常最具区分度(AUROC接近完美)。保留头级粒度比头平均更鲁棒
-
选择性剪枝 (Selective Pruning):
- 功能:识别并屏蔽被trigger控制的视觉token
- 核心思路:在最后一个检测层,取所有头中注意力超过阈值 \(\tau\) 的视觉token的并集 \(\Omega\),在后续所有层给这些位置加大负偏置 \(b\ll 0\),使其注意力权重趋近于零
- 设计动机:取并集而非交集确保单个头的异常也能被捕获;大负偏置在softmax后近似零注意力,有效隔离trigger token
-
参考分布构建:
- 功能:在小规模干净验证集上估计注意力比的参考统计量
- 核心思路:收集每个样本的注意力比向量,计算逐维均值和标准差,用99分位的白化距离设定检测阈值
- 设计动机:需要极少干净数据(仅需统计量估计),适用于服务部署场景
损失函数 / 训练策略¶
CleanSight是完全无训练的测试时方法,不涉及任何参数更新或损失函数。
实验关键数据¶
主实验 (VQAv2数据集上的ASR↓ / CU↑)¶
| 攻击方式 | No Defense ASR | CleanSight ASR | No Defense CU | CleanSight CU |
|---|---|---|---|---|
| BadNet | 100.0 | 0.0 | 62.89 | 62.63 |
| Blended | 100.0 | 0.0 | 67.06 | 65.50 |
| ISSBA | 98.83 | 2.34 | 65.49 | 64.71 |
| WaNet | 100.0 | 0.0 | 68.10 | 67.32 |
| TrojVLM | 100.0 | 1.56 | 68.36 | 67.97 |
| VLOOD | 100.0 | 0.0 | 53.65 | 53.26 |
与baseline防御对比¶
| 防御方法 | BadNet ASR↓ | Blended ASR↓ | WaNet ASR↓ | 需要训练? |
|---|---|---|---|---|
| ST Defense | 82.81 | 97.66 | 92.58 | 否 |
| BDMAE | 88.28 | 100.0 | 99.22 | 否 |
| ZIP | 80.47 | 84.77 | 7.03 | 否 |
| CleanSight | 0.0 | 0.0 | 0.0 | 否 |
关键发现¶
- CleanSight在几乎所有攻击类型上将ASR降至接近0%,同时几乎不损失干净样本性能
- 传统像素扰动防御(Blur、ST Defense)对LVLM后门几乎无效,验证了注意力窃取机理的正确性
- 注意力扰动的效果随强度单调递增,当完全均匀化注意力时后门完全消失(即使trigger像素仍在)
- 检测层选在中间层(10-24层)最有效,与跨模态融合发生位置一致
亮点与洞察¶
- 机理发现意义重大:揭示LVLM后门的本质不在像素而在注意力分配,这一发现改变了对VLM后门攻防的理解范式。可以指导未来设计更针对性的攻击和防御。
- 零训练开销:作为即插即用的推理时方法,适合FTaaS(微调即服务)场景——用户无法控制训练过程但能控制推理栈。
- 与视觉token剪枝(如FastV)的联系:有趣地将效率导向的token剪枝转化为安全导向的防御手段。
局限与展望¶
- 需要小规模干净验证集来估计参考分布,在完全无干净数据的场景下不适用
- 阈值 \(\gamma\) 和 \(\tau\) 的设定对不同模型和攻击可能需要调整
- 仅验证了adapter/LoRA级别的后门攻击,对全参数后门的适用性未知
- 检测在首个token解码时进行,对流式生成场景的延迟影响值得分析
相关工作与启发¶
- vs FastV:FastV剪枝低注意力视觉token以加速推理;CleanSight剪枝高注意力token以消除后门,方向相反但机制相似
- vs ZIP:ZIP通过像素级扰动防御,对BadNet仍有80% ASR;CleanSight通过注意力扰动将ASR降至0%
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次揭示LVLM后门的注意力窃取机理,开辟测试时防御新方向
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖6种攻击、多数据集、多对比基线
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,从机理发现到方法设计一气呵成
- 价值: ⭐⭐⭐⭐⭐ 对LVLM安全领域有重要推动作用