Test-Time Attention Purification for Backdoored Large Vision Language Models¶

会议: CVPR 2026
arXiv: 2603.12989
代码: 待确认
领域: 多模态VLM
关键词: 后门攻击防御, 注意力净化, LVLM安全, 测试时防御, 视觉token剪枝

一句话总结¶

发现LVLM后门行为的本质是跨模态注意力窃取（trigger视觉token抢夺文本token的注意力），提出CleanSight——首个无需训练的测试时后门防御框架，通过检测和剪枝高注意力trigger token来消除后门效应。

研究背景与动机¶

领域现状：LVLM通过微调轻量adapter适配下游任务已成为主流，但这也引入了后门攻击风险——攻击者可在微调数据中注入trigger样本，使模型在推理时遇到trigger就输出攻击者指定的结果。

现有痛点：现有防御方法主要是"训练时防御"——用干净数据重训练被后门污染的参数，计算成本高且常降低下游性能。少数测试时防御方法（如像素扰动）是为从零训练的模型设计的，对LVLM几乎无效。

核心矛盾：LVLM中的后门关联不在低层像素特征中，而在跨模态注意力交互中——这是与传统后门模型（如ViT、CLIP）本质不同的发现。像素扰动无法破坏这种注意力层面的后门关联。

本文目标：设计首个LVLM测试时后门防御方法，无需重训练、即插即用。

切入角度：发现"注意力窃取"现象——被投毒输入的visual token会异常夺取text token的注意力权重，且高注意力区域精确对应trigger区域。

核心 idea：通过检测注意力比异常并剪枝高注意力视觉token，在测试时消除后门而不改变模型参数。

方法详解¶

整体框架¶

CleanSight在推理时操作：首先在选定的中间层计算视觉-文本注意力比来检测是否为投毒输入，若检测为投毒则剪枝异常高注意力的视觉token。

关键设计¶

注意力窃取检测 (Attention Stealing Detection)：
- 功能：在跨模态融合的中间层，计算每个注意力头的视觉-文本注意力比
- 核心思路：对检测层集合 \(\mathcal{L}_{\text{det}}\) 中每层每头计算 \(S^{\ell,h} = \frac{\sum_{j\in\mathcal{I}_{\text{vis}}}\alpha_{q,j}^{\ell,h}}{\sum_{j\in\mathcal{I}_{\text{prm}}}\alpha_{q,j}^{\ell,h}}\)，拼接所有头的比值向量后与干净参考分布做白化 \(\ell_2\) 距离: \(d(\hat{s}) = \|\frac{\hat{s}-\mu}{\sigma}\|_2\)，超过99分位阈值 \(\gamma\) 则判为投毒
- 设计动机：中间层是跨模态融合的主要场所，此处的注意力异常最具区分度（AUROC接近完美）。保留头级粒度比头平均更鲁棒
选择性剪枝 (Selective Pruning)：
- 功能：识别并屏蔽被trigger控制的视觉token
- 核心思路：在最后一个检测层，取所有头中注意力超过阈值 \(\tau\) 的视觉token的并集 \(\Omega\)，在后续所有层给这些位置加大负偏置 \(b\ll 0\)，使其注意力权重趋近于零
- 设计动机：取并集而非交集确保单个头的异常也能被捕获；大负偏置在softmax后近似零注意力，有效隔离trigger token
参考分布构建：
- 功能：在小规模干净验证集上估计注意力比的参考统计量
- 核心思路：收集每个样本的注意力比向量，计算逐维均值和标准差，用99分位的白化距离设定检测阈值
- 设计动机：需要极少干净数据（仅需统计量估计），适用于服务部署场景

损失函数 / 训练策略¶

CleanSight是完全无训练的测试时方法，不涉及任何参数更新或损失函数。

实验关键数据¶

主实验 (VQAv2数据集上的ASR↓ / CU↑)¶

攻击方式	No Defense ASR	CleanSight ASR	No Defense CU	CleanSight CU
BadNet	100.0	0.0	62.89	62.63
Blended	100.0	0.0	67.06	65.50
ISSBA	98.83	2.34	65.49	64.71
WaNet	100.0	0.0	68.10	67.32
TrojVLM	100.0	1.56	68.36	67.97
VLOOD	100.0	0.0	53.65	53.26

与baseline防御对比¶

防御方法	BadNet ASR↓	Blended ASR↓	WaNet ASR↓	需要训练?
ST Defense	82.81	97.66	92.58	否
BDMAE	88.28	100.0	99.22	否
ZIP	80.47	84.77	7.03	否
CleanSight	0.0	0.0	0.0	否

关键发现¶

CleanSight在几乎所有攻击类型上将ASR降至接近0%，同时几乎不损失干净样本性能
传统像素扰动防御（Blur、ST Defense）对LVLM后门几乎无效，验证了注意力窃取机理的正确性
注意力扰动的效果随强度单调递增，当完全均匀化注意力时后门完全消失（即使trigger像素仍在）
检测层选在中间层（10-24层）最有效，与跨模态融合发生位置一致

亮点与洞察¶

机理发现意义重大：揭示LVLM后门的本质不在像素而在注意力分配，这一发现改变了对VLM后门攻防的理解范式。可以指导未来设计更针对性的攻击和防御。
零训练开销：作为即插即用的推理时方法，适合FTaaS（微调即服务）场景——用户无法控制训练过程但能控制推理栈。
与视觉token剪枝（如FastV）的联系：有趣地将效率导向的token剪枝转化为安全导向的防御手段。

局限与展望¶

需要小规模干净验证集来估计参考分布，在完全无干净数据的场景下不适用
阈值 \(\gamma\) 和 \(\tau\) 的设定对不同模型和攻击可能需要调整
仅验证了adapter/LoRA级别的后门攻击，对全参数后门的适用性未知
检测在首个token解码时进行，对流式生成场景的延迟影响值得分析

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次揭示LVLM后门的注意力窃取机理，开辟测试时防御新方向
实验充分度: ⭐⭐⭐⭐⭐ 覆盖6种攻击、多数据集、多对比基线
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，从机理发现到方法设计一气呵成
价值: ⭐⭐⭐⭐⭐ 对LVLM安全领域有重要推动作用