From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models without Finetuning¶
会议: AAAI 2026
arXiv: 2511.07049
作者: Hui Lu, Yi Yu, Song Xia, Yiming Yang, Deepu Rajan, Boon Poh Ng, Alex Kot, Xudong Jiang (NTU, Singapore)
代码: aloe101/TVA
领域: 自监督
关键词: 对抗攻击, 视频基础模型, 迁移攻击, 对比学习, 时序一致性, 多模态大语言模型
一句话总结¶
提出 Transferable Video Attack (TVA),仅利用开源视频基础模型(VFM)的嵌入空间即可生成对抗扰动,无需任何下游任务知识便能有效攻击24个视频任务上的下游模型和多模态LLM。
研究背景与动机¶
问题背景¶
大规模视频基础模型(VFM)如 VideoMAE、InternVideo 等在视频理解任务上取得优异性能,广泛用于下游任务微调或作为多模态LLM的视觉编码器。然而,这些模型的开源化也带来了安全隐患——攻击者可以利用公开的模型参数信息发起对抗攻击。
已有工作的不足¶
- 传统迁移攻击依赖任务对齐的代理模型:假设攻击者了解受害模型的任务类型和训练数据分布(如知道目标是Kinetics-400上的动作识别),从而训练相似的代理模型生成对抗样本
- 隐私与法律约束使得上述假设不切实际:敏感数据受保护,攻击者往往无法获取下游训练数据
- 现有视频对抗攻击主要针对动作识别单一任务,缺乏对多种视频任务(检测、分割、VQA等)的统一攻击框架
- VFM规模日益增大,训练对齐的代理模型计算成本极高,进一步限制了传统方法的实用性
核心动机¶
探索更实际的威胁场景:攻击者仅拥有开源VFM(如VideoMAE预训练权重),不知道下游任务类型、训练数据、模型架构和输出,直接在VFM嵌入空间生成可迁移的对抗扰动,攻击各种下游应用。
方法详解¶
整体框架¶
TVA 包含三个互补组件:(1) 自监督嵌入层攻击生成基础扰动;(2) 双向时序感知对比损失提升跨模型迁移性;(3) 时序一致性损失破坏帧间时序连贯性。
组件1:自监督嵌入层攻击¶
给定冻结的VFM \(f_\phi\) 和输入视频 \(\bm{x} \in \mathbb{R}^{T \times C \times H \times W}\),提取嵌入 \(\bm{z} = f_\phi(\bm{x}) \in \mathbb{R}^{T \times D}\)。攻击目标是使对抗嵌入 \(\bm{z}^{adv} = f_\phi(\bm{x} + \bm{\delta})\) 偏离干净嵌入,采用L1损失促进稀疏偏移:
扰动通过 I-FGSM 迭代更新:\(\bm{\delta}_{t+1} = \text{clip}_\epsilon\{\bm{\delta}_t + \alpha \cdot \text{sign}(\nabla_{\bm{\delta}_t} \mathcal{L})\}\)。该组件无需任何下游标签或任务输出,完全自监督。
组件2:双向时序感知对比损失(Bi-con Loss)¶
梯度不匹配问题:论文从理论上分析了代理模型与受害模型之间的扰动更新偏差。对于微调型下游模型(Form a),偏差来源于各层参数变化的残差变换的梯度累积;对于冻结backbone+任务头的模型(Form b),偏差来源于任务头的梯度贡献。
单向对比损失的梯度不对称性:论文证明(Theorem 2),以干净特征为锚点的 \(\mathcal{L}_{clean \to adv}\) 和以对抗特征为锚点的 \(\mathcal{L}_{adv \to clean}\) 的梯度前缀因子不同:
而反向梯度包含额外的加权负样本项 \(\sum_{j \neq i} q_j \bm{z}_{(j)}\),导致两个方向梯度不等。
双向损失设计:通过平均两个方向的对比损失消除梯度不对称:
该设计在帧级别操作——每个干净帧与batch中所有对抗帧对比,扩大负样本多样性,增强时序显著性,避免了视频级方法对时序信息的忽视。
组件3:时序一致性损失(TC Loss)¶
视频模型依赖帧间时序连贯性进行理解。TVA通过惩罚相邻对抗帧嵌入的相似度来破坏这种连贯性:
该损失迫使相邻帧的对抗特征在方向上发散,破坏视频模型赖以工作的时序先验。
联合优化目标¶
三个损失统一为:
分别从空间偏移、语义对齐和时序破坏三个维度提升扰动的迁移性。
实验关键数据¶
实验1:时序动作检测(TAD)迁移攻击¶
代理模型:VideoMAE-Base(原始预训练权重)。受害模型:ActionFormer、Tridet、DyFaDet(冻结backbone)及 AdaTAD(微调backbone,SOTA端到端方法)。
| 攻击方法 | ActionFormer | Tridet | DyFaDet | AdaTAD | 平均mAP(%)↓ |
|---|---|---|---|---|---|
| 无攻击 | 50.40 | 49.85 | 49.85 | 53.17 | 50.07 |
| I-FGSM | 7.59 | 6.94 | 8.29 | 21.08 | 10.98 |
| MI-FGSM | 6.73 | 6.77 | 7.02 | 19.18 | 9.93 |
| FTM(此前最强) | 3.55 | 3.40 | 4.60 | 14.17 | 6.43 |
| BSR | 46.11 | 46.99 | 50.30 | 52.50 | 48.98 |
| TVA + MI-FGSM | 0.12 | 0.44 | 0.29 | 4.07 | 1.23 |
| TVA + FTM | 0.79 | 0.40 | 0.45 | 3.05 | 1.17 |
TVA 将冻结backbone的模型性能几乎降为零,并将SOTA端到端模型 AdaTAD 的mAP从53.17%降至3.05%,远超此前最强攻击FTM的14.17%。
实验2:MVBench多模态视频任务攻击¶
代理模型:LanguageBind。受害模型:VideoLLaVA。报告攻击成功率(ASR%↑)。
| 任务 | I-FGSM | MI-FGSM | BSR | TVA+MI |
|---|---|---|---|---|
| Action Sequence | 38.04 | 28.19 | 11.96 | 47.83 |
| Fine-grained Action | 53.09 | 38.50 | 18.52 | 79.01 |
| Object Interaction | 37.11 | 35.50 | 12.37 | 68.04 |
| Scene Transition | 19.41 | 12.50 | 3.53 | 52.94 |
| Character Order | 34.57 | 31.00 | 22.22 | 54.32 |
| 20任务平均 | 29.52 | 25.79 | 15.76 | 42.10 |
TVA 在所有20个视频理解子任务上均大幅领先,平均ASR达42.10%,比最强基线高出12.58个百分点。
实验3:SEEDBench跨模型迁移¶
| 代理→受害 | 任务 | I-FGSM | MI-FGSM | X-Transfer | AnyAttack | TVA |
|---|---|---|---|---|---|---|
| SigLIP→LLaVA-NeXT | AR | 38.03 | 67.61 | 32.39 | 22.54 | 76.06 |
| SigLIP→LLaVA-NeXT | AP | 40.00 | 70.00 | 38.57 | 52.86 | 68.57 |
| SigLIP→LLaVA-NeXT | 平均 | 36.86 | 59.05 | 32.18 | 33.66 | 61.39 |
| LanguageBind→VideoLLaVA | 平均 | 33.31 | 3.84 | - | - | 53.87 |
TVA 还可迁移至商业模型,以SigLIP为代理在 \(\epsilon=16/255\) 下对 Gemini-2.0-flash 达到48.8% ASR,对 GPT5-mini 达到33.3% ASR。
关键发现¶
- 消融实验:三个组件互补——移除任何一个都导致性能下降,其中 Bi-con Loss 贡献最大(移除后平均mAP从1.23%升至9.93%)
- 帧级 vs 视频级对比:帧级双向对比显著优于视频级对比和单向对比,验证了细粒度时序感知攻击的重要性
- BSR几乎无效:BSR(块级变换)在此场景下攻击效果极差(mAP几乎不降),说明传统增强方法在VFM嵌入空间攻击中失效
- 端到端微调模型更鲁棒:AdaTAD(微调backbone)比冻结backbone的模型更难攻击,与理论分析中Form (a)的梯度偏差更大一致
亮点¶
- 新威胁模型:首次系统研究仅利用开源VFM(无需下游任务知识)攻击视频下游模型和多模态LLM的场景,比传统迁移攻击假设更弱、更实际
- 理论支撑扎实:Theorem 1 量化了代理-受害模型的扰动更新偏差,Theorem 2 证明了单向对比损失的梯度不对称性,为双向设计提供理论动机
- 24个任务大规模验证:覆盖时序动作检测、MVBench 20子任务、SEEDBench 3子任务,横跨冻结backbone、微调backbone和多模态LLM三种部署场景
- 即插即用:Bi-con Loss 和 TC Loss 可与I-FGSM、MI-FGSM、FTM等任意梯度攻击方法组合使用
- 向商业模型迁移:展示了对 Gemini 和 GPT5-mini 的攻击能力
局限与展望¶
- 仅考虑 \(\ell_\infty\) 扰动:未评估 \(\ell_2\) 或感知约束(如 LPIPS)下的攻击效果,实际场景中感知质量可能更重要
- 防御评估不足:仅在附录中简要测试了数据增强防御,未评估对抗训练、认证防御等更强防御方法
- 攻击迭代次数敏感:TAD任务仅用4步迭代,其他任务用20步,未充分分析迭代次数与迁移性的权衡
- 代理-受害模型需共享架构族:TVA 的迁移性建立在下游模型使用相同VFM初始化的前提上,跨架构族(如ViT→CNN)的迁移性未验证
- 缺乏对视频生成模型的评估:仅覆盖判别式任务,未考虑视频生成、编辑等新兴应用
与相关工作的对比¶
- X-Transfer / AnyAttack:需要训练super-ensemble或重训代理模型,计算成本高;TVA 直接使用冻结VFM,无需额外训练
- FTM:通过混合攻击特征与干净特征提升迁移性,但仍在任务对齐假设下;TVA 完全任务无关
- AdvCLIP / Downstream-agnostic:面向图像域的下游无关攻击,未处理视频时序特性;TVA 的 Bi-con 和 TC Loss 专门针对视频时序结构设计
- 传统增强方法(DI/TI/SI/BSR):在VFM嵌入空间攻击场景下效果有限(BSR几乎失效),TVA 通过嵌入空间对比学习实现了更本质的特征扰动
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次系统研究VFM嵌入空间的任务无关视频攻击,威胁模型定义新颖
- 实验充分度: ⭐⭐⭐⭐⭐ — 24个任务、多种代理-受害组合、消融完整,还包含商业模型测试
- 写作质量: ⭐⭐⭐⭐ — 理论推导清晰,实验组织系统化,图表信息量大
- 价值: ⭐⭐⭐⭐ — 揭示VFM部署的重要安全隐患,方法即插即用实用性强