AAAI 2026 自监督学习自监督视频基础模型迁移攻击对比学习时序一致性多模态大语言模型

From Pretrain to Pain: Adversarial Vulnerability of Video Foundation Models without Finetuning¶

会议: AAAI 2026
arXiv: 2511.07049
作者: Hui Lu, Yi Yu, Song Xia, Yiming Yang, Deepu Rajan, Boon Poh Ng, Alex Kot, Xudong Jiang (NTU, Singapore) 代码: aloe101/TVA
领域: 自监督
关键词: 对抗攻击, 视频基础模型, 迁移攻击, 对比学习, 时序一致性, 多模态大语言模型

一句话总结¶

提出 Transferable Video Attack (TVA)，仅利用开源视频基础模型（VFM）的嵌入空间即可生成对抗扰动，无需任何下游任务知识便能有效攻击24个视频任务上的下游模型和多模态LLM。

研究背景与动机¶

问题背景¶

大规模视频基础模型（VFM）如 VideoMAE、InternVideo 等在视频理解任务上取得优异性能，广泛用于下游任务微调或作为多模态LLM的视觉编码器。然而，这些模型的开源化也带来了安全隐患——攻击者可以利用公开的模型参数信息发起对抗攻击。

已有工作的不足¶

传统迁移攻击依赖任务对齐的代理模型：假设攻击者了解受害模型的任务类型和训练数据分布（如知道目标是Kinetics-400上的动作识别），从而训练相似的代理模型生成对抗样本
隐私与法律约束使得上述假设不切实际：敏感数据受保护，攻击者往往无法获取下游训练数据
现有视频对抗攻击主要针对动作识别单一任务，缺乏对多种视频任务（检测、分割、VQA等）的统一攻击框架
VFM规模日益增大，训练对齐的代理模型计算成本极高，进一步限制了传统方法的实用性

核心动机¶

探索更实际的威胁场景：攻击者仅拥有开源VFM（如VideoMAE预训练权重），不知道下游任务类型、训练数据、模型架构和输出，直接在VFM嵌入空间生成可迁移的对抗扰动，攻击各种下游应用。

方法详解¶

整体框架¶

TVA 包含三个互补组件：(1) 自监督嵌入层攻击生成基础扰动；(2) 双向时序感知对比损失提升跨模型迁移性；(3) 时序一致性损失破坏帧间时序连贯性。

组件1：自监督嵌入层攻击¶

给定冻结的VFM \(f_\phi\) 和输入视频 \(\bm{x} \in \mathbb{R}^{T \times C \times H \times W}\)，提取嵌入 \(\bm{z} = f_\phi(\bm{x}) \in \mathbb{R}^{T \times D}\)。攻击目标是使对抗嵌入 \(\bm{z}^{adv} = f_\phi(\bm{x} + \bm{\delta})\) 偏离干净嵌入，采用L1损失促进稀疏偏移：

\[\mathcal{L}_{L1} = \|\bm{z}^{adv} - \bm{z}\|_1\]

扰动通过 I-FGSM 迭代更新：\(\bm{\delta}_{t+1} = \text{clip}_\epsilon\{\bm{\delta}_t + \alpha \cdot \text{sign}(\nabla_{\bm{\delta}_t} \mathcal{L})\}\)。该组件无需任何下游标签或任务输出，完全自监督。

组件2：双向时序感知对比损失（Bi-con Loss）¶

梯度不匹配问题：论文从理论上分析了代理模型与受害模型之间的扰动更新偏差。对于微调型下游模型（Form a），偏差来源于各层参数变化的残差变换的梯度累积；对于冻结backbone+任务头的模型（Form b），偏差来源于任务头的梯度贡献。

单向对比损失的梯度不对称性：论文证明（Theorem 2），以干净特征为锚点的 \(\mathcal{L}_{clean \to adv}\) 和以对抗特征为锚点的 \(\mathcal{L}_{adv \to clean}\) 的梯度前缀因子不同：

\[\nabla_{\bm{\delta}_{(i)}} \mathcal{L}_{clean \to adv} = \frac{1}{n\tau}(\exp(-\mathcal{L}_{clean \to adv}^{(i)}) - 1) \bm{z}_{(i)} \cdot \frac{d\bm{z}_{(i)}^{(adv)}}{d\bm{\delta}_{(i)}}\]

而反向梯度包含额外的加权负样本项 \(\sum_{j \neq i} q_j \bm{z}_{(j)}\)，导致两个方向梯度不等。

双向损失设计：通过平均两个方向的对比损失消除梯度不对称：

\[\mathcal{L}_{Bi\text{-}con} = \frac{\mathcal{L}_{clean \to adv} + \mathcal{L}_{adv \to clean}}{2}\]

该设计在帧级别操作——每个干净帧与batch中所有对抗帧对比，扩大负样本多样性，增强时序显著性，避免了视频级方法对时序信息的忽视。

组件3：时序一致性损失（TC Loss）¶

视频模型依赖帧间时序连贯性进行理解。TVA通过惩罚相邻对抗帧嵌入的相似度来破坏这种连贯性：

\[\mathcal{L}_{TC} = \frac{1}{T-1} \sum_{t=1}^{T-1} (1 - \cos(\bm{z}_t^{adv}, \bm{z}_{t+1}^{adv}))\]

该损失迫使相邻帧的对抗特征在方向上发散，破坏视频模型赖以工作的时序先验。

联合优化目标¶

三个损失统一为：

\[\mathcal{L}_{total} = \mathcal{L}_{L1} + \mathcal{L}_{Bi\text{-}con} + \mathcal{L}_{TC}\]

分别从空间偏移、语义对齐和时序破坏三个维度提升扰动的迁移性。

实验关键数据¶

实验1：时序动作检测（TAD）迁移攻击¶

代理模型：VideoMAE-Base（原始预训练权重）。受害模型：ActionFormer、Tridet、DyFaDet（冻结backbone）及 AdaTAD（微调backbone，SOTA端到端方法）。

攻击方法	ActionFormer	Tridet	DyFaDet	AdaTAD	平均mAP(%)↓
无攻击	50.40	49.85	49.85	53.17	50.07
I-FGSM	7.59	6.94	8.29	21.08	10.98
MI-FGSM	6.73	6.77	7.02	19.18	9.93
FTM（此前最强）	3.55	3.40	4.60	14.17	6.43
BSR	46.11	46.99	50.30	52.50	48.98
TVA + MI-FGSM	0.12	0.44	0.29	4.07	1.23
TVA + FTM	0.79	0.40	0.45	3.05	1.17

TVA 将冻结backbone的模型性能几乎降为零，并将SOTA端到端模型 AdaTAD 的mAP从53.17%降至3.05%，远超此前最强攻击FTM的14.17%。

实验2：MVBench多模态视频任务攻击¶

代理模型：LanguageBind。受害模型：VideoLLaVA。报告攻击成功率（ASR%↑）。

任务	I-FGSM	MI-FGSM	BSR	TVA+MI
Action Sequence	38.04	28.19	11.96	47.83
Fine-grained Action	53.09	38.50	18.52	79.01
Object Interaction	37.11	35.50	12.37	68.04
Scene Transition	19.41	12.50	3.53	52.94
Character Order	34.57	31.00	22.22	54.32
20任务平均	29.52	25.79	15.76	42.10

TVA 在所有20个视频理解子任务上均大幅领先，平均ASR达42.10%，比最强基线高出12.58个百分点。

实验3：SEEDBench跨模型迁移¶

代理→受害	任务	I-FGSM	MI-FGSM	X-Transfer	AnyAttack	TVA
SigLIP→LLaVA-NeXT	AR	38.03	67.61	32.39	22.54	76.06
SigLIP→LLaVA-NeXT	AP	40.00	70.00	38.57	52.86	68.57
SigLIP→LLaVA-NeXT	平均	36.86	59.05	32.18	33.66	61.39
LanguageBind→VideoLLaVA	平均	33.31	3.84	-	-	53.87

TVA 还可迁移至商业模型，以SigLIP为代理在 \(\epsilon=16/255\) 下对 Gemini-2.0-flash 达到48.8% ASR，对 GPT5-mini 达到33.3% ASR。

关键发现¶

消融实验：三个组件互补——移除任何一个都导致性能下降，其中 Bi-con Loss 贡献最大（移除后平均mAP从1.23%升至9.93%）
帧级 vs 视频级对比：帧级双向对比显著优于视频级对比和单向对比，验证了细粒度时序感知攻击的重要性
BSR几乎无效：BSR（块级变换）在此场景下攻击效果极差（mAP几乎不降），说明传统增强方法在VFM嵌入空间攻击中失效
端到端微调模型更鲁棒：AdaTAD（微调backbone）比冻结backbone的模型更难攻击，与理论分析中Form (a)的梯度偏差更大一致

亮点¶

新威胁模型：首次系统研究仅利用开源VFM（无需下游任务知识）攻击视频下游模型和多模态LLM的场景，比传统迁移攻击假设更弱、更实际
理论支撑扎实：Theorem 1 量化了代理-受害模型的扰动更新偏差，Theorem 2 证明了单向对比损失的梯度不对称性，为双向设计提供理论动机
24个任务大规模验证：覆盖时序动作检测、MVBench 20子任务、SEEDBench 3子任务，横跨冻结backbone、微调backbone和多模态LLM三种部署场景
即插即用：Bi-con Loss 和 TC Loss 可与I-FGSM、MI-FGSM、FTM等任意梯度攻击方法组合使用
向商业模型迁移：展示了对 Gemini 和 GPT5-mini 的攻击能力

局限与展望¶

仅考虑 \(\ell_\infty\) 扰动：未评估 \(\ell_2\) 或感知约束（如 LPIPS）下的攻击效果，实际场景中感知质量可能更重要
防御评估不足：仅在附录中简要测试了数据增强防御，未评估对抗训练、认证防御等更强防御方法
攻击迭代次数敏感：TAD任务仅用4步迭代，其他任务用20步，未充分分析迭代次数与迁移性的权衡
代理-受害模型需共享架构族：TVA 的迁移性建立在下游模型使用相同VFM初始化的前提上，跨架构族（如ViT→CNN）的迁移性未验证
缺乏对视频生成模型的评估：仅覆盖判别式任务，未考虑视频生成、编辑等新兴应用

与相关工作的对比¶

X-Transfer / AnyAttack：需要训练super-ensemble或重训代理模型，计算成本高；TVA 直接使用冻结VFM，无需额外训练
FTM：通过混合攻击特征与干净特征提升迁移性，但仍在任务对齐假设下；TVA 完全任务无关
AdvCLIP / Downstream-agnostic：面向图像域的下游无关攻击，未处理视频时序特性；TVA 的 Bi-con 和 TC Loss 专门针对视频时序结构设计
传统增强方法（DI/TI/SI/BSR）：在VFM嵌入空间攻击场景下效果有限（BSR几乎失效），TVA 通过嵌入空间对比学习实现了更本质的特征扰动

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统研究VFM嵌入空间的任务无关视频攻击，威胁模型定义新颖
实验充分度: ⭐⭐⭐⭐⭐ — 24个任务、多种代理-受害组合、消融完整，还包含商业模型测试
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，实验组织系统化，图表信息量大
价值: ⭐⭐⭐⭐ — 揭示VFM部署的重要安全隐患，方法即插即用实用性强