VA-GPT: Aligning Effective Tokens with Video Anomaly in Large Language Models¶

会议: ICCV 2025
arXiv: 2508.06350
代码: 无
领域: LLM/NLP
关键词: 视频异常检测, 多模态大模型, 空间有效token, 时间有效token, 跨域泛化

一句话总结¶

提出 VA-GPT，一个面向视频异常事件理解的多模态大模型，通过空间有效token选择(SETS)和时间有效token生成(TETG)两个模块，让MLLM在空间和时间维度上精准对齐异常相关信息，在域内和跨域异常检测基准上均达到SOTA。

领域现状：传统视频异常检测方法本质上是闭集检测和分类问题，难以处理未见过的异常类型且词汇量有限。近期MLLM虽有强大理解能力但对异常事件的处理不够精准。

现有痛点：异常事件在时空上都很稀疏——仅有少数帧中的小区域包含异常信息。现有视频MLLM对所有视觉token一视同仁，大量冗余token干扰了异常定位和描述。

核心 idea：利用帧间差异选择空间有效token（异常往往引起局部剧烈变化），利用预训练分类器的置信度生成时间有效token（编码异常时段的先验知识），在两个维度上精准对齐异常信息。

空间有效token选择(SETS):
- 用DINOv2提取相邻帧的patch embedding，计算曼哈顿距离作为帧间差异图
- 选择差异最大的top-K比例patch作为空间有效token
- 设计动机：异常事件通常导致局部区域的显著视觉变化
时间有效token生成(TETG):
- 用轻量预训练异常分类器为每帧分配异常概率分数
- 将分数编码为额外的时间token直接在语言空间中注入LLM
- 设计动机：为LLM提供关于异常时间位置的先验知识，增强时间推理
跨域评估基准: 基于XD-Violence构建新的跨域评估协议，包含时间定位导向的QA，评估模型的域迁移能力

标准指令跟随训练，在自构建的异常视频指令数据集上微调。

方法	LLM	域内Total Acc	域内Temporal Acc	跨域Total Acc
VA-GPT	Vicuna-7B	30.69%	最高	最高
Hawkeye	LLaVA-7B	28.60%	30.00%	25.30%
Video-ChatGPT	Vicuna-7B	24.13%	28.51%	24.00%

top-K比例	Total Acc	Temporal Acc	计算量
100%(全部)	28.6	28.5	1.0x
50%	29.8	30.1	0.65x
25%	30.7	31.2	0.45x
10%	29.5	29.8	0.30x