TRoVe: Discovering Error-Inducing Static Feature Biases in Temporal Vision-Language Models¶

会议: NeurIPS 2025
arXiv: 2512.01048
代码: GitHub
领域: 多模态VLM
关键词: 时序VLM, 静态特征偏差, 模型鲁棒性, 偏差发现, 视频理解

一句话总结¶

TRoVe提出自动化方法发现时序VLM中导致系统性预测错误的静态特征偏差，通过结合"错误贡献分数"和"静态偏差分数"的双评分机制，在101个合成模型上以28.6%优势超越基线，并成功应用于7个真实VLM揭示新偏差。

研究背景与动机¶

领域现状 时序VLM（用于理解多图像序列中的视觉变化）在行为识别、疾病进展分类等任务上性能强劲，但可能依赖静态特征捷径而非动态变化来做决策。

现有痛点 (1) 现有自动化错误发现方法（Domino, George等）面向单图像设定，无法处理多图像序列中的静态偏差；(2) 真实模型的偏差真值未知，定量评估困难；(3) 静态特征可能只出现在序列中部分图像中，增加了检测难度。

核心矛盾 时序任务本应依赖动态变化来分类，但模型可能走捷径——仅凭背景中的树就预测"爬树"。如何自动发现这些导致错误的静态偏差？

本文目标 自动发现已训练时序VLM中学到的、会导致系统性预测错误的静态特征偏差。

切入角度 将问题分解为两个可量化的子问题：(1) 某特征的存在是否导致特定类别错误增加？(2) 模型是否在该特征上学到了偏差？

核心 idea 将多图像序列分解为单帧→聚类提取候选特征→用ECS+SBS双评分定位导致错误的静态偏差。

方法详解¶

整体框架¶

TRoVe的工作流程：(1) 将验证集所有序列的图像分解为单帧，用VLM视觉编码器提取嵌入并聚类，每个聚类代表一个候选静态特征；(2) 对每个聚类计算双评分——错误贡献分数和静态偏差分数；(3) 输出高分的(特征, 类别)对作为发现的偏差。

关键设计¶

候选特征提取:
- 功能：从数据集中识别反复出现的静态特征
- 核心思路：对每张图像创建重复序列（去除时序变化），通过VLM视觉编码器提取嵌入，使用球面K-means聚类。聚类数通过遍历候选值+轮廓系数自动选择
- 设计动机：将多图像序列降为单帧能隔离静态特征信息，聚类能发现跨序列的共性模式
错误贡献分数（ECS）:
- 功能：评估静态特征是否与某类别错误相关
- 核心思路：\(ECS_C^y = acc_{\neg C}^y - acc_C^y\)，即包含特征C的序列和不包含的序列在类别y上的准确率差。差值大代表该特征的存在显著增加了该类错误
- 设计动机：直接衡量特征对分类性能的因果影响
静态偏差分数（SBS）:
- 功能：评估模型是否对该静态特征学到了偏差
- 核心思路：对错误分类的序列中属于聚类C的图像，创建纯静态序列（单帧重复\(n_i\)次），用VLM分类并取预测置信度的平均：\(SBS_C^y = \frac{1}{|C_{wrong}|}\sum_{I_i \in C_{wrong}} \text{softmax}(F([I_i,...,I_i]))_{\hat{y}_i}\)。高置信度说明模型仅凭静态特征就做出了（错误的）决策
- 设计动机：时序任务需要动态变化才能正确解决——如果模型对纯静态输入仍高置信度预测，说明它学到了静态捷径

最终评分¶

TRoVe分数 = \(ECS_C^y + SBS_C^y\)，同时衡量"特征是否导致错误"和"模型是否学到了该偏差"。

实验关键数据¶

主实验——合成模型评估（P@10/P@25/P@100/R-Prec）¶

方法	背景 P@10	物体 P@10	属性 P@10
Random	20.7	14.3	16.2
Domino	48.6	52.2	63.1
Dist. Failures	62.9	60.4	69.2
Confidence	61.0	97.8	58.5
TRoVe	100.0	97.8	100.0

真实VLM测试时性能提升（Kinetics400 Acc@5）¶

模型	偏差类标签y~	整体
VideoCLIP-XL	51.7	82.2
+ TRoVe	94.4 (+82.6%)	86.7
ViCLIP-L	71.4	77.1
+ TRoVe	96.9 (+35.7%)	80.7

消融实验¶

配置	效果	说明
仅ECS	下降	缺少偏差确认，混入巧合性错误
仅SBS	下降	缺少错误关联，报告非有害偏差
ECS+SBS	最优	两者互补

关键发现¶

TRoVe在三类偏差上均近乎完美（P@10接近100%），且跨类一致性远高于基线
非时序VLM（如CLIP）比时序VLM（如VideoCLIP-XL）有更多静态偏差（平均134.5 vs 84.5）
利用发现的偏差做prompt修正，偏差类上性能可提升至111%

亮点与洞察¶

101个合成模型+真值标注的评估框架本身是重要贡献，支持严格定量评估
ECS+SBS双评分机制巧妙解决了"偏差发现"既需要因果关联又需要模型内省的双重需求
发现医学影像VLM也存在静态特征偏差（BioViL-T对严重肺炎的X光静态特征有偏差），具有重要临床意义

局限与展望¶

当前仅支持分类任务，字幕生成、VQA等生成式任务需新的评分方式
SBS依赖温度校准的softmax置信度，某些模型的校准可能不佳
聚类粒度影响发现质量，过粗可能混合不同特征

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向时序VLM的自动化偏差发现方法，问题定义新颖
实验充分度: ⭐⭐⭐⭐⭐ 101个合成模型+7个真实VLM+2个任务，极其全面
写作质量: ⭐⭐⭐⭐ 问题motivate清晰，方法描述系统化
价值: ⭐⭐⭐⭐ 对时序VLM部署前的安全审查有重要实用价值