ArrowGEV: Grounding Events in Video via Learning the Arrow of Time¶

会议: ACL 2026
arXiv: 2601.06559
代码: 有（Code / Model / Data 均公开）
领域: Video Understanding
关键词: 视频事件定位, 时间方向性, 强化学习, 视觉语言模型, 时序理解

一句话总结¶

提出 ArrowGEV，一个受物理学"时间之箭"启发的强化学习框架，通过区分时间敏感和时间不敏感事件来建模视频中的时间方向性，提升 VLM 的事件定位精度和时序理解能力。

研究背景与动机¶

领域现状: 视频事件定位（GEV）是视频分析的基础任务，近年来 VLM 凭借端到端推理能力成为主流方法，通过大规模时间戳标注训练、时间 token 嵌入或视频分割适配来实现事件定位。

现有痛点: 现有方法仅在正向视频上对齐事件与时间戳，忽略了事件的内在时间结构和方向性。实验表明 VLM 无法区分正向和反向视频中事件语义的变化——例如"拿起杯子"反转后变为"放下杯子"，但模型仍然错误地在反向视频中定位原始事件。

核心矛盾: VLM 过度拟合文本时间戳而非视频语义，缺乏对事件时间方向性的理解，导致在需要时序推理的任务上泛化性不足。

本文目标: 通过显式建模时间方向性，提升 VLM 的事件定位精度和时序结构理解能力。

切入角度: 借鉴物理学中"时间之箭"概念，将事件分为时间敏感（反转改变语义）和时间不敏感（反转不变）两类，设计差异化的奖励信号。

核心 idea: 用反向视频作为额外训练信号——对时间敏感事件惩罚反向视频中的定位，对时间不敏感事件强制正反一致性。

方法详解¶

整体框架¶

基于 GRPO 强化学习框架，输入正向和反向视频，根据事件类别计算差异化奖励。训练后 VLM 不仅能准确定位正向视频事件，还能理解时间结构以增强鲁棒性。

关键设计¶

事件时间方向性分类:
- 功能：将事件分为时间敏感和时间不敏感两类
- 核心思路：用 LLM 推理判断事件类别 $c(q) \in \{\text{sensitive}, \text{insensitive}\}$，如"开门"是时间敏感的（反转变"关门"），"球在桌上"是时间不敏感的
- 设计动机：不同类型事件在时间反转下的语义变化不同，需要差异化处理
时间方向性奖励建模:
- 功能：结合定位精度和时间方向性的统一奖励函数
- 核心思路：$r_{\text{grounding}} = r_{\text{acc}} + \lambda \cdot r_{\text{temp}}$，其中 $r_{\text{acc}}$ 使用 tIoU 评估正向定位精度，$r_{\text{temp}}$ 对不敏感事件奖励正反一致性（$S_c$），对敏感事件奖励差异性（$1-S_c$）
- 设计动机：统一框架下同时优化定位精度和时间方向理解
难度感知训练策略:
- 功能：动态调整样本权重和训练数据分布
- 核心思路：权重调整 $w_i = \exp((1 - \text{avg\_tIoU})/\tau)$ 让模型聚焦困难样本；动态课程过滤在每个 epoch 结束时移除已掌握样本（最差 IoU > $\eta=0.7$）
- 设计动机：训练过程中样本逐渐变简单，需要动态维持学习信号强度

损失函数 / 训练策略¶

最终奖励 $r_{\text{final}} = r_{\text{grounding}} + r_{\text{form}}(o)$，其中 $r_{\text{form}}$ 是格式奖励，要求输出 <think>...</think><answer>$t_s$ to $t_e$</answer> 模板。基于 Qwen2.5-VL-7B-Instruct，2 FPS 采样。

实验关键数据¶

主实验¶

方法	Charades-STA R1@0.5	ActivityNet R1@0.5	TVGBench R1@0.5
Gemini-2.5-Pro	25.5	31.9	25.7
GPT-5	18.3	33.0	18.8
TimeSuite*	67.1	-	-
ArrowGEV (本文)	显著提升	显著提升	显著提升

TDD 指标（时间方向性理解）¶

引入 Temporal Directionality Discrepancy (TDD) 指标：$\text{TDD}(m) = \frac{R1@m(\text{fwd}) - R1@m(\text{rev})}{R1@m(\text{fwd})}$。对时间敏感事件 TDD 应接近 1（能区分正反），对时间不敏感事件 TDD 应接近 0（正反一致）。

关键发现¶

ArrowGEV 在三个 GEV 基准上均显著提升定位精度
大幅改善 VLM 对时间方向性的理解（TDD 指标）
在 OOD 通用视频理解和推理任务（TempCompass、MVBench、VideoMME 等）上也有提升
时间敏感事件在常用基准中占比显著，特别是 Charades-STA

亮点与洞察¶

"时间之箭"概念从物理学引入视频理解，角度新颖且直觉清晰
利用反向视频作为"免费"的训练信号，不需额外标注
提出 TDD 指标，首次量化评估模型对事件时间方向性的理解
难度感知训练策略（权重调整 + 课程过滤）有效维持学习效率

局限与展望¶

事件分类依赖 LLM 推理，可能存在分类噪声
仅在 7B 模型上验证，更大模型的效果待探索
视频采样率 2 FPS 可能不足以捕捉快速事件
未来可探索更细粒度的时间方向性建模

评分¶

新颖性: ⭐⭐⭐⭐⭐ 物理学启发的时间方向性建模，视角独特
实验充分度: ⭐⭐⭐⭐ 三个 GEV 基准 + 六个通用基准，消融充分
写作质量: ⭐⭐⭐⭐ 动机清晰，pilot study 有说服力
价值: ⭐⭐⭐⭐ 揭示了 VLM 时间方向性理解的缺陷，提出有效方案