TemporalVLM: Video LLMs for Temporal Reasoning in Long Videos¶
会议: ACL 2026
arXiv: 2412.02930
代码: 无
领域: 图像分割
关键词: 视频大语言模型, 时间感知编码, BiLSTM, 长视频理解, 工业装配数据集
一句话总结¶
本文提出 TemporalVLM,通过时间感知的片段编码器(重叠滑动 Video Q-Former + 融合模块)提取局部细粒度时间特征,再用 BiLSTM 聚合全局长程依赖,首次在 Video LLM 中引入 LSTM,在密集视频描述、时序定位、高光检测和动作分割四项任务上超越先前方法。
研究背景与动机¶
领域现状:Video LLM 通过将视频编码器与 LLM 结合实现视频理解。现有方法通常将视频映射为固定数量的 token,导致长视频性能下降,且将帧和时间戳分别编码,在时序推理上表现不佳。
现有痛点:(1) 将整个视频视为单个片段并使用固定 token 数量,丢失长视频的细粒度信息;(2) 使用池化或查询聚合获取全局特征,无法捕获长程时序依赖;(3) 帧和时间戳的分离编码导致时间不敏感。
核心矛盾:长视频的时序推理需要同时具备局部细粒度理解(单个事件的精确定位)和全局语义理解(事件间的时序关系),但现有架构无法兼顾两者。
本文目标:设计一种"由粗到细"的视频编码器,同时提取时间感知的局部特征和全局特征。
切入角度:将长视频分割为多个短片段,在片段级别用时间感知编码器提取局部特征,再用 BiLSTM 跨片段聚合全局特征——结合了片段级细粒度和序列级长程建模。
核心 idea:重叠滑动窗口 + 融合模块实现时间感知的局部编码,BiLSTM 实现双向长程聚合——首次将 LSTM 引入 Video LLM。
方法详解¶
整体框架¶
输入视频分为 C=6 个片段,每个片段采样 96 帧。时间感知片段编码器:帧经 EVA-CLIP 编码后与时间戳联合通过 Image Q-Former 得到时间感知帧特征,再通过重叠滑动 Video Q-Former 和融合模块得到局部特征。BiLSTM 模块:将所有片段的局部特征按时序连接,通过双向 LSTM 聚合全局特征。最终特征经投影层映射到 LLaMA-2 7B 的嵌入空间。
关键设计¶
-
重叠滑动 Video Q-Former + 融合模块:
- 功能:在片段内提取融合的时间感知局部特征
- 核心思路:用窗口大小 q=32、重叠 o=16 的滑动 Video Q-Former 处理帧特征,产生包含冗余边界 token 的特征序列 \(\mathbf{S}\)。对 \(\mathbf{S}\) 应用多头自注意力融合模块,将不同窗口的多样时序视角融合为上下文感知的嵌入
- 设计动机:相比 TimeChat 的非重叠窗口,重叠产生空间冗余但时序互补的 token,融合模块利用这种多样性生成更丰富的片段级特征
-
BiLSTM 全局特征聚合:
- 功能:跨片段捕获双向长程时序依赖
- 核心思路:将所有片段的局部特征按时序连接,通过前向和反向 LSTM 分别处理,最终输出为两者的拼接 \(\mathbf{h}_t = [\mathbf{h}_t^f, \mathbf{h}_t^b]\)
- 设计动机:池化丢失时序信息,Transformer 在固定上下文下的位置编码不如 LSTM 的递归结构适合捕获时序依赖。消融实验证实 BiLSTM 优于平均池化、线性层、单向 LSTM 和 Transformer
-
IndustryASM 数据集:
- 功能:填补工业制造场景长视频时序分割基准的空白
- 核心思路:4851 个视频,平均 105 秒,47 种工业装配任务。由工业工程师标注帧级动作分割,92% 标注一致率
- 设计动机:现有数据集偏向烹饪活动或来自网络来源(多镜头),工业装配更贴近实际应用且提供连续单镜头录像
损失函数 / 训练策略¶
使用标准的自回归交叉熵损失(Eq. 8)。LLM 和图像编码器冻结,仅微调 BiLSTM、投影层和 LoRA。在 8×A100 上训练。
实验关键数据¶
主实验¶
密集视频描述(YouCook2)+ 时序定位(Charades-STA)零样本对比
| 方法 | SODA_c | CIDEr | R@1(IoU=0.5) |
|---|---|---|---|
| VideoChat-Embed | 0.2 | 0.6 | 3.2 |
| TimeChat | — | — | — |
| LongVLM | 0.8 | 2.5 | 13.9 |
| TemporalVLM | 最优 | 最优 | 最优 |
消融实验¶
全局聚合方式对比
| 聚合方式 | 说明 |
|---|---|
| 平均池化 | 丢失时序信息 |
| 线性层 | 无序列建模 |
| 单向 LSTM | 只有前向信息 |
| Transformer | 固定位置编码不如递归 |
| BiLSTM | 双向长程依赖,最优 |
关键发现¶
- TemporalVLM 在所有四项时序推理任务上超越先前方法
- BiLSTM 作为全局聚合模块一致优于所有替代方案
- 重叠窗口 + 融合模块比非重叠窗口显著提升
- 在 IndustryASM 工业数据集上也有效,证明实际应用价值
- 首次证明 LSTM 在 Video LLM 中有独特优势,不应被 Transformer 完全替代
亮点与洞察¶
- "回归 LSTM"的选择反直觉但有效——在时序建模中递归结构的归纳偏置优于通用注意力
- 重叠窗口产生的冗余信息反而成为融合模块的多样性来源——将缺陷转化为优势
- IndustryASM 数据集填补了工业场景的重要空白
局限与展望¶
- 固定分 6 个片段可能不适合所有视频长度,自适应分段策略值得探索
- BiLSTM 的序列化处理限制了并行性,SSM/Mamba 等可能更高效
- 仅使用 LLaMA-2 7B,未评估更大或更新的 LLM
- IndustryASM 的泛化性——47 种装配任务是否覆盖工业场景的多样性
相关工作与启发¶
- vs TimeChat: 后者用非重叠 Video Q-Former 且无全局聚合,TemporalVLM 的重叠+融合+BiLSTM 全面超越
- vs LongVLM: 后者也分片段但用池化聚合全局特征且不利用时间戳,TemporalVLM 的时间感知编码和 BiLSTM 聚合更有效
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次在 Video LLM 中引入 BiLSTM,重叠融合设计新颖
- 实验充分度: ⭐⭐⭐⭐ 4 任务 + 详细消融 + 新数据集
- 写作质量: ⭐⭐⭐⭐ 架构图清晰,与先前方法的对比直观
- 价值: ⭐⭐⭐⭐ IndustryASM 数据集和 BiLSTM 发现对社区有价值