TemporalVLM: Video LLMs for Temporal Reasoning in Long Videos¶

会议: ACL 2026
arXiv: 2412.02930
代码: 无
领域: 图像分割
关键词: 视频大语言模型, 时间感知编码, BiLSTM, 长视频理解, 工业装配数据集

一句话总结¶

本文提出 TemporalVLM，通过时间感知的片段编码器（重叠滑动 Video Q-Former + 融合模块）提取局部细粒度时间特征，再用 BiLSTM 聚合全局长程依赖，首次在 Video LLM 中引入 LSTM，在密集视频描述、时序定位、高光检测和动作分割四项任务上超越先前方法。

研究背景与动机¶

领域现状：Video LLM 通过将视频编码器与 LLM 结合实现视频理解。现有方法通常将视频映射为固定数量的 token，导致长视频性能下降，且将帧和时间戳分别编码，在时序推理上表现不佳。

现有痛点：(1) 将整个视频视为单个片段并使用固定 token 数量，丢失长视频的细粒度信息；(2) 使用池化或查询聚合获取全局特征，无法捕获长程时序依赖；(3) 帧和时间戳的分离编码导致时间不敏感。

核心矛盾：长视频的时序推理需要同时具备局部细粒度理解（单个事件的精确定位）和全局语义理解（事件间的时序关系），但现有架构无法兼顾两者。

本文目标：设计一种"由粗到细"的视频编码器，同时提取时间感知的局部特征和全局特征。

切入角度：将长视频分割为多个短片段，在片段级别用时间感知编码器提取局部特征，再用 BiLSTM 跨片段聚合全局特征——结合了片段级细粒度和序列级长程建模。

核心 idea：重叠滑动窗口 + 融合模块实现时间感知的局部编码，BiLSTM 实现双向长程聚合——首次将 LSTM 引入 Video LLM。

方法详解¶

整体框架¶

输入视频分为 C=6 个片段，每个片段采样 96 帧。时间感知片段编码器：帧经 EVA-CLIP 编码后与时间戳联合通过 Image Q-Former 得到时间感知帧特征，再通过重叠滑动 Video Q-Former 和融合模块得到局部特征。BiLSTM 模块：将所有片段的局部特征按时序连接，通过双向 LSTM 聚合全局特征。最终特征经投影层映射到 LLaMA-2 7B 的嵌入空间。

关键设计¶

重叠滑动 Video Q-Former + 融合模块:
- 功能：在片段内提取融合的时间感知局部特征
- 核心思路：用窗口大小 q=32、重叠 o=16 的滑动 Video Q-Former 处理帧特征，产生包含冗余边界 token 的特征序列 \(\mathbf{S}\)。对 \(\mathbf{S}\) 应用多头自注意力融合模块，将不同窗口的多样时序视角融合为上下文感知的嵌入
- 设计动机：相比 TimeChat 的非重叠窗口，重叠产生空间冗余但时序互补的 token，融合模块利用这种多样性生成更丰富的片段级特征
BiLSTM 全局特征聚合:
- 功能：跨片段捕获双向长程时序依赖
- 核心思路：将所有片段的局部特征按时序连接，通过前向和反向 LSTM 分别处理，最终输出为两者的拼接 \(\mathbf{h}_t = [\mathbf{h}_t^f, \mathbf{h}_t^b]\)
- 设计动机：池化丢失时序信息，Transformer 在固定上下文下的位置编码不如 LSTM 的递归结构适合捕获时序依赖。消融实验证实 BiLSTM 优于平均池化、线性层、单向 LSTM 和 Transformer
IndustryASM 数据集:
- 功能：填补工业制造场景长视频时序分割基准的空白
- 核心思路：4851 个视频，平均 105 秒，47 种工业装配任务。由工业工程师标注帧级动作分割，92% 标注一致率
- 设计动机：现有数据集偏向烹饪活动或来自网络来源（多镜头），工业装配更贴近实际应用且提供连续单镜头录像

损失函数 / 训练策略¶

使用标准的自回归交叉熵损失（Eq. 8）。LLM 和图像编码器冻结，仅微调 BiLSTM、投影层和 LoRA。在 8×A100 上训练。

实验关键数据¶

主实验¶

密集视频描述（YouCook2）+ 时序定位（Charades-STA）零样本对比

方法	SODA_c	CIDEr	R@1(IoU=0.5)
VideoChat-Embed	0.2	0.6	3.2
TimeChat	—	—	—
LongVLM	0.8	2.5	13.9
TemporalVLM	最优	最优	最优

消融实验¶

全局聚合方式对比

聚合方式	说明
平均池化	丢失时序信息
线性层	无序列建模
单向 LSTM	只有前向信息
Transformer	固定位置编码不如递归
BiLSTM	双向长程依赖，最优

关键发现¶

TemporalVLM 在所有四项时序推理任务上超越先前方法
BiLSTM 作为全局聚合模块一致优于所有替代方案
重叠窗口 + 融合模块比非重叠窗口显著提升
在 IndustryASM 工业数据集上也有效，证明实际应用价值
首次证明 LSTM 在 Video LLM 中有独特优势，不应被 Transformer 完全替代

亮点与洞察¶

"回归 LSTM"的选择反直觉但有效——在时序建模中递归结构的归纳偏置优于通用注意力
重叠窗口产生的冗余信息反而成为融合模块的多样性来源——将缺陷转化为优势
IndustryASM 数据集填补了工业场景的重要空白

局限与展望¶

固定分 6 个片段可能不适合所有视频长度，自适应分段策略值得探索
BiLSTM 的序列化处理限制了并行性，SSM/Mamba 等可能更高效
仅使用 LLaMA-2 7B，未评估更大或更新的 LLM
IndustryASM 的泛化性——47 种装配任务是否覆盖工业场景的多样性

评分¶

新颖性: ⭐⭐⭐⭐ 首次在 Video LLM 中引入 BiLSTM，重叠融合设计新颖
实验充分度: ⭐⭐⭐⭐ 4 任务 + 详细消融 + 新数据集
写作质量: ⭐⭐⭐⭐ 架构图清晰，与先前方法的对比直观
价值: ⭐⭐⭐⭐ IndustryASM 数据集和 BiLSTM 发现对社区有价值