Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction¶

会议: AAAI 2026
arXiv: 2511.10134
代码: 无
领域: Video Understanding
关键词: Dense Video Captioning, 跨模态检索, 时序聚类, 特征增强, 检索增强生成

一句话总结¶

本文提出 CACMI 框架，通过显式时序-语义建模解决密集视频描述任务中的两个基本限制（时序建模不足和模态鸿沟），使用跨模态帧聚合（CFA）提取时序一致的事件语义，再用上下文感知特征增强（CFE）桥接视觉-文本模态差距，在 ActivityNet Captions 和 YouCook2 上达到 SOTA。

研究背景与动机¶

密集视频描述（Dense Video Captioning, DVC）要求同时定位和描述未剪辑视频中的所有显著事件及其精确时间边界。近年来基于检索增强生成（RAG）的方法（如 CM2）开始引入外部语义知识来提升理解和生成能力。

现有痛点：当前基于记忆的方法依赖隐式的 RAG 框架，使用手动设计的固定窗口进行跨模态检索，导致两个根本限制：

时序建模不足：固定窗口的视觉特征只关注局部片段，导致不连续的语义检索，无法捕获事件序列间的时序连贯性

模态鸿沟：检索到的语义特征与视觉表示通过简单操作（拼接或基本注意力）融合，不足以桥接视觉和文本模态的内在差异

核心矛盾：有效的检索增强 DVC 需要利用视频数据中固有的时序结构和丰富语义信息，但当前方法将帧级或片段化的文本信息简单拼接，忽略了时序连贯性。

切入角度：相邻帧共享相似的视觉和时序上下文，通常表示同一语义事件。利用此观察引入基于伪事件的显式时序-语义建模，使检索到的文本语义具有时序特性。

方法详解¶

整体框架¶

CACMI 采用 RAG 范式：CLIP 图像编码器提取帧级特征 → CFA 模块聚合时序一致帧并检索事件对齐文本 → CFE 模块融合视觉与文本特征 → Deformable Transformer + 多任务头输出事件定位和描述。

关键设计¶

跨模态帧聚合 (Cross-modal Frame Aggregation, CFA):
- 事件上下文聚类 (Event Context Clustering):
  - 功能：将帧级视觉特征聚合为时序一致的伪事件表示
  - 核心思路：对 CLIP 帧特征使用凝聚聚类（Euclidean 距离 + Ward linkage），再加时序聚合约束（同一簇内任意两帧时间差不超过 t_max），确保语义相似且时序连续的帧被分到同一簇
  - 设计动机：凝聚聚类不假设固定簇形状，适合发现灵活多样的特征空间模式；时序约束确保事件的时序连贯性
  - 输出：c 个簇级特征向量 F^c，每个代表一个伪事件，使用边界增强的加权平均（钟形权重分布取反，边界帧权重更高）
- 事件语义检索 (Event Semantic Retrieval):
  - 功能：为每个伪事件从句子库中检索最相关的文本描述
  - 核心思路：CLIP 文本编码器预处理句子库，计算伪事件特征与所有文本特征的余弦相似度矩阵，每个伪事件 top-k 检索并平均池化
  - 设计动机：核心创新在于检索以事件为单位而非帧或固定窗口，保持时序结构的完整性
上下文感知特征增强 (Context-aware Feature Enhancement, CFE):
- 功能：细粒度跨模态融合，用文本查询引导视觉特征增强
- 核心思路：计算帧级视觉特征 F^v 与事件级文本查询 F^q 的相似度矩阵 M，通过双重注意力（列方向和行方向 softmax）得到跨注意力特征 F^{v'} 和 F^{q'}，与原始特征拼接并投影，最后加入全局文本向量通过 1D 卷积融合
- 设计动机：CM2 使用共享自注意力权重进行特征增强，参数共享方案不足以桥接模态间的语义鸿沟。query-guided fusion 能选择性抑制无关视觉元素、增强语义对齐区域
多任务预测头:
- 定位头：MLP 回归事件的中心和时间跨度
- 描述头：LSTM + deformable soft attention，逐词生成描述
- 事件计数器：max-pooling + FC 预测视频中的事件数量
- Hungarian 算法匹配预测与真值

损失函数 / 训练策略¶

匹配损失：L_match = L_cls + α·L_loc（focal 分类损失 + 广义 IoU 损失）
总损失：L = α_cls·L_cls + α_loc·L_loc + α_count·L_count + α_cap·L_cap
帧采样：1 FPS，ActivityNet 固定 100 帧，YouCook2 固定 200 帧
事件查询数：ActivityNet 10 个，YouCook2 100 个
聚类数：ActivityNet 10 个，YouCook2 20 个
检索 top-k = 40

实验关键数据¶

主实验（事件描述性能）¶

ActivityNet Captions（无预训练方法对比）:

方法	BLEU4↑	METEOR↑	CIDEr↑	SODA_c↑
PDVC (ICCV'21)	2.21	8.06	29.97	5.92
CM2 (CVPR'24)	2.38	8.55	33.01	6.18
E2DVC (CVPR'25)	2.43	8.57	33.63	6.13
CACMI (Ours)	2.44	8.68	33.80	6.39

YouCook2:

方法	BLEU4↑	METEOR↑	CIDEr↑	SODA_c↑
PDVC	1.40	5.56	29.69	4.92
CM2	1.63	6.08	31.66	5.34
CACMI (Ours)	1.70	6.21	34.83	5.57

事件定位性能¶

方法	ActivityNet F1↑	YouCook2 F1↑
PDVC	54.78	26.81
CM2	55.21	28.43
E2DVC	56.42	28.87
CACMI (Ours)	57.10	29.34

消融实验¶

CFA	CFE	CIDEr	SODA_c	F1
✗	✗	33.01	6.18	55.21
✓	✗	33.62	6.26	56.07
✗	✓	33.48	6.31	56.95
✓	✓	33.80	6.39	57.10

聚类数	CIDEr	F1	说明
3	32.84	54.91	太粗糙
10	33.80	57.10	最优
15	32.98	55.15	过度分割

Top-k	CIDEr	F1	说明
10	32.20	55.95	语义多样性不足
40	33.80	57.10	最优平衡
80	32.57	56.15	冗余信息稀释

关键发现¶

CFE 对定位帮助更大：CFE 单独使 F1 从 55.21 提升至 56.95（+1.74），而 CFA 单独 +0.86，说明跨模态融合对时间边界预测至关重要
CFA 对描述质量帮助更大：CFA 使 CIDEr 提升 0.61，CFE 提升 0.47，说明事件级语义检索丰富了描述内容
两模块协同效果最优：组合后在所有指标上都取得最佳
SODA_c 指标的优势最显著：在评估叙事连贯性的 SODA_c 上超越所有方法，说明显式时序建模有效捕获了事件间的时序依赖

亮点与洞察¶

显式 vs 隐式时序建模：用聚类发现自然事件边界，而非手动设计固定窗口，更符合视频的内在结构
边界加权的事件表示：钟形权重取反使事件边界帧获得更高权重，有助于精确定位
query-guided fusion 的有效性：比 CM2 的共享自注意力更有效地桥接模态鸿沟
不需要大规模预训练：无需额外视频数据预训练即可超越部分预训练方法

局限与展望¶

聚类数是超参数，对不同长度/复杂度的视频可能需要自适应调整
句子库的构建和质量对检索效果有直接影响，但论文未深入讨论
在 YouCook2 上与预训练的 Vid2Seq 仍有差距，受限于训练视频的领域覆盖
事件描述头仍使用 LSTM，未探索更强的生成模型（如 LLM decoder）
聚类使用 Euclidean 距离，在高维 CLIP 特征空间中可能不是最优度量
未探索动态 top-k 或自适应检索策略

评分¶

新颖性: ⭐⭐⭐⭐（显式时序语义建模的思路清晰，CFA+CFE 设计有理论动机）
实验充分度: ⭐⭐⭐⭐（两个数据集全面评估，消融充分，可视化有说服力）
写作质量: ⭐⭐⭐⭐（结构清晰，动机阐述充分，公式表达严谨）
价值: ⭐⭐⭐⭐（在 DVC 领域提供了新的 SOTA 和有效的方法论贡献）