Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding¶

会议: NeurIPS 2025
arXiv: 2510.20244
代码: 无
领域: 视频理解 / 时序定位
关键词: 视频时序定位, 双路径架构, 短语级对齐, 时刻检索, 注意力解耦

一句话总结¶

DualGround揭示现有VTG模型过度依赖[EOS] token的全局语义而忽略词级信号的问题，提出句子级+短语级双路径架构，通过自适应交叉注意力和循环短语生成器分别建模全局和局部语义，在QVHighlights和Charades-STA上达到SOTA。

研究背景与动机¶

领域现状¶

领域现状：视频时序定位(VTG)包含Moment Retrieval(MR)和Highlight Detection(HD)两个子任务。现有模型使用CLIP/InternVideo2等预训练模型的文本特征时，将所有text token(词token + [EOS] token)统一处理。

作者通过实验发现一个关键问题：

现有痛点¶

现有痛点：[EOS]偏向性**：模型几乎只依赖[EOS] token的全局语义，词级token被严重忽略

核心矛盾¶

核心矛盾：仅用[EOS] token的性能与使用完整序列相当甚至更好

解决思路¶

解决思路：即使对与query无关的视频片段，注意力也集中在[EOS]上而非关键词(如"red jacket")

补充说明¶

补充说明：这导致模型在需要细粒度词与视频对齐的场景中表现不佳

方法详解¶

整体框架¶

双路径架构将句子级和短语级语义分离处理： 1. 句子级路径：用[EOS] token + 自适应交叉注意力(ACA)捕获全局对齐 2. 短语级路径：词token → 循环短语生成器(RPG) → Slot Attention精炼 → 短语-片段交互 3. 两条路径的输出 \(V^s + V^p\) 融合后送入解码器

关键设计¶

自适应交叉注意力 (ACA, 句子级路径):
- 功能：让每个视频片段选择性地与[EOS] token的全局语义对齐
- 核心思路：引入可学习dummy tokens作为"注意力吸引器"，语义不相关的视频片段将注意力分配给dummy而非[EOS]，减少噪声干扰
- 设计动机：单token([EOS])的key序列与标准attention不兼容，dummy tokens提供了对比分布的基础
- 具体实现：dummy tokens经过条件化编码器后与[EOS]拼接为key-value，视频特征作为query
循环短语生成 + Slot Attention精炼(短语级路径):
- 功能：将词token聚类为N个语义连贯的短语单元，建模短语与视频片段的细粒度交互
- 核心思路：RGP模块以全局语义和前一短语为条件，顺序生成N个短语；Slot Attention迭代精炼去除语义重叠
- 设计动机：词级语义依赖上下文，短语级抽象提供更连贯的对齐单元；顺序生成保证相邻词更易被分到同一短语
- 短语-片段交互：通过Hadamard积计算所有短语与所有时间步的上下文嵌入 \(C \in \mathbb{R}^{N \times T \times d}\)

损失函数 / 训练策略¶

MR损失：Focal分类损失 + L1边界回归损失
HD损失：排序损失 + 对比损失（分别在显著性分数和注意力权重上）
短语级损失：
- DQA损失：正则化短语注意力分布正交性 \(\|AA^T - rI\|_F^2\)，鼓励语义多样性
- 全局重建损失：鼓励 \(P_{[EOS]}\) 重建全局语义，保证短语级与句子级一致性
总损失：\(\mathcal{L} = \mathcal{L}_{mr} + \mathcal{L}_{hd} + \mathcal{L}_{phrase}\)

实验关键数据¶

主实验（表格）¶

QVHighlights test split (InternVideo2特征):

方法	MR R1@0.5	MR R1@0.7	MR mAP@0.5	HD mAP	HD HIT@1
FlashVTG	74.7	60.0	54.8	40.0	66.2
R2-Tuning	72.5	57.3	52.1	39.4	65.0
DualGround	>75	>61	>55	>40	>67

Charades-STA (InternVideo2特征):

方法	R1@0.5	R1@0.7
FlashVTG	~73	~55
DualGround	更高	更高

DualGround在两个基准上的MR和HD任务均达到SOTA。

消融实验¶

句子级路径 vs 短语级路径 vs 双路径：双路径显著优于任一单路径
Dummy tokens数量：4-8个效果最佳
短语数N：N=4时取得最优平衡
Slot Attention精炼：提升约0.5-1.0% mAP
DQA损失：移除后短语趋于同质化，性能下降

关键发现¶

现有VTG模型在Word-only配置下性能显著低于[EOS]-only，证实了全局语义偏向
DualGround成功降低了对[EOS]的过度依赖：Word-only性能大幅提升
短语级路径对需要细粒度对齐的长query改善最大
句子级路径对简短query仍然有效且必要

亮点与洞察¶

问题诊断精准：通过控制实验清晰揭示[EOS]偏向问题，实验设计值得学习
架构设计自然：从问题出发推导出双路径的必要性，逻辑链完整
短语作为中间表示：在词和句子之间引入短语层是合理的语义粒度
ACA的dummy tokens设计巧妙地解决了单token key序列的attention兼容性问题

局限与展望¶

短语数量N固定，对不同长度和复杂度的query不够灵活
短语聚类完全基于特征空间相似性，未利用语法结构信息
未在更多数据集(如ActivityNet、TACoS)上验证
推理速度可能因双路径+Slot Attention而增加

评分¶

⭐⭐⭐⭐ — 问题发现扎实，双路径设计逻辑清晰，在竞争激烈的VTG领域取得SOTA