Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning¶
会议: CVPR 2026
arXiv: 2603.11439
代码: github.com/MMAI-Konkuk/ROS-DVC
领域: 视频理解
关键词: 密集视频描述, 角色专用查询, 重叠抑制, DETR, 跨任务对比对齐
一句话总结¶
ROS-DVC为DETR-based密集视频描述设计角色专用查询(定位和描述独立初始化)、跨任务对比对齐损失和重叠抑制损失三个互补组件,无需预训练或LLM即在YouCook2上CIDEr达39.18,超越使用GPT-2的DDVC。
研究背景与动机¶
领域现状:密集视频描述(DVC)需要同时定位视频中的多个事件时间段并为每段生成自然语言描述。PDVC开创性地将DETR架构引入DVC,实现端到端联合优化。后续方法(CM2、MCCL、E2DVC、DDVC)在此基础上持续改进。
现有痛点:DETR-based DVC使用共享的可学习查询同时驱动定位和描述,产生两个严重问题:(1) 多任务干扰——定位需要广泛的时间上下文来预测精确边界,描述需要密集关注关键帧的语义细节,共享查询的注意力分布模糊不清(Figure 1b上方);(2) 预测重叠——多个查询捕获高度重叠的时间段,产生冗余描述(Figure 1a)。
核心矛盾:查询角色的统一性与子任务需求的差异性之间的根本冲突——单个查询无法同时最优化时间定位和语义描述两个方向。
本文目标 让查询"各司其职"——定位查询专注时间边界,描述查询专注语义内容,同时减少预测的时间重叠。
切入角度:从查询初始化和损失函数两个层面入手——物理分离查询空间+对比对齐保持一致性+重叠惩罚减少冗余。
核心 idea:将DETR查询分为独立初始化的定位和描述两组,用对比损失桥接两组查询的语义一致性,用IoU惩罚抑制预测重叠。
方法详解¶
整体框架¶
视频帧 → 预训练CLIP ViT-L/14提取特征 → Transformer编码器生成帧级特征 → DETR解码器(接收两组独立初始化的角色专用查询)→ 定位查询经Hungarian匹配后输出事件时间段,描述查询经CTCA对齐后输出事件描述文本。定位查询还受OSL约束以减少重叠。
关键设计¶
-
角色专用查询初始化(Role-Specific Query Initialization):
- 功能:将标准DETR的单一查询集分为定位查询 \(\{q_{\text{loc}}^j\}_{j=1}^K\) 和描述查询 \(\{q_{\text{cap}}^j\}_{j=1}^K\),各自从独立的嵌入空间初始化
- 核心思路:两组查询在解码器cross-attention层中共享视觉定位(引用相同视觉位置的reference point),但保持各自表示空间的独立性。定位查询学习广泛关注时间上下文以预测边界,描述查询学习密集关注关键帧以捕获语义。与DDVC不同(用MLP从定位查询派生描述查询),本文是真正的物理分离
- 设计动机:完全独立的嵌入空间允许每组查询被各自的目标函数独立优化,避免梯度方向冲突。Figure 1b可视化证实分离后的注意力分布确实呈现差异化模式
-
跨任务对比对齐损失(CTCA Loss):
- 功能:确保对应位置的定位查询和描述查询指向同一事件的语义内容
- 核心思路:Hungarian匹配后,对于匹配到GT的索引集 \(\mathcal{M}\),将 \((q_{\text{cap}}^j, q_{\text{loc}}^j)\) 视为正对,\((q_{\text{cap}}^j, q_{\text{loc}}^{j'})\) 为负对。损失函数 \(\mathcal{L}_{\text{CTCA}}=-\sum_{j\in\mathcal{M}}\log\frac{\exp(\text{sim}(\tilde{q}_{\text{cap}}^j,\tilde{q}_{\text{loc}}^j)/\tau)}{\sum_{j'}\exp(\text{sim}(\tilde{q}_{\text{cap}}^j,\tilde{q}_{\text{loc}}^{j'})/\tau)}\)
- 设计动机:查询空间分离后语义一致性不再自动保证,CTCA通过对比学习显式桥接定位和描述查询,使定位查询也获得语义感知能力
-
重叠抑制损失(Overlap Suppression Loss, OSL):
- 功能:惩罚预测事件之间的过度时间重叠,减少冗余预测
- 核心思路:基于预测边界 \(B_i,B_j\) 的成对时间IoU \(P_o(i,j)\),引入GT对齐权重 \(\alpha=\gamma\cdot P_g+(1-\gamma)\cdot(1-P_g)\)(\(\gamma\leq0.5\)),最终损失 \(L_{\text{OSL}}=-\alpha\cdot\log(\beta-P_o)\)。与GT高度匹配的预测受较小惩罚(\(P_g\) 大 → \(\alpha\) 小),避免误抑制真正的连续事件
- 设计动机:直接在训练时优化比NMS后处理更有效;GT调制惩罚区分了"与GT对应的合理重叠"和"冗余的无效重叠"
损失函数 / 训练策略¶
总损失 \(\mathcal{L}_{\text{total}}=\lambda_{\text{giou}}\mathcal{L}_{\text{giou}}+\lambda_{\text{cls}}\mathcal{L}_{\text{cls}}+\lambda_{\text{cap}}\mathcal{L}_{\text{cap}}+\lambda_{\text{ec}}\mathcal{L}_{\text{ec}}+\lambda_{\text{CTCA}}\mathcal{L}_{\text{CTCA}}+\lambda_{\text{OSL}}\mathcal{L}_{\text{OSL}}+\lambda_{\text{CG}}\mathcal{L}_{\text{CG}}\)。其中 \(\mathcal{L}_{\text{CG}}\) 为Concept Guider的辅助交叉熵损失(推理时不用)。超参数 \(\gamma=0.25\), \(\beta=1.0\), \(N_C=30\)。2层deformable transformer解码器,YouCook2用50组查询,ActivityNet用10组。
实验关键数据¶
主实验¶
| 数据集 | 指标 | ROS-DVC | DDVC(GPT-2) | MCCL | E2DVC | PDVC |
|---|---|---|---|---|---|---|
| YouCook2 | CIDEr↑ | 39.18 | 38.75 | 36.09 | 34.26 | 29.69 |
| YouCook2 | SODA_c↑ | 7.06 | 6.68 | 5.21 | 5.39 | 4.92 |
| YouCook2 | BLEU4↑ | 2.10 | 1.92 | 2.04 | 1.68 | 1.40 |
| ActivityNet | CIDEr↑ | 35.04 | — | 34.92 | 33.63 | 29.97 |
| ActivityNet | SODA_c↑ | 6.45 | — | 6.16 | 6.13 | 5.92 |
| 数据集 | 定位指标 | ROS-DVC | E2DVC | PDVC |
|---|---|---|---|---|
| YouCook2 | Recall↑ | 29.34 | 24.36 | 22.89 |
| YouCook2 | F1↑ | 32.03 | 28.64 | 26.81 |
| ActivityNet | Recall↑ | 55.35 | 54.67 | 53.27 |
消融实验¶
| 配置 | CIDEr | 说明 |
|---|---|---|
| 基线 (E2DVC) | 34.26 | 共享查询 |
| + 角色分离 | 36.14 (+1.88) | 查询解耦本身有效 |
| + 角色分离 + CTCA | 37.92 (+3.66) | 跨任务对齐保持语义一致 |
| + 角色分离 + CTCA + OSL | 39.18 (+4.92) | 重叠抑制进一步减少冗余 |
| OSL无GT调制 (固定惩罚) | ~38.4 | GT调制避免误抑制合理重叠 |
关键发现¶
- 三个组件贡献递增(+1.88, +1.78, +1.26),组合效果最优(+4.92)
- 角色分离比共享查询+CTCA(软约束)更有效,说明表示空间的物理分离优于软对齐
- Recall与Precision近乎匹配——事件计数器预测的事件数更接近真实值
- 无需LLM即超越使用GPT-2的DDVC(CIDEr +0.43),证明方法的轻量高效
亮点与洞察¶
- "让查询各做各的"思路朴素而有效——从DETR查询设计层面解决DVC的多任务干扰问题
- OSL的GT调制设计精巧——用 \(\alpha\) 自适应惩罚强度,区分合理重叠与冗余重叠
- Concept Guider是无开销的辅助增强——训练时用MLP预测事件概念向量enriches查询表示,推理时去掉
- 不依赖外部记忆库或LLM,方法轻量且可迁移
局限与展望¶
- 仅在YouCook2和ActivityNet上验证,未测试更长或更复杂的视频场景
- 角色分离将查询参数翻倍(2K vs K),大查询集时可能有额外开销
- CTCA用全局对比可能对极短或极长事件的区分不够敏感,可探索时间感知的对比策略
- 未与最新的LLM-based DVC方法(如用LLaMA的)充分对比
- Concept Guider的概念词表(\(N_C=30\))固定,对域外视频的泛化有待验证
相关工作与启发¶
- vs PDVC: 共享查询的DVC先驱,ROS-DVC在其基础上解耦查询+加损失约束,CIDEr提升+9.49
- vs DDVC: 用GPT-2做描述生成达CIDEr 38.75,ROS-DVC无需LLM即超越(39.18),证明查询设计比模型容量更重要
- vs E2DVC: 改进的端到端DVC基线,ROS-DVC在其上CIDEr +4.92
- vs MCCL: 使用外部记忆库增强描述多样性,ROS-DVC不需要额外记忆即达更高CIDEr
评分¶
- 新颖性: ⭐⭐⭐⭐ 查询角色分离+OSL GT调制组合设计新颖,三个组件互补递增
- 实验充分度: ⭐⭐⭐⭐ 两个标准数据集、逐组件递增消融、多基线多指标对比
- 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,"Stay in your Lane"标题贴切,方法图示直观
- 价值: ⭐⭐⭐⭐ 对DVC有直接实用改进,查询角色分离思路可迁移到其他DETR多任务架构