GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval¶
会议: AAAI 2026
arXiv: 2601.00584
代码: 无
领域: LLM评测
关键词: 零样本视频时刻检索, 语义粒度对齐, 查询重写, LLM, 视觉语言模型
一句话总结¶
提出一个无需训练的粒度感知对齐框架GranAlign,通过将查询重写为简化版和细化版并分别匹配无关/感知查询的视频描述,解决了零样本视频时刻检索中语义粒度不匹配的核心难题,在QVHighlights上mAP@avg提升3.23%。
研究背景与动机¶
视频时刻检索(VMR)的目标是根据自然语言查询在未剪辑视频中定位相应的时间片段。传统监督方法依赖昂贵的标注数据,因此零样本VMR(ZVMR)借助VLM和LLM预训练知识成为了极具价值的范式。
然而ZVMR面临一个根本性挑战——"粒度不匹配"(Granularity Mismatch)。具体来说,用户可能用不同抽象程度描述同一事件:"一只可爱的狗" vs "一只金毛幼犬在走来走去"。粗粒度查询有高召回但低精度(覆盖面广但无法精确定位),细粒度查询有高精度但低召回(语义精确但细节稍有偏差就失配)。这形成了不可避免的trade-off。
作者通过定量分析发现,按查询类型(简单/详细/错误/其他)分类后,现有方法在不同类型上表现差异很大——证明了粒度问题的实际影响。之前的方法要么只做查询重写但停留在单一粒度层面("one-size-fits-all"),要么只用query-agnostic的视频描述缺乏与查询的语义对齐。这种单通道推理是阻碍鲁棒检索的核心瓶颈。
本文的核心idea:抛弃单通道设计,在查询侧和视频侧同时建立粗-细双通道,并按粒度层级进行匹配对齐——简化查询配通用描述(高召回),详细查询配感知描述(高精度),二者取长补短。
方法详解¶
整体框架¶
GranAlign是一个完全无需训练的三阶段框架:(1)粒度感知对齐——将查询重写为简化版和详细版,同时生成query-agnostic和query-aware两种视频帧描述;(2)时刻提案生成——基于帧级语义相似度分数生成候选时间段;(3)后处理——通过NMS筛选最终预测结果。
关键设计¶
-
基于粒度的查询重写(Granularity-based Query Rewriting):
- 功能:将原始查询通过LLaMA-3重写为两个语义互补的版本
- 核心思路:简化查询 \(Q_s\) 通过指令替换罕见词为常见词、保留核心实体和动作、去除偶然细节——提供高泛化性以检索广泛相关的候选段;详细查询 \(Q_d\) 保留细粒度表达、时序上下文和具体词汇选择——实现更精确的对齐和定位
- 设计动机:单一粒度的重写无法同时具备高召回和高精度。使用多个人工设计的指令对(prompt pairs)来生成两种版本,实验表明框架对具体指令对的选择并不敏感
-
查询感知描述生成(Query-Aware Captioning):
- 功能:为视频帧生成两种描述——通用描述和查询感知描述
- 核心思路:首先对所有帧生成query-agnostic描述 \(C_{agn} \in \mathbb{R}^{L_v \times l}\) 作为基线。然后选取与查询相似度最高的Top-K%帧(设 \(L_k\) 为候选帧数),仅对这些帧用Qwen2.5-VL生成query-aware描述 \(C_{awr} \in \mathbb{R}^{L_k \times l}\)。生成时以从查询中提取的实体和动作作为语义引导
- 设计动机:对所有帧生成query-aware描述计算成本过高。这种混合策略在关键区域利用语义精确的描述,同时保持全局计算效率。但query-aware描述可能出现幻觉或过度模仿查询的语言结构,因此需要在评分阶段设计容错机制
-
粒度时刻评分(Granular Moment Scoring):
- 功能:融合两组查询-描述对的相似度分数
- 核心思路:对每一帧 \(f\) 计算综合相似度分数:\(S_f = \frac{1}{2m}\sum_{i=1}^{m}[g(q_s^{(i)}, C_{agn,f}) + g(q_d^{(i)}, C_{awr,f})]\),其中 \(m\) 是重写对数量,\(g(\cdot, \cdot)\) 是归一化余弦相似度
- 设计动机:简化-通用对 \((Q_s, C_{agn})\) 提供广覆盖高召回,详细-感知对 \((Q_d, C_{awr})\) 提供精确对齐但容易受幻觉影响。融合两者互补的分数消除了单一对可能带来的偏差和误报
-
时刻提案生成与后处理(Moment Proposal Generation):
- 功能:从帧级分数生成并筛选候选时间段
- 核心思路:相邻高分帧若间隔不超过阈值 \(\tau\) 则合并为同一提案,丢弃平均相似度在底部n%的提案。每个候选段的评分为 \(\text{Score}(p) = (1-\lambda)\mu_p + \lambda\rho_p\),其中 \(\mu_p\) 是平均语义相似度,\(\rho_p\) 是归一化长度正则项,\(\lambda = 0.3\)。最后用NMS去除冗余提案
- 设计动机:长度正则化可防止过长的低质量提案和过短的碎片提案
损失函数 / 训练策略¶
GranAlign是完全零样本的无训练框架——不需要任何训练数据或微调。查询重写用LLaMA3-8B,描述生成用Qwen2.5-VL-7B,初始帧过滤用CLIP ViT-B/32。推理时先离线生成query-agnostic描述,在线阶段只为关键帧生成query-aware描述,实现了比Moment-GPT更短的推理时间(6.2s vs 16.1s)。
实验关键数据¶
主实验¶
| 数据集 | 指标 | GranAlign | Moment-GPT (前SOTA) | 提升 |
|---|---|---|---|---|
| QVHighlights val | R1@0.5 | 61.94 | 58.9 | +3.04 |
| QVHighlights val | mAP@avg | 39.12 | 35.9 | +3.22 |
| QVHighlights test | R1@0.5 | 59.92 | 58.3 | +1.62 |
| QVHighlights test | mAP@avg | 38.23 | 35.0 | +3.23 |
| Charades-STA | R1@0.5 | 39.6 | 38.4 | +1.2 |
| Charades-STA | mIoU | 38.0 | 36.5 | +1.5 |
| ActivityNet | R1@0.5 | 34.0 | 31.1 | +2.9 |
| ActivityNet | mIoU | 33.1 | 30.8 | +2.3 |
消融实验(QVHighlights val)¶
| 查询→ \(C_{agn}\) | 查询→ \(C_{awr}\) | R1@0.5 | mAP@avg |
|---|---|---|---|
| \(Q_r\) (原始查询) | - | 57.94 | 31.80 |
| - | \(Q_r\) | 58.19 | 32.13 |
| \(Q_s\) (简化) | - | 58.97 | 37.13 |
| - | \(Q_d\) (详细) | 59.48 | 37.65 |
| \(Q_s\) | \(Q_d\) (完整GranAlign) | 61.94 | 39.12 |
关键发现¶
- 粒度匹配很关键:将简化查询配query-aware描述(粒度不匹配)时性能下降,而匹配粒度时性能明显提升
- 双通道融合始终优于任何单通道:简化对高召回、详细对高精度,融合后两方面都好
- 在VHD(视频高光检测)任务上GranAlign的mAP达39.35%,甚至超越了完全监督的QD-DETR(39.04%),展示了零样本方法的巨大潜力
- 推理效率优异:6.2s推理时间远优于Moment-GPT的16.1s,得益于两阶段描述生成策略
- 框架对超参数选择并不敏感(重写数量 \(m=3\),\(\lambda=0.3\) 附近均表现稳定)
亮点与洞察¶
- "粒度不匹配"这一问题的formulation非常精准,通过查询类型分类分析(Error/Simple/Detail/Else)提供了定量证据
- 双通道粒度对齐的设计既直觉又有效——简单和详细各管一路,最后取平均,避免了复杂的融合机制
- 完全零样本且无训练成本,但在QVHighlights上已接近甚至在某些指标上超越完全监督方法,非常实用
- 两阶段描述生成(离线通用+在线关键帧感知)是一个很好工程权衡
局限与展望¶
- query-aware描述可能出现幻觉——生成了视频中不存在的视觉内容,或过度模仿查询的语言结构
- LLM查询重写可能改变原始意图,需要语义验证步骤
- 依赖多个大模型(LLaMA3 + Qwen2.5-VL + CLIP + SentenceTransformer),部署成本较高
- 对长视频中事件密集的场景,简化查询可能覆盖太多无关内容
相关工作与启发¶
- Moment-GPT是直接前驱工作,用LLaMA-3重写查询+Video-ChatGPT评分,但仍是单通道单粒度设计
- 本文的粒度感知思路可以推广到其他检索场景——如文本检索中同一问题的不同表述、图像检索中的抽象/具体查询对
- 将"生成多粒度表示再对齐"的范式与RAG或多步推理结合,可能产生更强的多模态理解系统
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐