GranAlign: Granularity-Aware Alignment Framework for Zero-Shot Video Moment Retrieval¶

会议: AAAI 2026
arXiv: 2601.00584
代码: 无
领域: LLM评测
关键词: 零样本视频时刻检索, 语义粒度对齐, 查询重写, LLM, 视觉语言模型

一句话总结¶

提出一个无需训练的粒度感知对齐框架GranAlign，通过将查询重写为简化版和细化版并分别匹配无关/感知查询的视频描述，解决了零样本视频时刻检索中语义粒度不匹配的核心难题，在QVHighlights上mAP@avg提升3.23%。

研究背景与动机¶

视频时刻检索（VMR）的目标是根据自然语言查询在未剪辑视频中定位相应的时间片段。传统监督方法依赖昂贵的标注数据，因此零样本VMR（ZVMR）借助VLM和LLM预训练知识成为了极具价值的范式。

然而ZVMR面临一个根本性挑战——"粒度不匹配"（Granularity Mismatch）。具体来说，用户可能用不同抽象程度描述同一事件："一只可爱的狗" vs "一只金毛幼犬在走来走去"。粗粒度查询有高召回但低精度（覆盖面广但无法精确定位），细粒度查询有高精度但低召回（语义精确但细节稍有偏差就失配）。这形成了不可避免的trade-off。

作者通过定量分析发现，按查询类型（简单/详细/错误/其他）分类后，现有方法在不同类型上表现差异很大——证明了粒度问题的实际影响。之前的方法要么只做查询重写但停留在单一粒度层面（"one-size-fits-all"），要么只用query-agnostic的视频描述缺乏与查询的语义对齐。这种单通道推理是阻碍鲁棒检索的核心瓶颈。

本文的核心idea：抛弃单通道设计，在查询侧和视频侧同时建立粗-细双通道，并按粒度层级进行匹配对齐——简化查询配通用描述（高召回），详细查询配感知描述（高精度），二者取长补短。

方法详解¶

整体框架¶

GranAlign是一个完全无需训练的三阶段框架：（1）粒度感知对齐——将查询重写为简化版和详细版，同时生成query-agnostic和query-aware两种视频帧描述；（2）时刻提案生成——基于帧级语义相似度分数生成候选时间段；（3）后处理——通过NMS筛选最终预测结果。

关键设计¶

基于粒度的查询重写（Granularity-based Query Rewriting）:
- 功能：将原始查询通过LLaMA-3重写为两个语义互补的版本
- 核心思路：简化查询 \(Q_s\) 通过指令替换罕见词为常见词、保留核心实体和动作、去除偶然细节——提供高泛化性以检索广泛相关的候选段；详细查询 \(Q_d\) 保留细粒度表达、时序上下文和具体词汇选择——实现更精确的对齐和定位
- 设计动机：单一粒度的重写无法同时具备高召回和高精度。使用多个人工设计的指令对（prompt pairs）来生成两种版本，实验表明框架对具体指令对的选择并不敏感
查询感知描述生成（Query-Aware Captioning）:
- 功能：为视频帧生成两种描述——通用描述和查询感知描述
- 核心思路：首先对所有帧生成query-agnostic描述 \(C_{agn} \in \mathbb{R}^{L_v \times l}\) 作为基线。然后选取与查询相似度最高的Top-K%帧（设 \(L_k\) 为候选帧数），仅对这些帧用Qwen2.5-VL生成query-aware描述 \(C_{awr} \in \mathbb{R}^{L_k \times l}\)。生成时以从查询中提取的实体和动作作为语义引导
- 设计动机：对所有帧生成query-aware描述计算成本过高。这种混合策略在关键区域利用语义精确的描述，同时保持全局计算效率。但query-aware描述可能出现幻觉或过度模仿查询的语言结构，因此需要在评分阶段设计容错机制
粒度时刻评分（Granular Moment Scoring）:
- 功能：融合两组查询-描述对的相似度分数
- 核心思路：对每一帧 \(f\) 计算综合相似度分数：\(S_f = \frac{1}{2m}\sum_{i=1}^{m}[g(q_s^{(i)}, C_{agn,f}) + g(q_d^{(i)}, C_{awr,f})]\)，其中 \(m\) 是重写对数量，\(g(\cdot, \cdot)\) 是归一化余弦相似度
- 设计动机：简化-通用对 \((Q_s, C_{agn})\) 提供广覆盖高召回，详细-感知对 \((Q_d, C_{awr})\) 提供精确对齐但容易受幻觉影响。融合两者互补的分数消除了单一对可能带来的偏差和误报
时刻提案生成与后处理（Moment Proposal Generation）:
- 功能：从帧级分数生成并筛选候选时间段
- 核心思路：相邻高分帧若间隔不超过阈值 \(\tau\) 则合并为同一提案，丢弃平均相似度在底部n%的提案。每个候选段的评分为 \(\text{Score}(p) = (1-\lambda)\mu_p + \lambda\rho_p\)，其中 \(\mu_p\) 是平均语义相似度，\(\rho_p\) 是归一化长度正则项，\(\lambda = 0.3\)。最后用NMS去除冗余提案
- 设计动机：长度正则化可防止过长的低质量提案和过短的碎片提案

损失函数 / 训练策略¶

GranAlign是完全零样本的无训练框架——不需要任何训练数据或微调。查询重写用LLaMA3-8B，描述生成用Qwen2.5-VL-7B，初始帧过滤用CLIP ViT-B/32。推理时先离线生成query-agnostic描述，在线阶段只为关键帧生成query-aware描述，实现了比Moment-GPT更短的推理时间（6.2s vs 16.1s）。

实验关键数据¶

主实验¶

数据集	指标	GranAlign	Moment-GPT (前SOTA)	提升
QVHighlights val	R1@0.5	61.94	58.9	+3.04
QVHighlights val	mAP@avg	39.12	35.9	+3.22
QVHighlights test	R1@0.5	59.92	58.3	+1.62
QVHighlights test	mAP@avg	38.23	35.0	+3.23
Charades-STA	R1@0.5	39.6	38.4	+1.2
Charades-STA	mIoU	38.0	36.5	+1.5
ActivityNet	R1@0.5	34.0	31.1	+2.9
ActivityNet	mIoU	33.1	30.8	+2.3

消融实验（QVHighlights val）¶

查询→ \(C_{agn}\)	查询→ \(C_{awr}\)	R1@0.5	mAP@avg
\(Q_r\) (原始查询)	-	57.94	31.80
-	\(Q_r\)	58.19	32.13
\(Q_s\) (简化)	-	58.97	37.13
-	\(Q_d\) (详细)	59.48	37.65
\(Q_s\)	\(Q_d\) (完整GranAlign)	61.94	39.12

关键发现¶

粒度匹配很关键：将简化查询配query-aware描述（粒度不匹配）时性能下降，而匹配粒度时性能明显提升
双通道融合始终优于任何单通道：简化对高召回、详细对高精度，融合后两方面都好
在VHD（视频高光检测）任务上GranAlign的mAP达39.35%，甚至超越了完全监督的QD-DETR（39.04%），展示了零样本方法的巨大潜力
推理效率优异：6.2s推理时间远优于Moment-GPT的16.1s，得益于两阶段描述生成策略
框架对超参数选择并不敏感（重写数量 \(m=3\)，\(\lambda=0.3\) 附近均表现稳定）

亮点与洞察¶

"粒度不匹配"这一问题的formulation非常精准，通过查询类型分类分析（Error/Simple/Detail/Else）提供了定量证据
双通道粒度对齐的设计既直觉又有效——简单和详细各管一路，最后取平均，避免了复杂的融合机制
完全零样本且无训练成本，但在QVHighlights上已接近甚至在某些指标上超越完全监督方法，非常实用
两阶段描述生成（离线通用+在线关键帧感知）是一个很好工程权衡

局限与展望¶

query-aware描述可能出现幻觉——生成了视频中不存在的视觉内容，或过度模仿查询的语言结构
LLM查询重写可能改变原始意图，需要语义验证步骤
依赖多个大模型（LLaMA3 + Qwen2.5-VL + CLIP + SentenceTransformer），部署成本较高
对长视频中事件密集的场景，简化查询可能覆盖太多无关内容

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐