MUVR: A Multi-Modal Untrimmed Video Retrieval Benchmark with Multi-Level Visual Correspondence¶

会议: NeurIPS 2025
arXiv: 2510.21406
代码: GitHub
领域: 视频理解
关键词: 视频检索, 多模态查询, 未剪辑视频, 多级视觉对应, 基准数据集

一句话总结¶

提出 MUVR 基准，面向长视频平台的多模态未剪辑视频检索任务，设计了以视频为中心的多模态查询格式（视频+文本+标签+掩码）和六级视觉对应匹配准则，包含 53K 视频和 1050 个查询，系统评估了检索模型和 MLLM 的局限性。

研究背景与动机¶

领域现状：视频检索是推荐系统和内容搜索的核心技术。现有任务包括文本到视频检索（TVR）、组合视频检索（CVR）、细粒度视频检索（FVR）等，但各有局限。

现有痛点：(1) 纯文本查询难以描述精细视觉信息；(2) 纯视频查询会引入无关视觉信息；(3) 现有基准仅支持单一匹配准则（如近重复、事件级），无法覆盖多样化视频类别；(4) 大多数基准基于剪辑后视频和一对一检索，不符合实际平台的使用场景。

核心矛盾：真实视频平台需要的是一对多检索 + 未剪辑视频 + 多模态查询 + 多类别覆盖，但没有基准同时满足这些要求。

本文目标：构建一个与真实视频平台应用对齐的综合性视频检索基准。

切入角度：以视频查询为主、文本描述为辅，结合标签和掩码 prompt，在未剪辑视频库上进行一对多检索。

核心 idea：提出多级视觉对应（copy、event、scene、instance、action、others）作为通用检索匹配准则，设计五个分区覆盖多样化视频类别。

方法详解¶

整体框架¶

MUVR 基准包含三个版本： - MUVR-Base：53K 视频，1050 个多模态查询，84K 标注匹配 - MUVR-Filter：在 Base 基础上标注 74K 多标签标签，支持标签过滤检索（9979 个查询） - MUVR-QA：200 个判别问题，评估 MLLM 的重排序能力

关键设计¶

多模态查询设计：每个查询包含四个组件：
- 视频查询：携带主要视觉信息，适合描述难以用文字表达的细节
- 文本描述：平均 20 个词，指定关键视觉内容和检索需求
- 标签 Prompt：用户指定期望/不期望的视频特征（如"动画风格"、"第一视角"），支持精细过滤
- 掩码 Prompt：使用 SAM2 标注关键区域，引导检索模型关注视频中的特定部分
多级视觉对应：根据用户感兴趣的视频内容层次定义六级对应：
- Copy：目标是查询的复制/编辑版本
- Event：共享相同事件（时空交叉）
- Scene：共享相同场景/背景/地区
- Instance：共享相同实例/物体
- Action：共享相同人体动作
- Others：主观感觉相关
五分区设计（Partitions）：News（新闻事件）、Region（旅行场景）、Instance（商品宠物）、Dance（舞蹈动作）、Others（梗/电影），每个分区侧重不同的视觉对应层级和视频类别。
重排序评分（Reranking Score）：针对 MLLM 重排序能力设计的评估指标。每个查询包含一个真阳性和一个假阳性，MLLM 可能产生四种结果：
- 10（正确保留真+移除假）：+1 分
- 11（全保留，无操作）：0 分
- 00（全移除）：-1 分
- 01（错误翻转）：-2 分

损失函数 / 训练策略¶

MUVR 是一个评估基准而非训练方法。检索评分计算：

\[S_v = \text{Score}(V_{\text{query}}, V_{\text{target}}), \quad S_t = \text{Score}(T_{\text{description}}, V_{\text{target}})$$ $$S_{tv} = (S_t + S_v)/2, \quad S_{tag} = S_{tv} + p \times \text{Score}(T_{\text{tag}}, V_{\text{target}})\]

其中 $p = \pm 0.3$ 根据标签 prompt 的正负符号确定。

实验关键数据¶

主实验¶

MUVR-Base 多模态查询检索性能（mAP %）：

方法	平均 mAP	News	Others	Instance	Region	Dance
CLIP (RN50x4)	42.9	49.4	53.6	46.5	43.8	21.2
EVA-CLIP	58.0	63.1	66.1	68.2	63.8	28.7
InternVideo2	52.1	57.3	66.3	55.3	52.5	28.9
S2VS	47.2	51.3	63.7	49.5	49.1	22.5
CoVR	43.3	50.5	54.3	46.9	44.0	20.8

MUVR-QA MLLM 重排序评估：

方法	参数	帧数	准确率 (All)	重排序分 (All)
InternVL2 (多图)	8B	6	58.5	-0.23
GPT-4o (多图)	N/A	6	65.0	0.19
Gemini-2.0-Flash	N/A	12	63.5	0.07
InternVL2.5 (文本)	8B	12	58.5	-0.37

消融实验¶

查询格式对检索性能的影响（EVA-CLIP, mAP %）：

查询格式	平均 mAP	最佳分区
纯文本	43.0	Instance (59.7)
纯视频	50.7	Others (59.2)
多模态	58.0	Instance (68.2)
多模态+标签	34.0 (Filter)	News (38.3)

关键发现¶

视频查询比文本重要：纯视频检索普遍优于纯文本（50.7 vs 43.0 mAP），因为视频能精确表达文字难以描述的细节
多模态查询有显著增益：视频+文本组合带来 7.3% mAP 提升（58.0 vs 50.7），说明两种模态互补
不同分区需要不同能力：VLM 在 Instance/Region/News 分区表现最好（静态空间理解），视频模型在 Dance/Others 分区更强（动态时序理解）
所有方法在 Dance 分区表现最差：最高仅 28.9% mAP，说明动作级视觉对应仍是巨大挑战
标签 Prompt 对 MLLM 挑战极大：某些模型在无标签问题上达 70%+ 准确率，但加入标签后显著下降
MLLM 重排序能力不足：大多数模型重排序分为负值，说明现有 MLLM 尚不可靠用于视频重排序

亮点与洞察¶

基准设计精心且实用：五分区设计覆盖了视频平台的核心类别，避免了单一类别基准的偏见
多级视觉对应是一个有价值的形式化：将用户检索意图抽象为 6 个层次，比简单的语义匹配更精确
标签 Prompt 是创新点：允许用户用简单的标签过滤结果，贴近实际产品体验
重排序评分设计合理：区分了"无操作"和"错误翻转"并赋予不同惩罚，反映了实际重排序场景的需求
规模大（53K 视频）、标注质量高（专业标注员+双轮核验）

局限与展望¶

数据来源限于 Bilibili 平台，可能存在中文视频的偏差，需要验证在英文平台的适用性
视频裁切为最长 2 分钟，对更长视频的检索场景覆盖不足
标签 Prompt 的设计（$p = \pm 0.3$ 固定权重）较为简单，可探索自适应权重
MUVR-QA 仅包含 200 个问题，规模有限
未探索端到端的多模态查询理解模型，仅评估现有模型

评分¶

新颖性: ⭐⭐⭐⭐ 多级视觉对应和多模态查询范式新颖，但核心是数据集贡献而非方法创新
实验充分度: ⭐⭐⭐⭐⭐ 3 个检索模型 + 6 个 VLM + 10 个 MLLM 的系统评估，分析全面
写作质量: ⭐⭐⭐⭐⭐ 基准设计描述详尽，发现总结清晰，可读性极好
价值: ⭐⭐⭐⭐⭐ 填补了多模态未剪辑视频检索领域的基准空白，对社区有重要推动作用