Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval¶

会议: ICCV 2025
arXiv: 2507.23284
代码: github.com/mlvlab/BLiM
领域: 多模态学习 / 视频检索
关键词: 文本-视频检索, 多模态大语言模型, 双向似然估计, 候选先验偏差, 分数校准

一句话总结¶

揭示了基于MLLM的检索系统中"候选先验偏差"问题——候选似然估计倾向于选择先验概率高而非语义最相关的候选，提出BLiM（双向似然估计）和CPN（候选先验归一化）模块来解决此问题，在四个文本-视频检索基准上平均R@1提升6.4。

研究背景与动机¶

文本-视频检索旨在给定视频（或文本）查询后找到最相关的文本（或视频）候选。现有方法的演进： - 双编码器架构（CLIP、BERT）：将查询和候选分别编码为单一嵌入，通过相似度检索，计算高效但token级别对齐不足 - MLLM基检索：处理拼接的查询-候选对，实现深层token级交互，对长和复杂的查询-候选对效果更好

然而作者发现MLLM检索中存在候选先验偏差：通过贝叶斯分解， $$P(\mathbf{t}|\mathbf{v}) = \frac{P(\mathbf{v}|\mathbf{t}) P(\mathbf{t})}{P(\mathbf{v})}$$ 候选似然 $P(\mathbf{t}|\mathbf{v})$ 同时受查询似然 $P(\mathbf{v}|\mathbf{t})$ 和候选先验 $P(\mathbf{t})$ 影响。MLLM自回归特性倾向于给长且重复的文本分配更高概率（高先验），导致检索结果偏向于高频模式而非真正语义匹配的候选。实验证实：某些高先验文本被37%的视频查询检索到（1003个视频中的374个）。

方法详解¶

整体框架¶

BLiM基于预训练视频MLLM（VideoChat-Flash 7B），由UMT视频编码器、线性投影层和Qwen2 LLM组成。推理时采用两阶段检索流程：InternVideo2 1B先检索top-K候选，BLiM再重排序。

关键设计¶

双向似然估计训练:
- 视频到文本生成 $P(\mathbf{t}|\mathbf{v})$：标准MLLM预训练范式，给定视频特征自回归生成文本 $\mathcal{L}_{t|v} = -\sum_{i=1}^{L_t} \log P(t_i | t_{<i}, \mathbf{v})$
- 文本到视频特征生成 $P(\mathbf{v}|\mathbf{t})$：给定文本，自回归预测下一个视频clip特征，使用对比softmax $\mathcal{L}_{v|t} = -\sum_{i=1}^{L_v} \log \frac{\exp(\tilde{v}_{i-1}^\top v_i)}{\sum_{n=1}^{N} \exp(\tilde{v}_{i-1}^\top v_i^{(n)})}$
- 总训练目标：$\mathcal{L}_{BLiM} = \mathcal{L}_{t|v} + \mathcal{L}_{v|t}$
- 两个方向的输入模态顺序互换，使用不同的prompt
候选先验归一化（CPN）:
- 免训练的分数校准模块，通过对输入模态应用attention mask来估计候选先验概率
- 在计算候选似然时，使用attention mask遮蔽所有查询token，使模型在无查询条件下生成候选，得到先验估计
- 用估计的候选先验对候选似然进行归一化，消除先验偏差
- CPN的通用性：不仅适用于检索，还能增强VQA、captioning等多模态任务中模型对视觉信息的利用
推理流程:
- 视频到文本检索：$n^* = \arg\max_n P(\mathbf{t}^{(n)}|\mathbf{v}) + P(\mathbf{v}|\mathbf{t}^{(n)})$
- 文本到视频检索：$n^* = \arg\max_n P(\mathbf{t}|\mathbf{v}^{(n)}) + P(\mathbf{v}^{(n)}|\mathbf{t})$
- 双向似然联合考虑，候选似然找最可能生成的候选，查询似然找最可能生成查询的候选

损失函数 / 训练策略¶

仅微调线性投影层 + LoRA，参数高效
两阶段检索方案：InternVideo2 1B初检（top-K）→ BLiM精排
推理复杂度从 $O(N^2)$ 降至 $O(KN)$（如ActivityNet上快307倍）

实验关键数据¶

主实验（Text-to-Video R@1）¶

方法	DiDeMo	ActivityNet	LSMDC	MSRVTT	平均
InternVideo2 1B	57.0	60.4	32.0	51.9	50.3
InternVideo2 6B	57.9	63.2	33.8	55.9	52.7
UMT (fine-tuned)	70.4	66.8	43.0	58.8	59.8
InternVideo2 1B* (fine-tuned)	75.3	68.8	44.9	59.4	62.1
BLiM (Ours)	86.4	81.0	55.7	64.7	71.9

消融实验（Video-to-Text R@1, DiDeMo）¶

配置	T2V R@1	V2T R@1	说明
仅候选似然 $P(\mathbf{t}	\mathbf{v})$	-	较低
仅查询似然 $P(\mathbf{v}	\mathbf{t})$	-	较高
双向似然（BLiM-）	69.8	62.9	大幅提升
BLiM + CPN	86.4	82.8	进一步缓解先验偏差

DiDeMo上zero-shot BLiM-（无CPN）即达69.8 T2V R@1，已超越全部fine-tuned基线。

关键发现¶

候选先验偏差在MLLM检索中普遍存在（视频到文本和文本到视频两个方向均受影响）
查询似然单独使用就能得到较准确的检索结果（对角高相似度），但候选似然的高先验候选会扰乱结果
CPN不仅改善检索性能，在VQA等其他多模态任务中也有提升，证明其作为通用去偏差工具的价值
两阶段检索大幅降低计算成本，使MLLM重排切实可行

亮点与洞察¶

对候选先验偏差的formalization非常清晰，Proposition 1严格证明了先验gap超过似然gap时排序会反转
CPN的设计优雅简洁——仅通过attention mask即可无训练地估计先验，然后归一化
文本到视频特征生成的训练目标设计新颖：用对比学习代替真正的视频解码，在LLM输出空间中进行

局限与展望¶

依赖两阶段检索（InternVideo2初检），端到端效率仍有提升空间
文本到视频生成的对比损失需要batch内所有视频作为负样本，可能受batch size影响
当前仅在文本-视频检索上验证，文本-图像检索的效果尚待探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 候选先验偏差的发现和双向似然解决方案都很新颖，CPN设计简洁有效
实验充分度: ⭐⭐⭐⭐ 四个检索基准+多模态任务扩展分析，结果提升显著
写作质量: ⭐⭐⭐⭐⭐ 问题分析深入、理论证明严谨、可视化直观
价值: ⭐⭐⭐⭐⭐ R@1提升6.4的幅度非常大，CPN作为通用模块有广泛应用前景