跳转至

Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval

会议: ICCV 2025
arXiv: 2507.23284
代码: github.com/mlvlab/BLiM
领域: 多模态学习 / 视频检索
关键词: 文本-视频检索, 多模态大语言模型, 双向似然估计, 候选先验偏差, 分数校准

一句话总结

揭示了基于MLLM的检索系统中"候选先验偏差"问题——候选似然估计倾向于选择先验概率高而非语义最相关的候选,提出BLiM(双向似然估计)和CPN(候选先验归一化)模块来解决此问题,在四个文本-视频检索基准上平均R@1提升6.4。

研究背景与动机

文本-视频检索旨在给定视频(或文本)查询后找到最相关的文本(或视频)候选。现有方法的演进: - 双编码器架构(CLIP、BERT):将查询和候选分别编码为单一嵌入,通过相似度检索,计算高效但token级别对齐不足 - MLLM基检索:处理拼接的查询-候选对,实现深层token级交互,对长和复杂的查询-候选对效果更好

然而作者发现MLLM检索中存在候选先验偏差:通过贝叶斯分解, $\(P(\mathbf{t}|\mathbf{v}) = \frac{P(\mathbf{v}|\mathbf{t}) P(\mathbf{t})}{P(\mathbf{v})}\)$ 候选似然 \(P(\mathbf{t}|\mathbf{v})\) 同时受查询似然 \(P(\mathbf{v}|\mathbf{t})\) 和候选先验 \(P(\mathbf{t})\) 影响。MLLM自回归特性倾向于给长且重复的文本分配更高概率(高先验),导致检索结果偏向于高频模式而非真正语义匹配的候选。实验证实:某些高先验文本被37%的视频查询检索到(1003个视频中的374个)。

方法详解

整体框架

BLiM基于预训练视频MLLM(VideoChat-Flash 7B),由UMT视频编码器、线性投影层和Qwen2 LLM组成。推理时采用两阶段检索流程:InternVideo2 1B先检索top-K候选,BLiM再重排序。

关键设计

  1. 双向似然估计训练:

    • 视频到文本生成 \(P(\mathbf{t}|\mathbf{v})\):标准MLLM预训练范式,给定视频特征自回归生成文本 \(\mathcal{L}_{t|v} = -\sum_{i=1}^{L_t} \log P(t_i | t_{<i}, \mathbf{v})\)
    • 文本到视频特征生成 \(P(\mathbf{v}|\mathbf{t})\):给定文本,自回归预测下一个视频clip特征,使用对比softmax \(\mathcal{L}_{v|t} = -\sum_{i=1}^{L_v} \log \frac{\exp(\tilde{v}_{i-1}^\top v_i)}{\sum_{n=1}^{N} \exp(\tilde{v}_{i-1}^\top v_i^{(n)})}\)
    • 总训练目标:\(\mathcal{L}_{BLiM} = \mathcal{L}_{t|v} + \mathcal{L}_{v|t}\)
    • 两个方向的输入模态顺序互换,使用不同的prompt
  2. 候选先验归一化(CPN):

    • 免训练的分数校准模块,通过对输入模态应用attention mask来估计候选先验概率
    • 在计算候选似然时,使用attention mask遮蔽所有查询token,使模型在无查询条件下生成候选,得到先验估计
    • 用估计的候选先验对候选似然进行归一化,消除先验偏差
    • CPN的通用性:不仅适用于检索,还能增强VQA、captioning等多模态任务中模型对视觉信息的利用
  3. 推理流程:

    • 视频到文本检索:\(n^* = \arg\max_n P(\mathbf{t}^{(n)}|\mathbf{v}) + P(\mathbf{v}|\mathbf{t}^{(n)})\)
    • 文本到视频检索:\(n^* = \arg\max_n P(\mathbf{t}|\mathbf{v}^{(n)}) + P(\mathbf{v}^{(n)}|\mathbf{t})\)
    • 双向似然联合考虑,候选似然找最可能生成的候选,查询似然找最可能生成查询的候选

损失函数 / 训练策略

  • 仅微调线性投影层 + LoRA,参数高效
  • 两阶段检索方案:InternVideo2 1B初检(top-K)→ BLiM精排
  • 推理复杂度从 \(O(N^2)\) 降至 \(O(KN)\)(如ActivityNet上快307倍)

实验关键数据

主实验(Text-to-Video R@1)

方法 DiDeMo ActivityNet LSMDC MSRVTT 平均
InternVideo2 1B 57.0 60.4 32.0 51.9 50.3
InternVideo2 6B 57.9 63.2 33.8 55.9 52.7
UMT (fine-tuned) 70.4 66.8 43.0 58.8 59.8
InternVideo2 1B* (fine-tuned) 75.3 68.8 44.9 59.4 62.1
BLiM (Ours) 86.4 81.0 55.7 64.7 71.9

消融实验(Video-to-Text R@1, DiDeMo)

配置 T2V R@1 V2T R@1 说明
仅候选似然 $P(\mathbf{t} \mathbf{v})$ - 较低
仅查询似然 $P(\mathbf{v} \mathbf{t})$ - 较高
双向似然(BLiM-) 69.8 62.9 大幅提升
BLiM + CPN 86.4 82.8 进一步缓解先验偏差

DiDeMo上zero-shot BLiM-(无CPN)即达69.8 T2V R@1,已超越全部fine-tuned基线。

关键发现

  • 候选先验偏差在MLLM检索中普遍存在(视频到文本和文本到视频两个方向均受影响)
  • 查询似然单独使用就能得到较准确的检索结果(对角高相似度),但候选似然的高先验候选会扰乱结果
  • CPN不仅改善检索性能,在VQA等其他多模态任务中也有提升,证明其作为通用去偏差工具的价值
  • 两阶段检索大幅降低计算成本,使MLLM重排切实可行

亮点与洞察

  • 对候选先验偏差的formalization非常清晰,Proposition 1严格证明了先验gap超过似然gap时排序会反转
  • CPN的设计优雅简洁——仅通过attention mask即可无训练地估计先验,然后归一化
  • 文本到视频特征生成的训练目标设计新颖:用对比学习代替真正的视频解码,在LLM输出空间中进行

局限与展望

  • 依赖两阶段检索(InternVideo2初检),端到端效率仍有提升空间
  • 文本到视频生成的对比损失需要batch内所有视频作为负样本,可能受batch size影响
  • 当前仅在文本-视频检索上验证,文本-图像检索的效果尚待探索

相关工作与启发

  • 候选先验偏差与VQA中的language prior(语言偏见)问题本质相近,CPN类似于VCD(Visual Contrastive Decoding)的思路
  • 双向似然可视为一种互信息(pointwise mutual information)的近似估计
  • attention mask估计先验的trick可推广到其他需要去除条件偏差的场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 候选先验偏差的发现和双向似然解决方案都很新颖,CPN设计简洁有效
  • 实验充分度: ⭐⭐⭐⭐ 四个检索基准+多模态任务扩展分析,结果提升显著
  • 写作质量: ⭐⭐⭐⭐⭐ 问题分析深入、理论证明严谨、可视化直观
  • 价值: ⭐⭐⭐⭐⭐ R@1提升6.4的幅度非常大,CPN作为通用模块有广泛应用前景