EagleNet: Energy-Aware Fine-Grained Relationship Learning Network for Text-Video Retrieval¶
会议: CVPR 2026
arXiv: 2603.25267
代码: https://github.com/draym28/EagleNet
领域: 多模态VLM / 视频理解
关键词: 文本视频检索, 图注意力网络, 能量模型, 细粒度关系学习, 跨模态对齐
一句话总结¶
EagleNet 通过构建文本-帧关系图并使用关系图注意力网络学习文本-帧和帧-帧之间的细粒度关系,生成融合视频上下文信息的增强文本嵌入,并引入基于能量模型的匹配机制捕获真实文本-视频对分布,在四个基准数据集上取得 SOTA。
研究背景与动机¶
-
领域现状:文本-视频检索(TVR)领域的主流方法大多基于 CLIP 预训练模型,聚焦于学习高质量的视频表征或改进跨模态对齐策略。近期少数工作开始关注文本表达力不足的问题——简短的视频描述难以完整反映视频的丰富语义。
-
现有痛点:
- TMASS、TV-ProxyNet 等方法尝试通过采样或代理方式扩展文本语义,但仅考虑了文本与帧/视频之间的交互
- 完全忽略了视频内部帧与帧之间的关系(frame-frame relations)
- 结果是扩展后的文本嵌入无法捕获帧的上下文信息,导致文本和视频表征之间存在差距
-
核心矛盾:文本语义扩展需要同时理解"每帧说了什么"(文本-帧交互)和"帧之间如何关联"(帧-帧关系),但现有方法只做了前者而忽略了后者,而帧-帧关系对理解视频的全局和时序语义至关重要。
-
本文目标
- 如何生成同时融合文本-帧交互和帧上下文信息的增强文本嵌入?
- 如何从细粒度角度改进跨模态匹配以更精确地捕获真实文本-视频对的分布?
-
切入角度:将文本候选和视频帧视为图节点,建模三种类型的边关系(text-text、text-frame、frame-frame),用关系图注意力网络学习所有关系后聚合为增强文本嵌入。
-
核心 idea:构建文本-帧关系图学习细粒度的文本-帧和帧-帧交互关系,并用基于能量模型的匹配机制捕获真实对分布,从而生成能感知视频上下文的增强文本嵌入。
方法详解¶
整体框架¶
EagleNet 以 CLIP 为骨干网络,包含两个核心模块:(1) Fine-Grained Relationship Learning (FRL) 通过构建文本-帧关系图并用关系图注意力网络学习细粒度关系,生成上下文感知的增强文本嵌入;(2) Energy-Aware Matching (EAM) 使用基于能量的模型建模细粒度的文本-帧互动能量,辅助学习真实文本-视频对分布。最终采用 sigmoid loss 替代传统的 softmax 对比损失进行更稳定的跨模态对齐。
关键设计¶
-
Fine-Grained Relationship Learning (FRL):
- 功能:生成融合帧上下文信息的增强文本嵌入
- 核心思路:首先通过随机文本建模策略采样 \(S=20\) 个文本候选 \(\{\mathbf{t}_i^{sto}\}\),连同原始文本嵌入和 \(M\) 个帧嵌入(加时序位置编码)一起构成节点矩阵 \(\mathbf{X} \in \mathbb{R}^{n \times d}\),其中 \(n = 1 + S + M\)。然后通过设计的 Relational Graph Attention Network (RGAT) 学习三种关系类型(text-text、frame-frame、text-frame)的注意力权重。RGAT 对每种关系 \(r\) 和每对节点 \((i,j)\) 计算边权重 \(e_{ij}^{r,h} = \psi^r([\mathbf{W}^{r,h}\mathbf{h}_i \| \mathbf{W}^{r,h}\mathbf{h}_j])\),经 LeakyReLU 和 softmax 得到注意力分数。最终提取文本-帧边权重,平均后对文本节点加权聚合得到增强文本 \(\mathbf{t}^{gen} = \sum_i w_i \mathbf{X}_i\)
- 设计动机:与仅考虑文本-帧交互的 TMASS 等方法不同,FRL 通过引入 frame-frame 关系使文本嵌入能感知帧间的上下文依赖,有效抑制冗余信息和噪声
-
Energy-Aware Matching (EAM):
- 功能:从细粒度角度增强文本-帧关系学习,精确建模真实文本-视频对的分布
- 核心思路:用 Boltzmann 分布 \(p_\theta(\mathbf{t}, \mathbf{F}) = \frac{\exp(-E_\theta(\mathbf{t}, \mathbf{F}))}{Z_\theta}\) 对文本-视频对的联合分布建模。文本-视频能量定义为文本-帧能量的平均值 \(E_\theta(\mathbf{t}, \mathbf{F}) = \frac{1}{M}\sum_i^M E_\theta(\mathbf{t}, \mathbf{f}_i)\),从而充分利用细粒度交互。能量函数可选择负余弦相似度、双线性评分或 MLP。通过负对数似然损失训练,使用 \(K=20\) 步 MCMC Langevin 采样生成假文本-视频对。EAM 仅在训练时使用,不增加推理成本
- 设计动机:全局的对比损失只对齐文本与视频整体,EAM 通过能量模型在细粒度层面精确捕获文本-帧的详细交互模式
-
Sigmoid Loss 替代 Softmax Loss:
- 功能:提供更有效的跨模态对齐和更稳定的训练
- 核心思路:\(\mathcal{L}_{sig} = -\frac{1}{B}\sum_i\sum_j \log\frac{1}{1 + e^{\mathbb{I}_{ij}(\tau \cdot s(\mathbf{t}_i, \mathbf{v}_j) + b)}}\),其中 \(\mathbb{I}_{ij}\) 为正负对指示符,\(\tau\) 和 \(b\) 为可学习参数
- 设计动机:softmax loss 在 batch 相似度矩阵的两个维度上做归一化,对负样本和 batch size 敏感;sigmoid loss 独立处理每对样本,天然适合 TVR 中"一个文本可能语义匹配多个视频"的多匹配场景
损失函数 / 训练策略¶
总训练目标:\(\mathcal{L}_{total} = \mathcal{L}_{sig}(\mathbf{t}^{gen}, \mathbf{v}) + \lambda_{sup}\mathcal{L}_{sig}(\mathbf{t}^{sup}, \mathbf{v}) + \lambda_{eam}\mathcal{L}_{eam}\)
其中 \(\lambda_{sup} = 0.8\),\(\lambda_{eam} = 1.0\)。使用 CLIP ViT-B/32 或 ViT-B/16 初始化,CLIP 模块学习率 \(10^{-7}\),非 CLIP 模块学习率 \(10^{-4}\),batch size 64,训练 5 个 epoch。
实验关键数据¶
主实验 — MSRVTT (ViT-B/16)¶
| 方法 | T2V R@1↑ | T2V R@5↑ | T2V R@10↑ | V2T R@1↑ | Rsum↑ |
|---|---|---|---|---|---|
| CLIP4Clip | 45.2 | 72.2 | 81.4 | 42.9 | 393.2 |
| XPool | 49.2 | 73.9 | 82.6 | 48.0 | 411.5 |
| GLSCL | 49.9 | 76.3 | 84.1 | 48.3 | 419.0 |
| Video-ColBERT | 50.0 | 76.3 | 84.3 | 47.9 | 417.8 |
| EagleNet | 51.0 | 76.2 | 85.6 | 49.2 | 425.7 |
主实验 — DiDeMo & MSVD (ViT-B/16)¶
| 方法 | DiDeMo R@1↑ | MSVD R@1↑ | VATEX R@1↑ | Rsum↑ |
|---|---|---|---|---|
| TV-ProxyNet | 47.9 | 49.7 | 64.0 | 676.6 |
| TempMe | 50.2 | - | - | - |
| EagleNet | 51.5 | 50.9 | 63.6 | 687.7 |
消融实验¶
| 配置 | MSRVTT R@1↑ | DiDeMo R@1↑ | 平均 R@1↑ |
|---|---|---|---|
| Baseline (TMASS) | 48.5 | 42.1 | 45.3 |
| + FRL | 48.8 | 47.9 | 48.4 |
| + EAM | 49.0 | 43.4 | 46.2 |
| + FRL + EAM | 50.5 | 49.2 | 49.9 |
| + Sigmoid Loss | 47.8 | 43.9 | 45.9 |
| + FRL + EAM + Sigmoid (Full) | 51.0 | 51.5 | 51.3 |
关键发现¶
- FRL 对 DiDeMo 提升最大:单独加 FRL 使 DiDeMo R@1 从 42.1 大幅提升到 47.9(+5.8),说明帧间关系建模对长视频尤为重要
- 三个组件互补性强:单独使用任一组件提升有限,但三者组合后 MSRVTT R@1 提升 2.5%,DiDeMo 提升 9.4%
- 能量函数选择:Bilinear 和 MLP 效果接近且优于 CosSim,说明可学习参数有助于更准确地建模文本-帧能量
- Avgpool 聚合帧能量最优:优于 Maxpool、Minpool 和直接用视频级能量 \(E_\theta(\mathbf{t}, \mathbf{v})\)
亮点与洞察¶
- 帧-帧关系建模用于文本语义扩展:这是一个巧妙的洞察——扩展文本语义时不仅要考虑"文本与每帧的对应",还要考虑"帧之间的上下文关系",后者能帮助文本嵌入捕获视频的全局和时序语义
- 首次将 EBM 引入 TVR:能量模型天然适合细粒度的匹配建模,通过 MCMC 采样生成假对来训练能量函数,且仅在训练时使用不增推理开销
- 修正了 TMASS 代码中的数据泄露问题:这种严谨的实验态度值得称赞,重新实现了多个基线方法确保公平比较
局限与展望¶
- RGAT 的设计相对简单,可以探索更高级的图 Transformer 架构
- 文本候选的采样策略(随机高斯采样)比较粗糙,可以考虑基于语义的定向采样
- EAM 的 MCMC 采样步数 K=20 对训练速度有影响,可以探索更高效的采样策略
- 当前主要在短视频数据集上验证,长视频场景的效果待验证
相关工作与启发¶
- vs TMASS: TMASS 仅通过文本-视频相似度来确定随机文本采样的半径,忽略帧间关系;EagleNet 通过构建关系图显式建模帧-帧关系
- vs TV-ProxyNet: TV-ProxyNet 用视频感知的 directors 将文本转为特定代理,但同样忽略帧间上下文;EagleNet 在关系学习中同时建模文本-帧和帧-帧关系
- vs Video-ColBERT: 两者都使用 sigmoid loss,但 EagleNet 额外引入 FRL 和 EAM 在结构化关系学习和细粒度能量匹配方面更深入
评分¶
- 新颖性: ⭐⭐⭐⭐ 将关系图学习和能量模型有机结合到 TVR 中是新颖的尝试
- 实验充分度: ⭐⭐⭐⭐⭐ 四个数据集、两个 CLIP backbone、详尽的消融和多种设计变体分析
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,但公式较多需要仔细阅读
- 价值: ⭐⭐⭐⭐ 在竞争激烈的 TVR 领域取得一致性的 SOTA 改进