Learning Audio-Guided Video Representation with Gated Attention for Video-Text Retrieval¶

会议: CVPR 2025
arXiv: 2504.02397
代码: https://github.com/ (项目主页: http://cvlab.postech.ac.kr/research/AVIGATE)
领域: 视频理解 / 多模态
关键词: 视频-文本检索, 音频引导, 门控注意力, 对比学习, 多粒度对齐

一句话总结¶

提出 AVIGATE 框架，通过门控注意力机制选择性地融合音频与视觉信息（过滤无用音频噪声），并设计自适应间距对比损失处理视频-文本之间模糊的正负关系，在多个视频-文本检索基准上取得 SOTA。

研究背景与动机¶

领域现状：视频-文本检索主要依赖视觉和文本特征进行跨模态对齐，大量方法基于 CLIP 预训练特征构建多粒度匹配方案（如 CLIP4Clip、X-Pool、UATVR 等），在检索精度上持续提升。

现有痛点：视频中的音频信号（如说话人身份、背景声音、情绪线索等）被大多数方法忽略。少数利用音频的方法（如 ECLIPSE、TEFAL）盲目地假设音频总是有帮助的，但现实中许多视频的音频是无关的背景音乐或噪声，盲目融合反而会损害视频表征质量。此外，TEFAL 需要文本和视频/音频联合处理，导致检索时每来一个新 query 都要重新跑整个数据库，效率极低。

核心矛盾：音频模态对视频理解确实有价值（如对话内容、环境声音），但并非所有视频的音频都是有用的——存在"信息性音频 vs 噪声音频"的区分问题，现有方法缺乏对音频质量的动态判断。

本文目标 (1) 如何动态判断音频是否有用并选择性融合；(2) 如何在对比学习中更好地处理语义相近的负样本对。

切入角度：作者观察到，视觉-音频的相关性在不同视频中差异很大，因此可以设计一个门控机制来"自动调节音频的贡献权重"——当音频有信息量时放大其影响，当音频是噪声时关闭其通道。

核心 idea：用门控注意力机制动态过滤音频噪声，并用自适应间距对比损失感知负样本之间的语义亲近度，实现高效且精准的视频-文本检索。

方法详解¶

整体框架¶

AVIGATE 使用三个独立编码器分别处理三种模态：CLIP 图像编码器提取帧级嵌入，CLIP 文本编码器提取文本嵌入，AST（Audio Spectrogram Transformer）提取音频嵌入。音频嵌入经过 audio resampler 压缩到固定数量的 token 后，与帧嵌入一起输入门控融合 Transformer，输出最终的视频表征，再通过多粒度对齐方案与文本嵌入计算相似度。

关键设计¶

Audio Resampler（音频重采样器）:
- 功能：将 AST 输出的密集音频嵌入压缩为固定长度 \(M\) 个嵌入
- 核心思路：使用基于 query 的 Transformer，以 \(M\) 个可学习 query 嵌入通过交叉注意力机制从原始音频嵌入中提取信息。这样既保留了关键音频特征，又大幅降低了后续融合的计算量。AST 参数在训练中冻结。
- 设计动机：音频采样率远高于视频帧率，直接融合所有音频 token 计算开销太大，需要一个信息压缩层。
Gated Fusion Transformer（门控融合 Transformer）:
- 功能：将音频嵌入与帧嵌入进行选择性融合，动态决定音频的贡献程度
- 核心思路：由 \(L\) 层 Gated Fusion Block 组成。每层包含"融合过程"和"精炼过程"。融合过程中，帧嵌入作为 query、音频嵌入作为 key/value 进行多头交叉注意力，输出乘以门控分数 \(g_{\text{mha}}\) 后加残差；再经 FFN 并乘以 \(g_{\text{ffn}}\)。精炼过程通过自注意力进一步增强帧间关系。门控分数由 Gating Function 生成：将音频和帧嵌入分别平均池化后拼接，通过两个独立 MLP + tanh 激活得到两个标量门控值。当门控分数高时强调音频贡献，低时保护视觉内容不受噪声干扰。
- 设计动机：和 ECLIPSE/TEFAL 的静态融合不同，门控机制让模型学会"什么时候该听音频、什么时候该忽略音频"，解决了噪声音频干扰的核心问题。
Adaptive Margin-based Contrastive Loss（自适应间距对比损失）:
- 功能：在对比学习中为每对负样本动态设置不同的 margin
- 核心思路：对每对负样本 \((V_i, T_j)\)，计算视觉模态内相似度 \(c_{ij}^v\) 和文本模态内相似度 \(c_{ij}^t\)，然后令自适应间距 \(m_{ij} = \min(\lambda(1 - (c_{ij}^v + c_{ij}^t)/2), \delta)\)。语义越不相似的负样本 margin 越大，迫使模型拉开它们的距离；语义相近的负样本 margin 较小，避免过度挤压造成泛化性下降。
- 设计动机：传统对比损失对所有负样本一视同仁，但实际中许多"负样本"之间存在语义关联（如两段描述类似场景的视频），固定 margin 会迫使这些语义相关的样本也被推得很远，影响泛化。

损失函数 / 训练策略¶

最终损失为双向对比损失（video-to-text + text-to-video），每个方向都在负样本相似度上加了自适应间距 \(m_{ij}\)。相似度分数通过多粒度对齐方案计算：全局对齐（帧嵌入平均池化后与文本余弦相似度）+ 局部对齐（每帧与文本的相似度用 log-sum-exp 聚合）。

实验关键数据¶

主实验¶

数据集	指标	AVIGATE	之前SOTA (UATVR)	提升
MSR-VTT (ViT-B/16)	T2V R@1	52.1	50.8	+1.3
MSR-VTT (ViT-B/16)	V2T R@1	51.2	48.1	+3.1
MSR-VTT (ViT-B/16)	RSum	429.0	422.4	+6.6
MSR-VTT (ViT-B/32)	T2V R@1	50.2	47.5	+2.7
MSR-VTT (ViT-B/32)	V2T R@1	49.7	46.9	+2.8

消融实验¶

配置	RSum (MSR-VTT)	说明
Full model (AVIGATE)	429.0	完整模型
w/o audio	~422	去掉音频融合，退化为纯视觉-文本模型
w/o gating (blind fusion)	~420	去掉门控，盲目融合音频反而降低性能
w/o adaptive margin	~425	使用固定 margin 对比损失，性能下降

关键发现¶

门控机制是关键：盲目融合音频反而不如纯视觉模型，门控机制让音频融合真正带来正向增益
自适应 margin 相比固定 margin 和无 margin 均有提升，在语义相近样本多的数据集上优势更明显
AVIGATE 保持了高检索效率——视频和文本独立编码，不需要像 TEFAL 那样每个 query 都重新跑数据库

亮点与洞察¶

门控融合设计非常巧妙：用 tanh 激活的标量门控值来调控音频影响，简洁有效地解决了"音频何时有用"的判断问题。这个思路可以迁移到任何多模态融合场景中，只要存在"某个模态不总是有用"的情况。
自适应间距的核心insight：模态内相似度可以作为跨模态语义关联的代理信号——视觉上相似的视频，其对应文本也倾向于语义相近。这个 prior 让 margin 的设计有了合理依据。
多粒度对齐 + 独立编码的组合确保了检索效率和精度的良好平衡，在实际部署中很重要。

局限与展望¶

仅在检索任务上验证，未测试在视频字幕生成、视频问答等下游任务中音频门控融合的效果
门控分数是一个全局标量，不能对音频的不同时段/频段进行细粒度的选择
音频编码器 AST 冻结不训练，可能导致音频表征与 CLIP 空间不完全对齐
未探索更强的音频-文本直接交互（本文音频仅与视觉融合，不直接与文本匹配）

评分¶

新颖性: ⭐⭐⭐⭐ 门控融合和自适应 margin 各有创新但整体偏增量
实验充分度: ⭐⭐⭐⭐ 多个基准+消融较完整，但缺乏门控分数的可视化分析
写作质量: ⭐⭐⭐⭐ 结构清晰、图示直观
价值: ⭐⭐⭐⭐ 门控融合思路有实用价值，可迁移到其他多模态场景