SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval¶

信息	内容
会议	CVPR 2026
arXiv	2603.08224
领域	人体理解
关键词	视频-文本检索, 语音感知, 音视频融合, soft-ALBEF, 多模态学习

一句话总结¶

提出 SAVE 方法，通过添加专用语音分支（Whisper ASR + CLIP 文本编码器）和 soft-ALBEF 视觉-音频早期对齐策略，实现语音感知的视频表示学习，在五个视频-文本检索基准上全面超越 SOTA。

研究背景与动机¶

视频-文本检索（VTR）领域普遍采用 CLIP 作为基础，但由于 CLIP 仅提供图像和文本编码器，现有方法自然忽略了视频的声音轨道。近期音视觉方法（EclipSE、TEFAL、AVIGATE）引入音频编码器，但存在两个关键问题：

音频编码器无法有效表征语音内容：现有音频编码器（ResNet-18、AST）是在环境声音数据集上训练的，对语音语义的编码效果很差。作者通过一个实验证明：在 AST 的特征空间中，不同类别的语音样本完全混杂在一起，无法区分

视觉-音频融合前缺乏对齐：视觉特征（CLIP 图像编码器）和音频特征（AST）从未经过预对齐，直接融合效果受限。虽然 ALBEF（先对齐再融合）已在视觉-语言预训练中成功，但视频-音频对往往缺乏语义对应关系（如背景音乐与视频内容无关），直接套用 hard ALBEF 会引入虚假关联

方法详解¶

整体框架¶

SAVE 想解决的是：现有音视觉检索方法虽然引入了声音，却把视频里说了什么这条语义白白丢掉。它的做法是在 AVIGATE 的「视觉 + 音频」双分支上再挂一条语音分支，把三路信号融合成一份「语音感知」的视频表示，再去和文本查询做检索。

整条管线这样走：视觉分支用 CLIP ViT-B/32 抽帧特征 \(\{v_i\}\)；音频分支把 AST（冻结）抽出的音频 token 过 Resampler，再经 Gated-Fusion 与视觉 token 融合得到 \(\{\hat{a}_i\}\)；新增的语音分支先用 Whisper large-v3 把语音转成 ASR 文本，送进 CLIP 文本编码器得到语音 token \(\{s_i\}\)，同样经 Gated-Fusion 得到 \(\{\hat{s}_i\}\)。三路最终合成语音感知的视频表示 \(\{\tilde{v}_i\} = \{v_i\} + (\{\hat{a}_i\} + \{\hat{s}_i\})/2\)，整个检索仍在 CLIP 的视觉-文本空间里完成。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    V["输入视频"] --> VIS["视觉分支<br/>CLIP ViT-B/32 抽帧 → {v_i}"]
    V --> MISS["缺失数据处理<br/>无声→零 Mel；ASR 失败→零向量"]
    MISS --> AUD["音频分支<br/>AST(冻结) → Resampler → 音频 token"]
    MISS --> SPE["语音分支<br/>Whisper ASR → CLIP 文本编码器 → 语音 token"]
    VIS -.->|Soft-ALBEF 早期对齐| AUD
    AUD --> GFA["Gated-Fusion<br/>与视觉 token 融合 → {â_i}"]
    SPE --> GFS["Gated-Fusion<br/>与视觉 token 融合 → {ŝ_i}"]
    VIS --> FUSE["三分支融合与权重设计<br/>{ṽ_i} = {v_i} + ({â_i}+{ŝ_i})/2"]
    GFA --> FUSE
    GFS --> FUSE
    FUSE --> RET["与文本查询检索<br/>(CLIP 视觉-文本空间)"]

关键设计¶

1. 三分支融合与权重设计：把语音语义单独拎成一路，又不让它喧宾夺主

现有音频编码器（ResNet-18、AST）在环境声数据集上训练，对「说了什么」几乎无能为力——作者的 toy 实验里，不同类别的语音在 AST 特征空间中完全混作一团。SAVE 干脆绕开这条路，不再指望音频编码器去理解语音，而是借 Whisper 把语音转成文字、再交给 CLIP 文本编码器编码，这样语音语义就被映射回了 CLIP 本就对齐好的视觉-文本空间。融合时刻意让视觉项 \(\{v_i\}\) 以原始权重为主导，语音与音频则取等权平均 \((\{\hat{a}_i\} + \{\hat{s}_i\})/2\)：视觉是检索的主信号所以权重大，语音和音频谁更重要事先并无先验，于是等权交给 Gated-Fusion 自己去学哪一路该被放大。

2. Soft-ALBEF 早期对齐：用软标签躲开视频-音频之间的虚假关联

视觉特征和音频特征在融合前从未对齐过，直接融合效果受限。ALBEF 那套「先对齐再融合」在视觉-语言预训练里很成功，但照搬不行——视频和它的声轨常常并无语义对应（背景音乐和画面内容毫不相干），hard ALBEF 会把这种不相干的对硬拉到一起，引入虚假关联。SAVE 的办法是把硬标签换成软标签：用 ImageBind 预先算出一份视频-音频亲和力矩阵 \(M_0\) 当监督信号，让网络自己的亲和力矩阵 \(M_1\) 去逼近它的相对结构，而不是逼成 0/1：

\[\ell_{\text{pearson}} = \frac{1}{b}\sum_{i=1}^{b} d_p(\sigma(M_0[i,\cdot]), \sigma(M_1[i,\cdot])) + \frac{1}{b}\sum_{j=1}^{b} d_p(\sigma(M_0[\cdot,j]), \sigma(M_1[\cdot,j]))\]

其中 \(d_p\) 是 Pearson 距离。这里特意用 Pearson 而非 MSE/Huber，是因为它对尺度和位移变化不敏感，网络只需学到「哪些视频-音频对相对更相关」这套排序结构，而不必死磕绝对数值——对于本就带噪的跨模态对应关系，这种宽容度正好避免把噪声当成硬标签去拟合。

3. 缺失数据处理：让没声音、识别不出来的样本也能正常走完管线

真实视频里不是每条都有声轨、也不是每段语音都能被 ASR 识别。SAVE 对这两种缺失各给一个零值占位：完全无声的视频把 Mel 滤波器组置零；ASR 识别失败的就用空字符串，tokenizer 把它填成零向量。这样缺失样本既不会中断 batch，也不会给融合贡献误导信号。

损失函数 / 训练策略¶

Pearson 距离损失作为辅助目标，与 AVIGATE 原有的自适应边距对比损失等权相加。微调时给 CLIP 主干一个很小的学习率 1e-7、其余模块用 1e-4，以防主干发生灾难性遗忘。训练在 8× RTX 3090 上完成。

实验关键数据¶

主实验：文本到视频检索 SumR¶

方法	MSRVTT-9k	MSRVTT-7k	VATEX	Charades	LSMDC	mR1
CLIP4Clip	197.5	150.1	248.5	107.6	112.7	35.1
PIG	203.0	157.1	252.1	-	-	-
AVIGATE	207.7	162.7	249.3	110.6	125.7	37.9
SAVE	216.2	165.8	255.5	121.4	128.3	39.6

SAVE 相比 AVIGATE 的 SumR 提升：MSRVTT-9k +8.5, VATEX +6.2, Charades +10.8。

分组分析（MSRVTT-9k）¶

组别	SAVE vs AVIGATE SumR差
视觉相关 (499例)	正提升
声音相关 (226例)	+11.5
语音相关 (171例)	+12.9
声音+语音相关 (104例)	+16.4

效率分析¶

方法	计算复杂度	推理时间	SumR
TEFAL	\(O(n_{\mathcal{A}} n_{\mathcal{T}} + n_{\mathcal{V}} n_{\mathcal{T}})\)	140.57ms	209.2
AVIGATE	\(O(n_{\mathcal{A}} + n_{\mathcal{V}} + n_{\mathcal{T}})\)	9.90ms	207.7
SAVE	\(O(n_{\mathcal{S}} + n_{\mathcal{A}} + n_{\mathcal{V}} + n_{\mathcal{T}})\)	9.90ms	216.2

SAVE 保持与 AVIGATE 相同的推理延迟（9.90ms），因为视频特征可离线提取。

消融：语音分支 vs 音频分支¶

去掉语音分支：SumR -4.3
去掉音频分支：SumR -8.7
两者均有贡献，音频分支影响更大因数据集中声音相关查询更多

亮点与洞察¶

问题洞察精准：通过 toy 实验直接展示 AST 在语音特征空间中的聚类失败，动机非常有说服力
语音分支设计优雅：Whisper ASR → CLIP 文本编码器的流水线巧妙利用了 CLIP 的文本-视觉对齐能力来编码语音
soft-ALBEF 通用性强：用 ImageBind 提供噪声容忍的软监督信号，解决了视觉-音频对缺乏对应关系的根本问题
零额外推理成本：所有新增计算可离线完成
Charades 上的惊人提升：即使仅 13.5% 视频有 ASR 文本，SumR 仍提升 10.8，说明 soft-ALBEF 有效利用了声音模态

局限性¶

仅在短视频片段上验证，长视频（如电商直播）中 ASR 文本通常更长更噪
依赖 Whisper 的 ASR 质量，非英语语言场景可能效果不同
使用 ViT-B/32，未探索更大骨干（受 GPU 预算限制）
ImageBind 用于 soft-ALBEF 引入额外离线计算成本
对于完全无声视频的提升空间有限

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
实验	⭐⭐⭐⭐⭐
写作	⭐⭐⭐⭐⭐
综合价值	⭐⭐⭐⭐