WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=MiV3WXDYJb
代码: https://github.com/TCL606/WAVE （有）
领域: 多模态VLM
关键词: 多模态嵌入, 音视频表示, MLLM嵌入, 跨模态检索, prompt-aware

一句话总结¶

WAVE 基于 Qwen2.5-Omni 把文本、音频、静默视频和同步音视频投影到同一个语义空间，靠"双音频编码器 + 分层全层特征融合 + 联合多模态多任务训练"，做到任意模态间检索（any-to-any）和随指令变化的 prompt-aware 嵌入，在 MMEB-v2 视频赛道刷到 SOTA。

研究背景与动机¶

领域现状：多模态嵌入的主流是 CLIP 式"每个模态一个独立编码器 + 对比学习对齐"。近来 LLM 的崛起带来更整合的范式——用单个多模态 LLM（MLLM）同时为所有模态产出嵌入，天然具备更好的跨模态互通和语义对齐，还能继承指令跟随能力。

现有痛点：绝大多数 MLLM 嵌入工作都集中在视觉、尤其是静态图像上，对音频和同步音视频流严重欠探索。结果是"真正通用的音视频嵌入空间"基本没人做出来。此外，多数嵌入模型在被改造成嵌入器后，其原始 MLLM 的多模态理解能力会明显退化。

核心矛盾：动态模态（音频、视频）是时序信号，既要在统一空间里和文本/彼此对齐，又要保留 MLLM 本身的理解推理能力；而单一静态的嵌入表示对像多模态 QA 这种依赖具体问题的任务又力不从心——同一段视频面对不同问题应该给出不同的表示。

本文目标：做一个统一的音视频嵌入 MLLM，覆盖文本/音频/静默视频/同步音视频四种输入配置，同时支持任意模态间检索与随指令条件化的嵌入。

切入角度：作者押注"联合多模态多任务训练能催生更鲁棒的通用嵌入空间"——让模型同时见到音频、视频、文本数据，使一个模态的知识正向迁移到另一个模态；并利用 MLLM 各层分工不同这一观察，从所有层抽取信息而非只取最后一层。

核心 idea：用一个 MLLM 把异构模态交织成统一 token 序列、对齐时间编码，再聚合所有层的 last-token 经轻量融合得到嵌入，配合检索+QA 的联合训练，让一个模型既会任意检索又能 prompt-aware。

方法详解¶

整体框架¶

WAVE 接收四类输入之一——纯文本、纯视觉（视频帧）、纯音频、同步音视频——输出一个可用于分类/检索/QA 的多模态嵌入。整条流水线是：非文本输入先各走专属编码器变成 token，按交织规则拼成统一序列并附上文本 prompt，套用 TMRoPE 时间对齐位置编码后喂进 LLM；对非文本模态，收集每一层 LLM 的最后一个输出 token、拼接后送进轻量融合模块得到最终嵌入；纯文本输入则保留标准的 last-token pooling（取末层 EOS 隐状态）。关键点在于：所有非文本输入都必须带一段文本 prompt 作为指令，检索任务用通用 prompt（如"Describe the video"），QA 任务用具体问题，这正是 prompt-aware 的来源。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：文本 / 视频 / 音频 / 音视频"] --> B["异构编码 + token 交织<br/>视觉编码器 + 双音频编码器"]
    B --> C["TMRoPE 时间对齐<br/>同帧 token 共享位置编码"]
    C --> D["LLM 逐层前向"]
    D -->|多模态输入| E["分层全层特征融合<br/>聚合各层 last-token + MLP"]
    D -->|纯文本输入| F["last-token pooling"]
    E --> G["统一多模态嵌入"]
    F --> G
    G --> H["联合多模态多任务训练<br/>检索 + QA 对比学习"]

关键设计¶

1. 双音频编码 + 模态交织：把异构时序信号拼成 LLM 能读的统一序列

针对"音频/视频是时序信号、且音频里语音和环境声是互补线索"这一痛点，WAVE 不用单一音频编码器，而是并排一个语音编码器（speech encoder，来自 Qwen2.5-Omni）和一个独立的音频事件编码器（audio encoder，采用 BEATs + 可训练 aligner），分别产出语音相关 token 和音频事件相关 token，覆盖说话内容与背景声响两类互补信息。两个编码器频率相同、token 数相等，于是按 1:1 交织成统一听觉序列；同步音视频时，视觉序列与听觉序列各自按采样帧数切段，再逐段交织，最后把 prompt 的文本 token 接在序列末尾。这样异构信号被组织成 LLM 可直接消费的单一序列，而双编码器让音频表达力比单编码器更全面。

2. TMRoPE 时间对齐：让同一时刻的多模态 token 在位置上严格对齐

音视频是天然同步的，但拼成序列后若位置编码错位，时空结构就被破坏。WAVE 沿用 Qwen2.5-Omni 的 time-aligned multimodal rotary position embedding（TMRoPE）：因为语音和音频编码器被同步到相同输出频率，它们的 token 在时间上天然对齐；属于同一帧的所有 token 共享同一个 TMRoPE，从而保证精确的时间对齐。这一步是双编码器交织能成立的前提——只有时间对齐了，LLM 才能把"这一帧的画面 + 这一帧的声音"当成同一时刻的整体来理解，增强对时空结构的捕捉。

3. 分层全层特征融合：从所有层抽信息而非只取最后一层

标准做法是 last-token pooling，只取最后一层 EOS 隐状态。但作者观察到（引 Gou et al., 2025）LLM 不同层在视频理解上分工不同——底层偏低级感知线索、高层偏高级语义抽象，互补信息分散在深度上。于是 WAVE 收集每一层的 last-token 状态，拼接后送进一个两层 MLP（GELU 激活）的轻量融合模块来精炼压缩，得到最终嵌入。消融证实：只用首层/中层会明显掉点，而全层 MLP 融合稳定超过强的末层基线；相比之下简单的"全层加权和"反而不如末层，说明跨层交互对视频任务是复杂非线性的，需要可学习变换而非线性叠加。

4. 联合多模态多任务训练：用检索 + QA 双任务催生 prompt-aware 的统一空间

WAVE 以对比学习为主范式，用余弦相似度度量任意两个嵌入。训练混合两个互补任务：检索任务里 source 和 target 属于不同模态（可任意组合），用对称 InfoNCE，对小批量内第 $i$ 个样本以 source 嵌入 $e_{s_i}$ 为 query、target $e_{t_i}$ 为正例，批内其余作负例，损失为 $$L_{s_i} = -\log \frac{\exp(\mathrm{sim}(e_{s_i}, e_{t_i})/\tau)}{\sum_{j=1}^{N}\exp(\mathrm{sim}(e_{s_i}, e_{t_j})/\tau)}$$ 再加上反向 $L_{t_i}$ 取双向平均，得 $L_{\text{Retrieval}} = \frac{1}{2N}\sum_i (L_{s_i}+L_{t_i})$，保证双向对齐。QA 任务里 source 是"多模态信号 + 问题 prompt"，target 是正确答案文本，并补充 $n$ 个干扰答案，损失为 $$L_{QA_i} = -\log \frac{\exp(\mathrm{sim}(e_{s_i}, e_{t_i})/\tau)}{\exp(\mathrm{sim}(e_{s_i}, e_{t_i})/\tau) + \sum_{k=1}^{n}\exp(\mathrm{sim}(e_{s_i}, e'_{t_i,k})/\tau)}$$ 迫使模型产出"最贴近正确答案、远离干扰项"的 query 嵌入。一个 task-aware 数据采样器保证同一个 mini-batch 内样本同任务同数据源。两任务并训让模型既学会通用检索表示，又学会随问题变化的判别性嵌入——这正是 prompt-aware 能力的训练来源。

损失函数 / 训练策略¶

分两阶段。先做 BEATs aligner 预训练：冻结其它一切，只更新 aligner，用音频 caption 任务（WavCaps / AudioCaps / Clotho）让 LLM 学会解读 BEATs 特征，128 张 H20 训 3 个 epoch。然后主训练阶段在 4.9M 样本（视频文本检索、视频 QA、视频音频检索、音频文本检索四类任务）上用对比学习，温度 $\tau=0.01$，LLM 用 LoRA（rank=128、scale=2.0、dropout=0.05）微调，可训练部分为视觉 aligner + LoRA + 融合模块，其它冻结；192 张 H20、batch size 192、学习率 $2\times10^{-5}$、1 个 epoch、约 36 小时。

实验关键数据¶

主实验¶

视频赛道（MMEB-v2-Video Overall / LoVR theme-to-clip 的 R@25）：

模型	MMEB-v2-Video Overall	QA	LoVR theme-to-clip
LamRA 7B	35.0	42.6	60.2
GME 7B	38.4	50.4	43.9
CAFe 7B	42.4	58.7	-
Seed-1.6-Embedding（工业级）	55.3	60.9	-
WAVE 7B	59.9	72.5	66.0

WAVE 全面超过开源模型，Overall 甚至反超工业级 Seed-1.6-Embedding。音频/音视频域（R@1 / Acc%）：

任务	数据集	参考模型	WAVE 7B
音频检索 A-RET	AudioCaps	42.2	44.2
音频检索 A-RET	Clotho	21.5	25.6
视频→音频 AV-RET	VGGSound	10.3	25.0
视频→音乐 AV-RET	MusicCaps	8.6	20.4
音频 QA	MMAU	71.5	76.6
音频 QA	MMAR	56.7	68.1

视频→音频/音乐这种绕开文本的高难检索上，WAVE 大幅超过用相同数据训的 encoder-only 检索模型；音频 QA 上超过其基座 Qwen2.5-Omni，而它根本没专门为音频 QA 训练，体现跨模态迁移。

消融实验¶

配置	关键指标	说明
联合训练 Joint	8 任务中 7 项最优	跨模态正迁移
单独训练 Separate	多数任务略低	各模态单独训练
全层 MLP 融合	视频 RET 50.5	完整方案
末层 last-token pooling	49.6	仅末层
全层加权和	48.3	线性叠加反而更差
中层 last-token	45.0	信息不足
首层 last-token	38.8	大幅掉点

QA 上 prompt 的作用极端明显：用"分别的问题"做 prompt，平均 72.5，比 Seed-1.6-Embedding 高约 12%；换成统一通用 prompt（"Please describe the video"）则骤降到 51.8，所有 QA 子集全线塌方。

关键发现¶

prompt-aware 是真有效：同一模型在 QA 上从 51.8（通用 prompt）跳到 72.5（具体问题），证明嵌入确实随指令条件化，而非只编码视频主内容；也暴露"单一静态表示"对复杂 QA 的根本局限。
全层融合需要可学习的非线性：直接加权和（48.3）连末层基线（49.6）都不如，而 MLP 融合（50.5）稳定胜出，说明跨层交互是非线性的。
联合训练带来正迁移：8 个任务里 7 个 Joint 优于 Separate，音频还能反哺视频检索，支持"模型学到的是模态无关的统一语义空间"这一假设。
不退化反提升：WAVE 在多模态理解基准上维持甚至超过基座 Qwen2.5-Omni，区别于多数嵌入模型改造后理解能力明显下滑。

亮点与洞察¶

双音频编码器是被低估的细节：语音 + 音频事件分别编码再 1:1 交织，让"说话内容"和"环境声响"两类互补信息都进入嵌入，这是音频/音视频检索拉开差距的关键，可迁移到任何需要细粒度声学线索的任务。
"所有层都有用"的工程化：把 LLM 各层分工不同的观察落成"全层 last-token 拼接 + MLP 融合"，且用消融排除了简单加权和，提供了一个干净、可复用的 MLLM 嵌入抽取配方。
prompt-aware 把检索器和 QA 判别器统一：同一嵌入空间，换个 prompt 就从"通用检索表示"变成"问题条件化判别表示"，这种"指令即视图"的思路可迁移到任意需要任务自适应表示的检索/重排场景。

局限与展望¶

单一静态嵌入对复杂 QA 力不从心是作者自己点出的现象——prompt-aware 缓解了它，但也意味着没有合适 prompt 时性能会塌（通用 prompt 下 QA 暴跌），实际部署需要保证 query 侧给出有信息量的指令。
规模和成本偏重：基于 7B Qwen2.5-Omni，主训练用 192 张 H20、4.9M 样本，复现门槛高；论文未深入探讨更小模型或更省算力下能否保持优势。
MRET（moment retrieval）是少数没拿到最优的子任务（50.8 低于 Seed 的 53.5），细粒度时间定位可能仍是统一嵌入的弱项。
训练数据里 Panda-70M 的 caption 是用 InternVL-2.5-8B 重标注的，文本质量受标注模型上限制约，可能引入偏置。

评分¶

新颖性: ⭐⭐⭐⭐ 首个覆盖文本/音频/静默视频/同步音视频的统一嵌入 MLLM，双音频编码 + 全层融合组合扎实
实验充分度: ⭐⭐⭐⭐⭐ 视频/音频/音视频多基准 + 联合训练、融合策略、prompt 三组消融，证据链完整
写作质量: ⭐⭐⭐⭐ 结构清晰、公式与消融对得上，部分实现细节需看附录
价值: ⭐⭐⭐⭐ 为通用音视频表示学习立了一个强 baseline，any-to-any 应用前景明确