Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models¶

会议: CVPR 2026
arXiv: 2602.20981
代码: 无（项目页面：https://echoesovertime.github.io）
领域: 语音/音频
关键词: 视频转音频, 长序列生成, 层级网络, Mamba, 多模态对齐

一句话总结¶

提出 MMHNet，一种基于层级结构和非因果 Mamba-2 的多模态层级网络，实现了在短片段（8秒）上训练、在长视频（5分钟以上）上生成高质量对齐音频的长度泛化能力，在 UnAV100 和 LongVale 基准上大幅超越现有方法。

研究背景与动机¶

视频转音频（V2A）生成旨在为无声视频生成语义和时序对齐的音频，在电影制作和游戏领域有重要意义。现有 V2A 方法（如 MMAudio、Diff-Foley）主要针对 8-10 秒的短音频生成进行优化，无法有效推广到长视频场景。

核心矛盾在于：(1) 长音频-视频训练数据稀缺，公开数据集最长通常只到 1 分钟；(2) Transformer 架构依赖位置编码（如 RoPE），当推理序列长度超过训练长度时性能急剧下降；(3) 简单的分段拼接方法会导致音频碎片化、过渡不自然、音质下降。

本文发现问题的根源在于显式位置编码——它们在训练长度固定时有效，但在长度泛化时成为瓶颈。实验显示，去掉位置编码的 MMAudio 生成的声音变得同质化，保留位置编码则在长序列中质量退化（FD_PANN 下降 3-4 分）。因此，核心 idea 是用不需要位置编码的 Mamba-2 替代 Transformer 注意力模块，结合层级 token 路由实现高效长序列处理。

方法详解¶

整体框架¶

MMHNet 想解决的是视频转音频的"长度泛化"：模型只在 8 秒短片段上训练，却要为 5 分钟以上的长视频生成连贯对齐的音频。它在 MMAudio 的多模态 DiT 架构上改造，保留处理音频+视觉+文本的多模态块和只处理音频的单模态块，整体仍用 flow matching 在压缩空间里建模条件速度场、再由 ODE 求解器解出音频。三处关键改动让它摆脱长度限制：把注意力换成不依赖位置编码的非因果 Mamba-2、用时序路由和多模态路由组成层级框架筛掉冗余 token、再靠层级分块和上采样在压缩与原始分辨率之间来回切换。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    C["无声视频 → 多模态条件编码<br/>CLIP 语义 + Synchformer 音视同步 + 文本 CLIP"]
    N["噪声音频隐变量"]
    C --> DS["层级分块·下采样<br/>按边界指示器选 token 压到压缩空间"]
    N --> DS
    DS --> TR["时序路由<br/>掩蔽高相似冗余 token、保留时序边界"]
    TR --> MM["多模态路由<br/>只前传跨模态相似度 ≥0.5 的 token"]
    MM --> CORE["非因果 Mamba-2 核心网络<br/>去位置编码、全方向信息流融合多模态"]
    CORE --> US["层级上采样·去分块<br/>STE 还原到原始分辨率补细节"]
    US -->|flow matching 速度场 + ODE 求解| OUT["长视频对齐音频（≥5 分钟）"]

关键设计¶

1. 非因果 Mamba-2 核心网络：去掉位置编码这个长度瓶颈

作者把长度泛化失败的根源定位到显式位置编码——它在训练长度固定时有效，一旦推理序列超长就成了瓶颈。于是用 Mamba-2 替换 Transformer 的注意力模块，彻底去掉位置编码依赖。但因果 Mamba-2 通过累积乘积建模掩码矩阵，会带来长序列的调制衰减（modulation decay）；非因果版本把掩码定义为变换矩阵的逆，避免累积乘积，实现全方向的信息流动。这样模型推理时能处理任意长度而无需改架构，而且全局隐状态可以同时融合所有模态、不受扫描顺序约束，正适合离线视频条件下的多模态融合。

2. 时序路由层（Temporal Routing）：按相似度滤掉冗余时间步

音视频事件里相邻时间段往往高度冗余（相似的帧和声音），全都算一遍既浪费又稀释了关键时刻。时序路由用相邻 token 之间的余弦相似度识别变化边界：高相似度的 token 判为冗余被掩蔽，低相似度的 token 判为时序边界/事件变化点被保留，从而在不丢事件的前提下压低计算复杂度。

3. 多模态路由层（MM Routing）：只让跨模态相关的 token 前传

不是所有 token 都该参与跨模态对齐，弱相关的 token 反而干扰对齐。MM 路由只选与参考模态相似度 \(\ge 0.5\) 的 token 前向传播，例如让 Synchformer 的音视同步特征与文本条件对齐，把算力集中在真正跨模态相关的位置上、提升对齐效率。

4. 层级分块与上采样：在压缩空间对齐、在原始空间补细节

要让路由筛选不破坏序列结构，需要能压缩又能还原。下采样器按边界指示器直接选出边界位置的 token，把编码器输出压成更少的向量；处理完再由上采样器恢复到原始尺寸，并用 Straight-Through Estimator (STE) 让梯度能穿过这个离散选择操作。于是早期层在压缩空间专注多模态对齐，后期层回到原始空间处理细节，兼顾效率与精度。

损失函数 / 训练策略¶

使用条件 flow matching 目标训练，在 VGGSound 数据集上以 8 秒片段训练，推理时直接推广到任意长度。小模型（S）使用 N=5 多模态块 + N'=4 单模态块（157M 参数），大模型（L）使用 N=10 + N'=7（1.09B 参数）。

实验关键数据¶

主实验¶

数据集	指标	MMHNet-S	MMHNet-L	MMAudio-L	LoVA	HunyuanVideo-Foley
UnAV100	FD_PANNs ↓	5.87	5.29	9.01	7.50	10.28
UnAV100	IB-Score ↑	36.82	36.27	30.71	24.62	32.90
UnAV100	DeSync ↓	0.439	0.410	0.593	1.232	0.757
LongVale	FD_PANNs ↓	10.10	10.03	16.12	21.81	28.00
LongVale	IB-Score ↑	30.62	30.00	21.60	17.04	18.75
LongVale	DeSync ↓	0.438	0.465	0.678	1.233	1.082

消融实验¶

配置	FD_PANNs ↓	IB-Score ↑	DeSync ↓	说明
Transformer (无位置编码)	9.00	28.41	0.638	基线，丧失时序结构
因果 Mamba-2	9.18	33.32	0.497	有方向限制
非因果 Mamba-2	5.87	36.82	0.439	全方向信息流，最佳
非层级 (UnAV100)	6.31	35.00	0.621	不压缩token
层级 (UnAV100)	5.87	36.82	0.439	路由压缩显著提升

关键发现¶

非因果 Mamba-2 在所有指标上显著优于 Transformer 和因果 Mamba-2，尤其在长视频多模态对齐（IB-Score 提升 8+ 分）
层级 token 路由带来一致性改进，在 LongVale 上提升更为明显（IB-Score 从 26.34 到 30.62）
token 选择阈值 0.5 为最优，过高（0.7）会导致灾难性失败
自回归方法（V-AURA）在长度泛化上表现最差，验证了逐步预测的误差累积问题
在 VGGSound（训练测试同长度）上 MMHNet 与 MMAudio 性能持平，证明长度泛化不以牺牲短片段质量为代价

亮点与洞察¶

训练短、测试长的范式：仅用 8 秒短片段训练，即可生成超过 5 分钟的高质量长音频
非因果 Mamba-2 替代位置编码：可迁移到其他需要长度泛化的序列生成任务
层级路由的 token 压缩：通过时序和多模态路由筛选重要 token，既降低计算成本又提升对齐质量
评估方法创新：对长音频采用多段分块评估，避免预训练分类器无法处理长音频的问题

局限与展望¶

生成质量依赖预训练条件特征（CLIP、Synchformer）的质量
仅在音频-视频场景验证，是否适用于其他长序列多模态生成值得探索
层级路由的固定阈值（0.5）可用自适应阈值进一步优化

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究 V2A 的长度泛化问题，非因果 Mamba + 层级路由组合新颖
实验充分度: ⭐⭐⭐⭐⭐ 两个长视频基准 + VGGSound，多维度消融，跨时长分析
写作质量: ⭐⭐⭐⭐ 先导实验 motivate 清晰，架构描述详尽
价值: ⭐⭐⭐⭐ 解决了 V2A 长度泛化的实际瓶颈，对影视/游戏音效生成有直接应用价值