Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion¶
会议: ECCV 2024
arXiv: 2407.10373
领域: 图像生成
一句话总结¶
提出 MVSD,一个基于扩散模型的互学习框架,将视觉声学匹配(VAM)和去混响作为对称互逆任务联合训练,利用两者的互惠关系克服配对数据稀缺问题,并首次将扩散模型用于视觉引导的混响风格迁移。
研究背景与动机¶
- 视觉声学匹配(VAM)的重要性:在增强现实/虚拟现实中,真实的混响音频对沉浸式体验至关重要,需要根据视觉场景将干净音频转换为相应混响版本
- 去混响的价值:混响会降低语音可理解性和 ASR 系统精度,去混响对电话会议、助听器、语音助手等应用有重要价值
- 现有方法的局限:
- VAM 和去混响被独立研究,忽略了两者之间的固有互惠关系
- 训练需要大量配对数据(干净音频+混响音频),但实际获取困难
- 基于 GAN 的条件生成存在训练不稳定和过度平滑问题
- 核心洞察:去混响是 VAM 的逆任务,两者可以互为评估器提供反馈信号,从而减少对配对数据的依赖
方法详解¶
整体框架¶
MVSD 包含两个基于视觉场景驱动扩散模型的转换器: - Reverberator \(f_\theta\):将干净音频 \(\mathbf{a}_c\) 在视觉场景 \(\mathbf{v}\) 条件下转为混响音频 \(\hat{\mathbf{a}}_r\) - Dereverberator \(g_\phi\):将混响音频 \(\mathbf{a}_r\) 在视觉场景条件下还原为干净音频 \(\hat{\mathbf{a}}_c\)
两者形成闭环:一个的输出作为另一个的输入,互相提供反馈信号。
关键设计¶
互学习机制: - 正向环路(VAM):\(\mathbf{a}_c \xrightarrow{f_\theta} \hat{\mathbf{a}}_r \xrightarrow{g_\phi} \tilde{\mathbf{a}}_c\),计算 \(\tilde{\mathbf{a}}_c\) 与 \(\mathbf{a}_c\) 的误差反馈给 \(f_\theta\) - 反向环路(去混响):\(\mathbf{a}_r \xrightarrow{g_\phi} \hat{\mathbf{a}}_c \xrightarrow{f_\theta} \tilde{\mathbf{a}}_r\),计算 \(\tilde{\mathbf{a}}_r\) 与 \(\mathbf{a}_r\) 的误差反馈给 \(g_\phi\) - 关键优势:这种循环一致性误差不需要 \(\mathbf{a}_c\) 和 \(\mathbf{a}_r\) 对齐,因此可以利用非配对数据
非配对数据利用: - 非配对自然混响音频 \(\mathcal{U} = \{(\mathbf{v}', \mathbf{a}_r')\}\):先去混响再重建,计算循环误差 - 非配对干净音频 \(\mathcal{C} = \{\mathbf{a}_c''\}\):随机采样视觉场景进行混响再去混响,计算循环误差
视觉场景驱动扩散模型(VSD): - 视觉场景编码器:ResNet-18 提取 256 维视觉嵌入作为条件控制 - 可控 Unet:编码器-解码器对称设计,各 3 个注意力块 - 自注意力块使用 stride=4 的空洞卷积快速降低特征图尺寸 - 选择性跨模态注意力:仅在第 3 个编码器块和第 1 个解码器块使用跨模态注意力(视觉↔音频),减少计算开销 - 源频谱图与噪声拼接作为内容输入,保留语言信息
训练策略: - 先用配对数据进行监督训练建立基准 - 训练超过 100 个 epoch 后逐步引入非配对数据 - 在每个 mini-batch 中计算两个转换器的预测并基于对称模型的反馈更新参数
损失函数¶
总损失由三部分组成:
- \(\mathcal{L}_d\):扩散模型噪声预测损失
- \(\mathcal{L}_m\):互学习循环一致性损失(覆盖配对+非配对数据),使用 L1 距离
- \(\mathcal{L}_{sty}\):风格损失,直接 L1 约束预测频谱图与目标频谱图的一致性
实验关键数据¶
主实验¶
VAM 任务对比(SoundSpaces-Speech):
| 方法 | STFT↓ (Seen) | RTE(s)↓ (Seen) | MOSE↓ (Seen) | STFT↓ (Unseen) | RTE(s)↓ (Unseen) |
|---|---|---|---|---|---|
| AV U-Net | 0.638 | 0.095 | 0.353 | 0.658 | 0.118 |
| AViTAR | 0.665 | 0.034 | 0.161 | 0.822 | 0.062 |
| MVSD w/o unpaired | 0.573 | 0.033 | 0.148 | 0.736 | 0.055 |
| MVSD | 0.508 | 0.030 | 0.142 | 0.637 | 0.051 |
去混响任务对比(SoundSpaces-Speech):
| 方法 | PESQ↑ | WER(%)↓ | EER(%)↓ |
|---|---|---|---|
| Reverberant(无处理) | 1.54 | 8.86 | 5.23 |
| MetricGAN+ | 2.33 | 7.49 | 5.16 |
| VIDA | 2.37 | 4.44 | 4.58 |
| MVSD | 2.53 | 4.27 | 4.46 |
消融实验¶
用户研究(VAM 偏好率):
| 对比方法 | SoundSpaces (对方/MVSD) | AVSpeech (对方/MVSD) |
|---|---|---|
| Input Speech | 39.3% / 60.7% | 38.2% / 61.8% |
| Image2Reverb | 20.8% / 79.2% | - |
| AV U-Net | 23.4% / 76.6% | 21.9% / 78.1% |
| AViTAR | 34.7% / 65.3% | 44.1% / 55.9% |
非配对数据和组件消融(从论文表 1 中提取):
| 变体 | STFT↓ (Seen) | RTE(s)↓ | MOSE↓ |
|---|---|---|---|
| w/o visual scene | 0.691 | 0.188 | 0.156 |
| w/o unpaired data | 0.573 | 0.033 | 0.148 |
| MVSD (完整) | 0.508 | 0.030 | 0.142 |
关键发现¶
- MVSD 在 SoundSpaces-Speech Seen 集上实现 23.6% 的 STFT 相对提升(0.665→0.508)和 11.8% 的 RTE 相对提升
- 非配对数据(仅占训练数据 17.3%)可进一步提升 9.1% 的 RTE 性能,证明互学习框架对非配对数据的有效利用
- 去掉视觉场景信息后 RTE 从 0.030 升至 0.188(6.3 倍退化),证明视觉条件对混响风格控制的关键作用
- MVSD 在用户研究中一致优于所有基线,包括 SOTA 方法 AViTAR(65.3% vs 34.7%)
亮点与洞察¶
- 互学习的对偶视角:首次揭示 VAM 和去混响的互惠关系,两个任务互为评估器的设计优雅且高效
- 非配对数据利用:通过循环一致性损失巧妙地利用易获取的非配对数据,实质上是音频领域的 CycleGAN 思想
- 扩散模型替代 GAN:用扩散模型作为条件转换器,解决了 GAN 在声学匹配中的训练不稳定和过度平滑问题
- 选择性跨模态注意力:仅在关键层使用跨模态注意力,在效果和效率间取得平衡
局限性¶
- 推理时间约 1.09 秒,尚无法满足实时应用需求
- 非配对数据的引入依赖训练先收敛到一定程度(>100 epoch),否则可能导致域偏移
- 频谱图级的 L1 风格损失可能不完全捕获感知上的混响特征
评分¶
⭐⭐⭐⭐ (4/5) — 互学习框架设计巧妙,非配对数据利用策略有效,在 VAM 和去混响两个任务上均取得显著提升,但实时性和感知评估方面仍有提升空间