跳转至

Learning Trimodal Relation for Audio-Visual Question Answering with Missing Modality

会议: ECCV 2024
arXiv: 2407.16171
领域: 图像生成

一句话总结

提出基于三模态关系的缺失模态 AVQA 框架,通过 RMM 生成器召回缺失模态特征并用 AVR 扩散模型跨模态增强,即使音频或视觉缺失也能准确回答问题。

研究背景与动机

现有音频-视觉问答(AVQA)方法依赖完整的视觉和音频输入,但在真实场景中设备故障、数据传输错误等常导致某一模态缺失。此时现有方法性能严重下降。已有缺失模态方法多处理一对一的模态对,忽视了不同模态之间的相互依赖关系,尤其无法灵活地根据问题上下文生成伪特征。

本文受人类认知心理学启发——人类可以通过音视觉整合来回忆缺失信息——提出了一种新的 AVQA 框架来应对缺失模态问题。

方法详解

整体框架

系统由三个核心组件构成: 1. Relation-aware Missing Modal (RMM) 生成器:利用可用的两种模态(如视觉+文本)来召回缺失模态(如音频)的伪特征 2. Audio-Visual Relation-aware (AVR) 扩散模型:将伪特征与真实特征拼接,通过扩散过程跨模态增强特征表示 3. AVQA 骨干网络:接收增强后的特征进行问答预测

关键设计

RMM 生成器采用基于 slot 的架构,每种模态由 L 个可学习参数向量表示。通过 addressing vector 机制,计算可用模态特征与 slot 之间的相关性,利用 element-wise 乘法融合视觉-文本 addressing vector,再对缺失模态的 slot 加权求和得到伪特征。三种模态的生成器共享权重。

AVR 扩散模型将音频特征和视觉特征拼接为联合特征,经过前向加噪和反向去噪过程,学习利用跨模态互补信息来增强特征表示。训练时使用真实特征对,推理时使用伪特征与真实特征的组合。

损失函数

总损失函数包含三部分:

\[\mathcal{L}_{Total} = \mathcal{L}_{avqa} + \lambda_1 \mathcal{L}_{rmmr} + \lambda_2 \mathcal{L}_{ave}\]
  • \(\mathcal{L}_{rmmr}\):关系感知缺失模态召回损失,L2 约束伪特征逼近真实特征
  • \(\mathcal{L}_{ave}\):音视觉增强损失,标准扩散去噪损失
  • \(\mathcal{L}_{avqa}\):三组交叉熵损失(完整输入、音频缺失、视觉缺失)

超参数设置 \(\lambda_1 = \lambda_2 = 1\),RMM slot 数 \(L=75\),扩散步数 \(T=10\)

实验关键数据

主实验

在 MUSIC-AVQA 数据集上,各 AVQA 网络 + Ours 的结果(All Avg 准确率 %):

方法 视觉缺失 (原始) 视觉缺失 (+Ours) 音频缺失 (原始) 音频缺失 (+Ours)
AVSD 59.25 68.91 41.08 69.90
Pano-AVQA 51.14 67.87 42.91 69.90
AVST 59.14 67.98 36.60 69.71
PSTP-Net* 59.27 66.39 67.74 71.55

音频缺失场景提升尤为显著,AVST 从 36.60% 提升至 69.71%(+33.11%)。

消融实验

与其他缺失模态处理方法在 MUSIC-AVQA 上的对比(基于 AVST 骨干,All Avg %):

方法 视觉缺失 音频缺失
ActionMAE 64.12 65.38
ShaSpec 63.87 66.21
Missing-aware Prompting 65.44 67.13
Ours 67.98 69.71

关键发现

  • 音频缺失场景下改进更大,说明视觉模态包含更多可用于跨模态召回的信息
  • RMM 生成器通过三模态关系比单一模态对的方法更有效
  • AVR 扩散模型能进一步增强伪特征和真实特征的表示质量
  • 方法可灵活集成到多种 AVQA 骨干网络中

亮点与洞察

  • 首次在 AVQA 任务中同时解决双向缺失模态(音频缺失和视觉缺失)
  • slot-based addressing 机制优雅地利用三模态关系生成伪特征
  • 扩散模型用于特征增强而非图像生成是有创意的应用
  • 通用框架可插拔到现有 AVQA 网络,实用性强

局限性

  • 仅处理单一模态缺失,未考虑多模态同时缺失的极端场景
  • 扩散过程增加了推理时间开销
  • 伪特征质量受 slot 数量 L 和训练数据分布影响

评分

⭐⭐⭐⭐ 创新性强,实验充分,缺失模态场景实用价值高