Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering¶

会议: ICLR 2026
arXiv: 2601.19821
代码: 发表后公开
领域: 音频语音
关键词: Audio-Visual QA, 频域交互, Query引导, 空间-时序感知, 多模态推理

一句话总结¶

提出 QSTar 框架，通过在整个处理流程中嵌入问题引导（Query Guidance），并引入空间-时序-频域三维度交互模块（特别是利用频谱特征区分音色），显著提升了音乐场景下的音频-视觉问答（Music AVQA）性能。

研究背景与动机¶

AVQA 任务的挑战：音频-视觉问答需要联合理解听觉、视觉和文本信息，比纯视觉 QA 更具挑战性，因为声音线索在很多场景下比视觉线索更关键

音频模态被低估：现有 AVQA 方法（PSTP、APL 等）主要聚焦视觉信息处理，音频仅作为视频分析的"补充"，其独特频域特征未被充分利用

问题信息参与不足：文本问题通常仅在推理的最后阶段通过简单乘法融入，导致音频-视觉表示缺乏语义针对性

频域分析的必要性：管弦乐器（如长笛、单簧管）的视觉线索可能非常微妙（演奏动作极小），但其频谱特征（泛音分布、谐波结构）截然不同，频域分析对区分音色至关重要

复调场景的挑战：多乐器同时演奏时，仅靠时域或空间特征无法有效区分不同乐器的贡献

方法详解¶

整体框架¶

QSTar 的核心想法是让问题语义从头到尾参与音频-视觉特征的塑造，而不是像以往那样只在推理末端做一次简单融合。它把这条主线拆成三个串联模块：先用 QGMC 在早期就把问题语义打进音频和视觉特征里，再用空间-时序-频域三维交互（STI + TFI）从「哪里发声、何时发声、是什么音色」三个角度互相对齐，最后用 QCR 注入任务属性 prompt 完成精确推理。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    V["视觉流<br/>CLIP-ViT-L/14"]
    A["音频流<br/>VGGish + AST"]
    Q["文本问题"]
    QGMC["Query-Guided Multimodal Correlation<br/>问题语义早期注入<br/>self-enhance→capture→propagate"]
    V --> QGMC
    A --> QGMC
    Q --> QGMC
    subgraph STFI["空间-时序-频域交互"]
        direction TB
        STI["Spatial-Temporal Interaction<br/>哪里发声 / 何时发声"]
        TFI["Temporal-Frequency Interaction<br/>AST 频谱区分音色"]
    end
    QGMC --> STI
    QGMC --> TFI
    QCR["Query Context Reasoning<br/>属性 prompt 精炼推理"]
    STI --> QCR
    TFI --> QCR
    Q -->|"属性关键词 prompt"| QCR
    QCR --> ANS["答案预测"]

关键设计¶

1. Query-Guided Multimodal Correlation：让问题在源头就介入，而非末端补刀

以往方法把文本问题留到最后一步用简单乘法融进来，结果音频-视觉表示缺乏语义针对性——可一个问题往往只关心一两件乐器，早早把这层意图传进去才能让模型聚焦、避免冗余表示。QGMC 因此分三步走：先 Self-enhancing，让每个模态各自做自注意力增强内部关系；再 Capturing，把词级文本特征当作 Query，通过交叉注意力从视觉、音频中各捕获一份共享语义 \(F_{qv}, F_{qa}\)；最后 Propagating，把聚合后的 query-guided 语义上下文 \(F_{qg}\) 通过交叉注意力反向传播回视觉流和音频流。这样一来，进入后续交互的特征已经带着问题的「关注点」，而不是面面俱到的原始表示。

2. Spatial-Temporal Interaction：分别回答「哪里发声」和「何时发声」

视频天然有空间和时序两个维度，需要分开建模再融合。空间交互让 patch 级视觉特征通过交叉注意力与 query-guided 音频特征对齐，从而定位画面中真正发声的区域；时序交互则把视觉和音频的 query-guided 特征做点积后过 softmax 计算时序注意力，捕获跨帧的全局时序依赖。前者解决「声音来自画面哪一块」，后者解决「这段声音落在哪几帧」，两条线索叠加才能把声源在时空中钉准。

3. Temporal-Frequency Interaction：用频谱区分视觉上几乎一样的乐器

长笛和单簧管演奏时动作极小、视觉外观相近，但它们的泛音分布和谐波结构在频域上截然不同——这是视觉和时域特征都给不出的辨别线索。TFI 因此引入 Audio Spectrogram Transformer (AST) 提取时频表示 \(F_{ast} \in \mathbb{R}^{T \times F \times D}\)，先在时间维度聚合得到频率表示，再结合问题嵌入算出频率注意力权重 \(a_f\) 来突出与问题相关的频带，最后把加权后的 AST 特征与 query-guided 音频特征做卷积融合。频率注意力相当于「拿问题去过滤频谱」，让模型只盯住能区分目标音色的那几段频率，复调场景下也能拆出不同乐器的贡献。

4. Query Context Reasoning：用属性 prompt 给最终推理上约束

不同问题类型关注的方面不同——比较类问题看响度和数量，时序类问题看先后顺序，需要更聚焦的任务约束。QCR 把乐器相关属性关键词（类型、表演时长、位置、时序、响度）编码成 prompt 嵌入 \(F_{prompt}\)，与句子级问题嵌入拼接后过自注意力，产生融合了任务语境的 query context \(F_{qc}\)，再用交叉注意力引导视觉和音频特征做最终精炼。相比单纯依赖原始问题，这层 prompt 把「这类问题该关注什么属性」显式喂给模型，让推理落点更准。

损失函数 / 训练策略¶

训练用标准交叉熵分类损失，AdamW 优化器，初始学习率 1e-4，每 10 个 epoch 衰减 0.1 倍，batch size 64，共训练 30 个 epoch。特征端视觉用 CLIP-ViT-L/14，音频用 VGGish + AST，所有模态特征统一投射到 512 维。

实验关键数据¶

主实验¶

MUSIC-AVQA 测试集准确率（%）：

方法	Audio QA	Visual QA	Audio-Visual QA	平均
PSTP	70.91	77.26	72.57	73.52
APL	78.09	79.69	70.96	74.53
TSPM	76.91	83.61	73.51	76.79
QA-TIGER	78.58	85.14	73.74	77.62
QSTar	80.63	84.17	75.98	78.98

QSTar 在总体准确率上超越前 SOTA QA-TIGER 1.36%，在 Audio QA 上超 2.05%，Audio-Visual QA 超 2.24%。

消融实验¶

消融设置	Audio QA	Visual QA	A-V QA	平均
w/o all	73.87	79.15	70.33	73.29
w/o QGMC	79.08	83.44	72.92	76.80
w/o QCR	79.33	83.24	75.43	78.19
w/o STI	-	-1.55%	-	-1.18%
w/o TFI	-2.42%	-	-1.59%	显著下降
完整 QSTar	80.63	84.17	75.98	78.98

关键发现¶

频域交互（TFI）对音频类问题至关重要：去除 TFI 后 Audio QA 下降 2.42%，Audio-Visual QA 下降 1.59%，证明频谱特征对区分乐器音色不可替代
Query 引导贯穿全流程的重要性：去除早期引导（\(M_b^-\)）导致 1.05% 下降，去除最终 prompt（\(M_f^-\)）导致 0.73% 下降
比较和时序问题类型提升最显著：超过 5% 的提升，体现了空间-时序-频域三维交互的优势
无需目标检测器：QSTar 未使用预训练目标检测器，在 Visual QA 上仅落后 QA-TIGER 0.97%，说明模型本身的视觉理解足够强大

亮点与洞察¶

频域分析填补了 AVQA 的空白：之前的方法几乎完全忽视了音频信号的频域特性，本文首次系统性地利用频谱特征（通过 AST）解决音乐场景问答
Query 引导的端到端设计比后期融合显著更优：语义信息在早期就引导特征提取，减少了冗余表示
频率注意力机制巧妙地利用问题文本过滤频谱，使模型能聚焦于与问题相关的频带
长笛演奏的案例分析非常直观：视觉上几乎看不到动作变化，但频谱中高频段的减弱清晰标志着停止演奏

局限与展望¶

依赖预训练特征提取器：CLIP、VGGish、AST 均为冻结预训练模型，端到端微调可能进一步提升
仅在音乐场景验证：MUSIC-AVQA 限于音乐场景，对更一般的 AVQA 场景（对话、自然声音）的泛化有待验证
Visual QA 表现略弱：未使用目标检测器导致空间定位精度不如 QA-TIGER，可考虑引入轻量级定位模块
频率注意力的可解释性：虽然提供了频谱可视化，但频率注意力权重的语义含义需要更深入分析
问答模板限制：MUSIC-AVQA 使用预定义模板生成问答对，对开放式问题的处理能力未知

评分¶

新颖性: ⭐⭐⭐⭐ 频域交互在 AVQA 中是新颖贡献，但整体框架结构（cross-attention 堆叠）相对常规
实验充分度: ⭐⭐⭐⭐ 消融研究覆盖各模块和 query guidance 各阶段，但仅在 MUSIC-AVQA 上全面评估
写作质量: ⭐⭐⭐⭐ 动机阐述清晰（长笛案例很好），方法描述系统但公式较多
价值: ⭐⭐⭐⭐ 在音乐 AVQA 上达到新 SOTA，频域分析的引入对多模态理解有启发价值