When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion?¶

会议: AAAI 2026
arXiv: 2511.10059
代码: https://github.com/rikeilong/AVConfusion
领域: 多模态VLM
关键词: 多模态大语言模型, 音视觉混淆, 幻觉, 强化学习, 协作式多模型

一句话总结¶

发现多模态大语言模型（MLLMs）在音视觉信息不对称时严重受视觉主导而无法识别缺失音频的"音视觉混淆"现象，提出 AV-ConfuseBench 基准和 RL-CoMM 方法（引入外部音频模型做参考的阶梯式推理奖励 + 答案置信度优化），在仅用约 20% 训练数据的情况下提升基线模型准确率 10~30%。

研究背景与动机¶

音视觉混淆——一个被忽视的 MLLM 缺陷：

MLLMs（如 Qwen2.5-Omni、Gemini 2.5）在音视觉理解任务上取得了显著进展，但论文发现一个关键问题：

当给定的音视觉信息不对称时，MLLM 能否识别出视觉存在但音频缺失的混淆对象？

论文通过实验揭示了触目惊心的结果：

音频静音场景：将视频中某乐器声音静音后询问"是否有该乐器声音"，Qwen2.5-Omni-7B 仍有 90.41% 的概率回答"是"——几乎完全被视觉信息误导

音频篡改场景：将音乐替换为鸟叫声，MLLMs 生成的内容仍主要描述视觉信息，对实际音频内容极不敏感

即使 Gemini 2.5 Pro 开启思考模式：仍有 38.36% 的响应被视觉引导输出错误

开源模型更糟：Video-LLaMA2 准确率仅 2.73%，几乎100%回答"是"

根本原因分析：MLLMs 在同步音视频数据上训练后，形成了视觉-音频的绑定认知——"看到某物就认为听到了它的声音"。模型推理过程被视觉信息主导，即使音频层面的不确定性很高（如通过 entropy 指标观察到模型后续层的不确定性分数持续偏高），仍倾向于依赖视觉做出判断。

方法详解¶

整体框架¶

RL-CoMM（Reinforcement Learning-based Collaborative Multi-MLLM）基于 Qwen2.5-Omni-3B 构建，包含三个训练阶段：

Warm-up：少量高质量 Q&A 对的监督微调，建立结构化推理格式
Step-RR（Step-wise Reasoning Reward）：阶梯式推理奖励的 GRPO 优化
Ans-CO（Answer-centered Confidence Optimization）：答案置信度优化

核心创新：引入外部大型音频语言模型（LALM）作为参考模型 \(\pi_{ref}\)，Omni-LLM 作为策略模型 \(\pi_\theta\)，通过异构模型协作弥补 Omni-LLM 的音频感知弱点。

关键设计¶

1. AV-ConfuseBench 基准构建¶

论文提出的迷你基准包含两个设置：

音频静音设置（Audio-muted）： - 多乐器演奏场景中静音某特定音源 - 问题形式："This is a video of audio corruption where some instrument sound is muted. Is there a/an {muted-object} sound?" - 真实答案统一为"No" - 39 个视频产生 73 个 Q&A 对 - 评估指标：准确率 + "Yes"回答比例

音频篡改设置（Audio-modified）： - 将背景声替换为完全不同步的声音（风声、鸟叫、雨声、电钻声、雷声） - 20 个视频 × 5 种声音 = 100 个 Q&A 对 - 问题："Describe what you see and what you hear" - 评估指标：AI 辅助评分（音频准确度 A-Acc，视觉准确度 V-Acc，0-5 分）

2. Step-wise Reasoning Reward (Step-RR)¶

Step-RR 的关键在于用外部 LALM 提供"纯音频视角"的参考推理，设计了结构化的输出格式：

策略模型输出三个标签：<a-think>（音频推理）、<v-think>（视觉推理）、<answer>（答案）
参考模型基于标准答案生成纯音频推理 <a-think>

三种奖励信号：

格式奖励 \(r_{format}\)：输出是否符合指定的三段式格式（0/1）

音频推理合理性奖励 (ARR) \(r_{arr}\)：使用 Qwen3 Embedding-0.6B 计算策略模型的音频推理 \(o_1^i\) 与参考模型音频推理 \(o_{ref}\) 的语义相似度：

\[r_{arr}^i = \begin{cases} 1, & \text{if } \mathcal{S}(o_1^i | o_{ref}) > \omega \text{ 且 } o_3^i = y \\ 0, & \text{otherwise} \end{cases}\]

其中 \(\omega = 0.8\) 为相似度阈值。设计动机：确保策略模型的音频推理不被视觉信息污染，与纯音频参考保持语义一致。

音视觉关联奖励 (AVC) \(r_{avc}\)：评估音频推理和视觉推理的关联性，包含软匹配机制：

\[r_{avc}^i = \begin{cases} 1 + \mathcal{I}(o_1^i | o_2^i), & \text{if } o_3^i = y \\ \mathcal{I}(o_1^i | o_2^i), & \text{if } o_3^i \neq \text{null}, \neq y \\ 0, & \text{otherwise} \end{cases}\]

设计动机：奖励合理的音视觉跨模态推理——答案正确时给予更高基础分加关联分，答案错误但有推理过程时仍给予关联分激励。

组优势计算：\(r^i = r_{format} + r_{arr} + r_{avc}\)，按标准 GRPO 归一化：

\[A^i = \frac{r^i - \text{mean}(\{r^1, ..., r^G\})}{\text{std}(\{r^1, ..., r^G\})}\]

注意：训练中移除了 KL 惩罚，因为参考模型和策略模型的结构异构，KL 散度没有意义。

3. Answer-centered Confidence Optimization (Ans-CO)¶

解决异构推理差异导致的答案不确定性问题：

\[\mathcal{L}_{OP} = \underbrace{-\frac{1}{T}\sum_{t=1}^{T} \log \pi_\theta(o_t | o_{<t}, x)}_{\text{NLL Loss}} + \lambda \cdot \underbrace{\frac{1}{|\mathcal{N}|}\sum_{t \in \mathcal{N}} H_t}_{\text{Entropy Minimization}}\]

其中 \(\mathcal{N} = \{t | t > T_{prompt+think}\}\) 仅裁剪答案部分的 token，\(H_t\) 为 token 级别的 entropy。\(\lambda = 0.5\)，当答案不确定性 \(u > 0.75\) 时 \(\lambda = 0\)（避免过度自信降低泛化性）。

设计动机：Step-RR 优化了推理过程，但音频和视觉推理可能产生冲突的信号，Ans-CO 通过降低答案预测的 entropy 来确保最终答案的确定性。

损失函数 / 训练策略¶

基础模型：Qwen2.5-Omni-3B
参考模型：大型音频语言模型（LALM，如 Qwen-Audio）
Warm-up：100 个高质量 Q&A 对的 SFT，使用 LLaMA-Factory
语义评价模型：Qwen3 Embedding-0.6B
硬件：8 × NVIDIA A800 GPU
少样本学习：Step-RR 和 Ans-CO 仅用 Music-AVQA 和 AVQA 中的少量训练样本

实验关键数据¶

主实验¶

Music-AVQA 和 AVQA 结果：

方法	Exist	Localis	Count	Comp	Temp	平均	AVQA 平均
PSTP-Net (专用)	76.18	73.23	71.80	71.79	69.00	72.57	90.20
CAD (专用)	83.42	73.97	76.37	74.88	76.16	76.96	92.20
Qwen2.5-Omni-3B	60.02	53.84	61.29	58.16	46.57	54.95	83.78
+ SFT	73.67	74.09	75.43	68.47	60.44	70.41	90.41
+ GRPO	77.69	71.10	67.33	64.23	70.14	70.05	85.31
+ RL-CoMM	85.61	76.68	84.08	70.74	76.30	79.46	95.87
Δ (vs 基线)	+25.59	+22.84	+22.79	+12.58	+29.73	+24.51	+12.09

AVHBench 幻觉评估结果：

方法	音频驱动视觉幻觉 Acc	视频驱动音频幻觉 Acc	音视觉匹配 Acc
OneLLM	53.7	44.3	60.1
Qwen2.5-Omni-3B	65.85	59.65	48.77
+ GRPO	72.98	62.84	49.73
+ RL-CoMM	78.96	65.63	51.85

消融实验¶

AV-ConfuseBench 上的训练策略对比：

方法	音频静音 Acc ↑	Yes 比例 ↓	音频篡改 A-Acc ↑	V-Acc ↑
Qwen2.5-Omni-3B 基线	8.22	91.78%	1.14	4.10
+ SFT	5.48 (更差!)	94.52%	-	-
+ GRPO	15.07	84.93%	1.84	4.47
+ RL-CoMM	27.40	72.60%	2.36	4.54

Step-RR 和 Ans-CO 组件消融（Music-AVQA 平均准确率）：

配置	平均准确率
Qwen2.5-Omni-3B 基线	54.95
+ Format + Accuracy 奖励	70.05
+ Format + Step-wise Reasoning 奖励	74.49
+ Format + Step-wise Reasoning + Ans-CO	79.46

关键发现¶

SFT 反而有害：在 AV-ConfuseBench 上 SFT 使准确率从 8.22% 降至 5.48%——SFT 强化了视觉-音频的绑定，加剧了混淆
RL 思考式训练显著优于 SFT：强迫模型在训练中"反思和试错"可以模拟人类思维来解决困难的音视觉任务
RL-CoMM 提升巨大：基线模型上提升 24.51%（Music-AVQA），19.18%（AV-ConfuseBench）
Step-RR 优于简单准确率奖励：74.49% vs 70.05%，步进式推理奖励有效纠正了视觉偏差
异构参考模型的挑战：ARR 奖励在训练中波动较大、峰值未达预期，说明 Omni-LLM 仍难以做到不受视觉影响的纯音频推理
Ans-CO 的互补作用：在推理奖励基础上再加 5 个百分点，证明推理优化和答案优化可以解耦但互补

亮点与洞察¶

"音视觉混淆"现象的发现极具价值：揭示了 MLLMs 的一个根本性认知缺陷——视觉主导导致音频感知的"失明"
异构模型协作的RL设计巧妙：用纯音频模型的推理作为参考来纠正 Omni 模型的视觉偏差
SFT 有害的反直觉发现：强化了"同步训练 ≠ 独立感知"的认知
移除 KL 惩罚的合理性：异构模型间 KL 散度无意义，需要审慎考虑 RL 框架中的默认组件
实验设计（静音/篡改两种设置）完整：分别测试了"是否能识别缺失"和"是否能平衡不一致信息"

局限与展望¶

基础模型规模较小：仅用 Qwen2.5-Omni-3B，更大模型可能缓解部分问题
AV-ConfuseBench 规模有限：仅 73+100 个样本，可能不足以全面评估
音视觉匹配任务未取得最优：RL-CoMM 在此任务上提升有限，需改进音视觉组合的奖励模型
仅限于音乐/乐器场景：更广泛的音视觉场景（语音、环境声等）尚未测试
Warm-up 数据的构建：100 个高质量 Q&A 对的构建标准和复现性需要更详细说明

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 音视觉混淆现象的发现和异构模型协作 RL 方案都具有很强原创性
实验充分度: ⭐⭐⭐⭐ — Music-AVQA/AVQA/AVHBench/AV-ConfuseBench 四个基准，消融充分，但 AV-ConfuseBench 规模偏小
写作质量: ⭐⭐⭐⭐ — 问题动机清晰，方法描述较完整，公式标注准确
价值: ⭐⭐⭐⭐⭐ — 揭示了多模态 LLM 的根本性缺陷，为多模态推理的可靠性研究开辟了新方向