When Eyes and Ears Disagree: Can MLLMs Discern Audio-Visual Confusion?¶
会议: AAAI 2026
arXiv: 2511.10059
代码: https://github.com/rikeilong/AVConfusion
领域: 多模态VLM
关键词: 多模态大语言模型, 音视觉混淆, 幻觉, 强化学习, 协作式多模型
一句话总结¶
发现多模态大语言模型(MLLMs)在音视觉信息不对称时严重受视觉主导而无法识别缺失音频的"音视觉混淆"现象,提出 AV-ConfuseBench 基准和 RL-CoMM 方法(引入外部音频模型做参考的阶梯式推理奖励 + 答案置信度优化),在仅用约 20% 训练数据的情况下提升基线模型准确率 10~30%。
研究背景与动机¶
音视觉混淆——一个被忽视的 MLLM 缺陷:
MLLMs(如 Qwen2.5-Omni、Gemini 2.5)在音视觉理解任务上取得了显著进展,但论文发现一个关键问题:
当给定的音视觉信息不对称时,MLLM 能否识别出视觉存在但音频缺失的混淆对象?
论文通过实验揭示了触目惊心的结果:
音频静音场景:将视频中某乐器声音静音后询问"是否有该乐器声音",Qwen2.5-Omni-7B 仍有 90.41% 的概率回答"是"——几乎完全被视觉信息误导
音频篡改场景:将音乐替换为鸟叫声,MLLMs 生成的内容仍主要描述视觉信息,对实际音频内容极不敏感
即使 Gemini 2.5 Pro 开启思考模式:仍有 38.36% 的响应被视觉引导输出错误
开源模型更糟:Video-LLaMA2 准确率仅 2.73%,几乎100%回答"是"
根本原因分析:MLLMs 在同步音视频数据上训练后,形成了视觉-音频的绑定认知——"看到某物就认为听到了它的声音"。模型推理过程被视觉信息主导,即使音频层面的不确定性很高(如通过 entropy 指标观察到模型后续层的不确定性分数持续偏高),仍倾向于依赖视觉做出判断。
方法详解¶
整体框架¶
RL-CoMM(Reinforcement Learning-based Collaborative Multi-MLLM)基于 Qwen2.5-Omni-3B 构建,包含三个训练阶段:
- Warm-up:少量高质量 Q&A 对的监督微调,建立结构化推理格式
- Step-RR(Step-wise Reasoning Reward):阶梯式推理奖励的 GRPO 优化
- Ans-CO(Answer-centered Confidence Optimization):答案置信度优化
核心创新:引入外部大型音频语言模型(LALM)作为参考模型 \(\pi_{ref}\),Omni-LLM 作为策略模型 \(\pi_\theta\),通过异构模型协作弥补 Omni-LLM 的音频感知弱点。
关键设计¶
1. AV-ConfuseBench 基准构建¶
论文提出的迷你基准包含两个设置:
音频静音设置(Audio-muted): - 多乐器演奏场景中静音某特定音源 - 问题形式:"This is a video of audio corruption where some instrument sound is muted. Is there a/an {muted-object} sound?" - 真实答案统一为"No" - 39 个视频产生 73 个 Q&A 对 - 评估指标:准确率 + "Yes"回答比例
音频篡改设置(Audio-modified): - 将背景声替换为完全不同步的声音(风声、鸟叫、雨声、电钻声、雷声) - 20 个视频 × 5 种声音 = 100 个 Q&A 对 - 问题:"Describe what you see and what you hear" - 评估指标:AI 辅助评分(音频准确度 A-Acc,视觉准确度 V-Acc,0-5 分)
2. Step-wise Reasoning Reward (Step-RR)¶
Step-RR 的关键在于用外部 LALM 提供"纯音频视角"的参考推理,设计了结构化的输出格式:
- 策略模型输出三个标签:
<a-think>(音频推理)、<v-think>(视觉推理)、<answer>(答案) - 参考模型基于标准答案生成纯音频推理
<a-think>
三种奖励信号:
格式奖励 \(r_{format}\):输出是否符合指定的三段式格式(0/1)
音频推理合理性奖励 (ARR) \(r_{arr}\):使用 Qwen3 Embedding-0.6B 计算策略模型的音频推理 \(o_1^i\) 与参考模型音频推理 \(o_{ref}\) 的语义相似度:
其中 \(\omega = 0.8\) 为相似度阈值。设计动机:确保策略模型的音频推理不被视觉信息污染,与纯音频参考保持语义一致。
音视觉关联奖励 (AVC) \(r_{avc}\):评估音频推理和视觉推理的关联性,包含软匹配机制:
设计动机:奖励合理的音视觉跨模态推理——答案正确时给予更高基础分加关联分,答案错误但有推理过程时仍给予关联分激励。
组优势计算:\(r^i = r_{format} + r_{arr} + r_{avc}\),按标准 GRPO 归一化:
注意:训练中移除了 KL 惩罚,因为参考模型和策略模型的结构异构,KL 散度没有意义。
3. Answer-centered Confidence Optimization (Ans-CO)¶
解决异构推理差异导致的答案不确定性问题:
其中 \(\mathcal{N} = \{t | t > T_{prompt+think}\}\) 仅裁剪答案部分的 token,\(H_t\) 为 token 级别的 entropy。\(\lambda = 0.5\),当答案不确定性 \(u > 0.75\) 时 \(\lambda = 0\)(避免过度自信降低泛化性)。
设计动机:Step-RR 优化了推理过程,但音频和视觉推理可能产生冲突的信号,Ans-CO 通过降低答案预测的 entropy 来确保最终答案的确定性。
损失函数 / 训练策略¶
- 基础模型:Qwen2.5-Omni-3B
- 参考模型:大型音频语言模型(LALM,如 Qwen-Audio)
- Warm-up:100 个高质量 Q&A 对的 SFT,使用 LLaMA-Factory
- 语义评价模型:Qwen3 Embedding-0.6B
- 硬件:8 × NVIDIA A800 GPU
- 少样本学习:Step-RR 和 Ans-CO 仅用 Music-AVQA 和 AVQA 中的少量训练样本
实验关键数据¶
主实验¶
Music-AVQA 和 AVQA 结果:
| 方法 | Exist | Localis | Count | Comp | Temp | 平均 | AVQA 平均 |
|---|---|---|---|---|---|---|---|
| PSTP-Net (专用) | 76.18 | 73.23 | 71.80 | 71.79 | 69.00 | 72.57 | 90.20 |
| CAD (专用) | 83.42 | 73.97 | 76.37 | 74.88 | 76.16 | 76.96 | 92.20 |
| Qwen2.5-Omni-3B | 60.02 | 53.84 | 61.29 | 58.16 | 46.57 | 54.95 | 83.78 |
| + SFT | 73.67 | 74.09 | 75.43 | 68.47 | 60.44 | 70.41 | 90.41 |
| + GRPO | 77.69 | 71.10 | 67.33 | 64.23 | 70.14 | 70.05 | 85.31 |
| + RL-CoMM | 85.61 | 76.68 | 84.08 | 70.74 | 76.30 | 79.46 | 95.87 |
| Δ (vs 基线) | +25.59 | +22.84 | +22.79 | +12.58 | +29.73 | +24.51 | +12.09 |
AVHBench 幻觉评估结果:
| 方法 | 音频驱动视觉幻觉 Acc | 视频驱动音频幻觉 Acc | 音视觉匹配 Acc |
|---|---|---|---|
| OneLLM | 53.7 | 44.3 | 60.1 |
| Qwen2.5-Omni-3B | 65.85 | 59.65 | 48.77 |
| + GRPO | 72.98 | 62.84 | 49.73 |
| + RL-CoMM | 78.96 | 65.63 | 51.85 |
消融实验¶
AV-ConfuseBench 上的训练策略对比:
| 方法 | 音频静音 Acc ↑ | Yes 比例 ↓ | 音频篡改 A-Acc ↑ | V-Acc ↑ |
|---|---|---|---|---|
| Qwen2.5-Omni-3B 基线 | 8.22 | 91.78% | 1.14 | 4.10 |
| + SFT | 5.48 (更差!) | 94.52% | - | - |
| + GRPO | 15.07 | 84.93% | 1.84 | 4.47 |
| + RL-CoMM | 27.40 | 72.60% | 2.36 | 4.54 |
Step-RR 和 Ans-CO 组件消融(Music-AVQA 平均准确率):
| 配置 | 平均准确率 |
|---|---|
| Qwen2.5-Omni-3B 基线 | 54.95 |
| + Format + Accuracy 奖励 | 70.05 |
| + Format + Step-wise Reasoning 奖励 | 74.49 |
| + Format + Step-wise Reasoning + Ans-CO | 79.46 |
关键发现¶
- SFT 反而有害:在 AV-ConfuseBench 上 SFT 使准确率从 8.22% 降至 5.48%——SFT 强化了视觉-音频的绑定,加剧了混淆
- RL 思考式训练显著优于 SFT:强迫模型在训练中"反思和试错"可以模拟人类思维来解决困难的音视觉任务
- RL-CoMM 提升巨大:基线模型上提升 24.51%(Music-AVQA),19.18%(AV-ConfuseBench)
- Step-RR 优于简单准确率奖励:74.49% vs 70.05%,步进式推理奖励有效纠正了视觉偏差
- 异构参考模型的挑战:ARR 奖励在训练中波动较大、峰值未达预期,说明 Omni-LLM 仍难以做到不受视觉影响的纯音频推理
- Ans-CO 的互补作用:在推理奖励基础上再加 5 个百分点,证明推理优化和答案优化可以解耦但互补
亮点与洞察¶
- "音视觉混淆"现象的发现极具价值:揭示了 MLLMs 的一个根本性认知缺陷——视觉主导导致音频感知的"失明"
- 异构模型协作的RL设计巧妙:用纯音频模型的推理作为参考来纠正 Omni 模型的视觉偏差
- SFT 有害的反直觉发现:强化了"同步训练 ≠ 独立感知"的认知
- 移除 KL 惩罚的合理性:异构模型间 KL 散度无意义,需要审慎考虑 RL 框架中的默认组件
- 实验设计(静音/篡改两种设置)完整:分别测试了"是否能识别缺失"和"是否能平衡不一致信息"
局限与展望¶
- 基础模型规模较小:仅用 Qwen2.5-Omni-3B,更大模型可能缓解部分问题
- AV-ConfuseBench 规模有限:仅 73+100 个样本,可能不足以全面评估
- 音视觉匹配任务未取得最优:RL-CoMM 在此任务上提升有限,需改进音视觉组合的奖励模型
- 仅限于音乐/乐器场景:更广泛的音视觉场景(语音、环境声等)尚未测试
- Warm-up 数据的构建:100 个高质量 Q&A 对的构建标准和复现性需要更详细说明
相关工作与启发¶
- Qwen2.5-Omni / Gemini 2.5:当前最先进的全模态大模型
- AVHBench:音视觉幻觉评估基准
- GRPO (DeepSeek R1):去 critic 的 RL 优化框架
- Music-AVQA / AVQA:音视觉问答标准基准
- Entropy-based metric:量化模型预测不确定性的方法
- 启发:多模态模型中的"模态主导性"是一个普遍问题(视觉通常主导音频/文本),需要在训练中显式引入模态解耦机制
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 音视觉混淆现象的发现和异构模型协作 RL 方案都具有很强原创性
- 实验充分度: ⭐⭐⭐⭐ — Music-AVQA/AVQA/AVHBench/AV-ConfuseBench 四个基准,消融充分,但 AV-ConfuseBench 规模偏小
- 写作质量: ⭐⭐⭐⭐ — 问题动机清晰,方法描述较完整,公式标注准确
- 价值: ⭐⭐⭐⭐⭐ — 揭示了多模态 LLM 的根本性缺陷,为多模态推理的可靠性研究开辟了新方向