See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models¶

会议: CVPR 2026
arXiv: 2512.02231
代码: https://plnguyen2908.github.io/AV-SpeakerBench-project-page/
领域: 多模态VLM / 音视频理解
关键词: 多模态基准, 说话人中心推理, 音视频融合, 大语言模型评估, 视听理解

一句话总结¶

提出 AV-SpeakerBench 基准，包含 3,212 道以说话人为中心的音视频推理多选题，系统评估多模态大语言模型在"谁在说话、说了什么、何时说的"上的细粒度音视频融合能力，揭示当前最强模型与人类表现仍有超 20% 的差距。

研究背景与动机¶

多模态大语言模型（MLLM）正从图像-文本扩展到音频-视频-语言的统一理解，但现有视频基准存在严重缺陷：大多数问题仅靠视觉就能回答（如"视频中有几个人？"），几乎不需要音频信息。即使少数包含音频的基准也仅停留在粗粒度的声音事件分类层面（如"男声/女声"），无法评估模型是否真正理解了谁在说什么。

说话人感知（audiovisual speaker perception）是长期研究问题，涉及说话人检测、识别和语音定位。但现有数据集基于闭集标签或帧级标注，与 MLLM 的开放式语言评估不兼容。

核心问题：当前 MLLM 能否将视觉中看到的人与听到的语音精确关联？ 这需要跨模态的时序推理——不仅要识别说话人的外貌和声音，还要在时间轴上对齐"谁在什么时候说了什么"。

AV-SpeakerBench 的三个设计原则：(1) 以说话人为核心推理单元（而非场景）；(2) 融合驱动的问题设计——将音视频依赖嵌入问题语义本身；(3) 专家手工标注确保时序精度和跨模态有效性。

方法详解¶

整体框架¶

AV-SpeakerBench 是一个包含 3,212 道四选一多选题的评估基准，覆盖 2,051 个视频片段（5-30 秒）和 12 种任务类型。视频来源于 YouTube 的电影片段、访谈、播客等，包含丰富的多人对话场景。所有标注由经验丰富的研究人员完成，经过多轮审核。

关键设计¶

说话人中心的任务体系（12 类任务）:
- 功能：全面评估以说话人为核心的音视频推理能力
- 核心思路：任务分为三大类——说话人相关（说话人检测/识别/计数，如"穿黑色T恤的人什么时候说了'怎么了'？"）、视觉相关（视觉属性识别/活动识别/计数，需音频辅助）、音频相关（持续时间/音高/语速/强度/语音计数，需视觉辅助）。每道题都设计为必须整合视听信息才能正确回答
- 设计动机：现有基准要么只评视觉、要么粗粒度评音频，无法测试模型的真正融合能力。12 类任务覆盖了从识别到计数到时序定位的多维度能力
融合驱动的问题语义设计:
- 功能：确保每道题在语义层面就要求跨模态推理
- 核心思路：将音视频依赖编码在问题文本和选项中，包括：(a) 将口头短语与可见身份关联（"穿灰衬衫的人说完后..."）；(b) 用视觉事件定位语音（"她喝水前说了什么？"）或用语音定位视觉（"他说'我们不酷'时有几个人可见？"）；(c) 多说话人场景下的综合推理（"灰衬衫男人摇手指后到视频结束，'红线'被所有人提到了几次？"）
- 设计动机：简单的"视频中说了什么"类型问题可被纯音频转录+LLM 解决。将视觉身份、时间锚点和语音内容交织在问题语义中，迫使模型必须做真正的跨模态对齐
专家驱动的质量控制管线:
- 功能：确保每道题的时序精度和跨模态有效性
- 核心思路：标注分三步——(a) 标注员从完整视频中选择满足任务要求的 5-30 秒片段（要求多说话人、有意义的对话动态）；(b) 根据详细的任务指南编写问题和干扰选项（干扰项来自同一片段中的实体/动作/语音事件）；(c) 多阶段审核（独立研究员初审→语言模型润色→至少两名额外研究员终审），过滤歧义、不一致或可单模态解答的题目
- 设计动机：众包标注难以保证跨模态推理题目的质量，专家标注虽成本高但确保每题都需真正的音视频融合

损失函数 / 训练策略¶

AV-SpeakerBench 是纯评估基准，不涉及模型训练。评估采用多选题准确率，在 12 种任务类型上分别报告。

实验关键数据¶

主实验¶

模型	参数量	总体准确率	vs 人类 (93.74%)
Gemini 2.5 Pro (Thinking)	-	73.04	-20.70
Gemini 2.5 Flash (Thinking)	-	67.84	-25.90
Gemini 2.0 Flash	-	53.21	-40.53
Qwen3-Omni	30B	54.14	-39.60
Qwen2.5-Omni	7B	46.64	-47.10
Phi-4 Multimodal	5.6B	38.45	-55.29
VITA-1.5	7B	36.27	-57.47
Video-LLaMA2	7B	37.67	-56.07
PandaGPT	7B	22.88	-70.86

消融实验（模态消融）¶

模型	仅视觉	音+视	音频增益	说明
Gemini 2.5 Pro	~60%	73.04	+10-20%	持续从音频获益
Qwen3-Omni 30B	~52%	54.14	+2% 甚至负	音视频融合较弱

关键发现¶

人类准确率 93.74%，最强模型 73.04%，差距超 20pp——说话人中心的音视频推理仍是核心难题
Gemini 2.5 Pro 的优势主要来自更强的音视频融合能力（音频一致带来 10-20% 增益），而非视觉感知
Qwen3-Omni 30B 已接近 Gemini 2.0 Flash，但加入音频后提升有限甚至为负——开源模型的融合能力是瓶颈
错误分析显示音频感知和时序推理是失败的主要来源
早期开源模型（Video-LLaMA、PandaGPT、Unified-IO 2）表现接近随机猜测，尽管声称支持音视频

亮点与洞察¶

基准设计哲学值得学习：不是简单地标注问答对，而是将跨模态依赖"硬编码"在问题语义中，使得单模态捷径无法生效。这种"融合驱动设计"可推广到其他多模态基准
模态消融揭示本质差距：Gemini vs Qwen 的差距不在视觉感知而在融合能力，这一发现对开源社区有明确的改进方向指导
12 类任务的细粒度分解：从检测/识别到音高/语速的多维度评估，比笼统的"音视频理解"分数更有诊断价值

局限与展望¶

仅评估多选题准确率，未覆盖开放式回答、对话等更自然的交互形式
视频来源以英语为主，跨语言泛化性未测试
部分任务（如音高比较）在实际应用中需求较小
数据量 3,212 题对于训练不够，仅作为评估用途
未分析模型是否通过唇读（lip reading）而非真正听到音频来回答

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个系统评估说话人中心音视频推理的基准，填补了重要空白
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 6 个 Gemini 版本 + 12 个开源模型，模态消融和错误分析深入
写作质量: ⭐⭐⭐⭐⭐ 设计原则阐述清晰，任务示例直观
价值: ⭐⭐⭐⭐⭐ 揭示了当前 MLLM 音视频融合的核心瓶颈，对社区有明确指导意义