AVI-Bench: Toward Human-like Audio-Visual Intelligence of Omni-MLLMs¶

会议: ICML2026
arXiv: 2606.07643
代码: 项目主页
领域: 多模态VLM / 音视频基准
关键词: 音视频智能, Omni-MLLM, 认知分层基准, 跨模态 grounding, 原始感知

一句话总结¶

AVI-Bench 是一个受人类认知启发的音视频基准：把对 Omni-MLLM 的评测按「感知 → 理解 → 推理」三阶段组织、再补一个测「原始感知」的 PriSe 扩展，用 14 个任务、5,864 个样本、9 个指标系统诊断 28 个开源/闭源 Omni-MLLM 的音视频智能（AVI），并据此提出一个四级 AVI taxonomy。

研究背景与动机¶

领域现状：Omni-MLLM（如 GPT-4o、Gemini、Qwen2.5-Omni）能同时处理文本、视觉、音频，被视为迈向类人音视频智能（Audio-Visual Intelligence, AVI）乃至 AGI 的关键一步。要衡量这种进展，就需要严格、结构化的基准。

现有痛点：现有基准大多单模态专精（MMMU/SEED 管视觉语言、MMAU 管音频语言），无法反映真实跨模态场景；即便是 OmniBench、DailyOmni、AV-Odyssey 这类音视频基准，也只是堆任务多样性，缺一个统一、有结构的框架来评估「多层次」的 AVI，导致对模型能力的证据是碎片化的，既难诊断失败模式，也看不清模型与人类音视频认知的对齐程度。更关键的是，孤立任务上刷高分并不等于通用智能在进步。

核心矛盾：评测需要的是「认知对齐」——像人一样按感知、整合、推理的层次去考模型，而现有基准是平铺的任务集合，既不分层，又普遍忽略两类关键能力：音视频 grounding（定位发声物体）和语言指代的跨模态实体定位，而这恰恰是检验空间化感知与推理的核心。

本文目标：建一个既有广度又有系统性的基准，把任务对齐到人类认知的不同阶段，从而能精细诊断 Omni-MLLM 的能力与失败模式。

切入角度：从认知科学的分层视角出发——人类处理音视频是「感知 → 理解 → 推理」逐级递进的；同时追问一个被忽略的基本问题：模型能不能在陌生、低语义的刺激下表现出人类轻而易举的「原始感知」（辨色、辨音量、辨纹理），还是只是在拟合训练分布的模式？

核心 idea：用认知三阶段（+ 原始感知扩展）重构音视频评测，每个阶段都刻意平衡音频主导、视觉主导与音视频协同任务，并补齐被忽视的 grounding 任务，最终沉淀成一个四级 taxonomy 指导后续研究。

方法详解¶

整体框架¶

AVI-Bench 不是一个模型，而是一套评测协议 + 数据集 + 分类法。它把 14 个任务组织进四个阶段：感知（Perception）→ 理解（Understanding）→ 推理（Reasoning）→ 原始感知（Primitive Sensation, PriSe），前三阶段对应人类认知的逐级递进、PriSe 作为测分布外泛化的扩展。每个阶段内部都刻意配平音频主导、视觉主导、音视频协同三类任务，避免某阶段得分被单一模态主导。最终拿 28 个 Omni-MLLM 跑全套任务，把观测结果归纳成一个四级 AVI taxonomy。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["音视频输入<br/>T·A·V·I 多模态"] --> B["感知阶段<br/>AMIC·VMIC·AVL·AVM"]
    B --> C["理解阶段<br/>AVC·AVR·VAR"]
    C --> D["推理阶段<br/>AVQA·AVLG·AVH·VAH"]
    D --> E["PriSe 扩展<br/>ASQA·VSQA·AVSQA<br/>低语义陌生刺激"]
    E --> F["28 个 Omni-MLLM 评测<br/>9 指标·percentage 归一"]
    F --> G["四级 AVI taxonomy<br/>task/modality/stage/domain-adaptive"]

关键设计¶

1. 认知三阶段分层评测：把音视频能力按「感知→理解→推理」逐级拆开

痛点是现有基准平铺任务、看不出能力层次。AVI-Bench 借人类认知结构把任务分三层：感知阶段测对基础语义实体的检测与跨模态对齐，含音/视多实例分类（AMIC/VMIC，单样本里检测多个共现实例）、音视定位（AVL，在画面里定位声源空间位置）、音视匹配（AVM，判断音视输入是否全局对应）；理解阶段测对时序/语义依赖的整合，含音视描述（AVC，生成上下文连贯的叙述）和双向跨模态检索（AVR 以音检视、VAR 以视检音）；推理阶段测高阶推断，含音视问答（AVQA，粗粒度整体推理）、音视语言 grounding（AVLG，按自然语言精确定位物体/事件）、以及音/视参照幻觉（AVH/VAH，在跨模态冲突下测幻觉抗性）。分层的价值在于：得分不再是一个笼统数字，而能定位模型卡在哪一认知层级。

2. PriSe 原始感知扩展：用低语义陌生刺激戳穿「模式拟合 vs 真感知」

大多数 Omni-MLLM 在大规模、富语义数据上训练，但这无法回答它们是否具备人类那种「在几乎没有语义上下文时也能辨色、辨音量、辨纹理、辨几何」的底层感知。PriSe 专门用朴素、陌生、低语义的音视频刺激来考三个任务：音频感知问答（ASQA）、视觉感知问答（VSQA，分图像/视频两套）、音视感知问答（AVSQA）。它的设计动机非常具体——把语义捷径抽掉后，模型若仍能答对，说明有接近人类的原始感知；若崩溃，说明此前的高分多半来自训练分布内的模式拟合。这一阶段提供了评估「真 AVI vs 假 AVI」的新视角，也是 2,090 个样本里规模最大的阶段。

3. 模态配平 + 补齐 grounding 任务：让每阶段得分公平、且覆盖被忽视的空间化能力

为避免「某阶段分数其实只反映强势模态」，AVI-Bench 在每个阶段都显式配平三类任务：音频主导（AMIC、VAR、AVH、ASQA）、视觉主导（VMIC、AVR、VAH、VSQA）、以及需大量音视协同的任务。同时，它把现有基准普遍忽略的 grounding 类任务纳入进来——AVL（声源空间定位）与 AVLG（语言指代的音视实体定位），这两类需要把密集 mask 标注转成归一化宽高的 bounding box（共 708 个样本），是检验空间化感知与精细推理的关键。整套 14 任务里 62% 是全人工构造样本（3,657 个），其余通过 mask→bbox 转换（708 个）或把已有数据重整成统一 JSON（1,499 个）得到，兼顾质量与可比性。

一个完整示例：一条音视频样本如何走过四阶段诊断¶

以一段「街头有人弹吉他、旁边有车驶过」的音视频为例：感知阶段先问 AMIC/VMIC「画面/声音里有哪些实例」（吉他声、引擎声、人、车），AVL 要求在画面里框出声源（吉他的位置），AVM 判断这段音频是否真的配这段画面；理解阶段 AVC 让模型生成连贯叙述、AVR/VAR 做音↔视互检；推理阶段 AVQA 问「为什么路人停下脚步」（需整体音视理解），AVLG 要求精确定位「正在发声的那把吉他」，AVH/VAH 故意给音视冲突信号测模型会不会幻觉出不存在的物体；最后 PriSe 换成低语义刺激（如纯色块 + 单频音）问 ASQA/VSQA/AVSQA「哪个更亮/更响」。同一条内容被四个层级反复盘问，模型在哪一层掉链子一目了然。

实验关键数据¶

主实验¶

AVI-Bench 评测 28 个 Omni-MLLM（含闭源 GPT-4o、Gemini 系列与开源 Qwen2.5-Omni、Ola、Baichuan-Omni-1.5 等，参数从 0.5B 到 7B+），所有任务分数归一到百分制。与现有基准的统计对比凸显其覆盖广度：

基准	模态	#任务	#样本	#指标	#阶段	Grounding
AV-Odyssey	T,A,V,I	7	4,555	2	1	✗
OmniBench	T,A,I	8	1,142	1	1	✗
AVHBench	T,A,V	4	5,302	7	1	✗
AVI-Bench	T,A,V,I	14	5,864	9	4	✓

代表性模型分阶段得分（节选自原文 Table 3，百分制，越高越好）：

模型	感知 avg	理解 avg	推理 avg	原始感知 avg	总 avg
Gemini-2.5-pro	54.58	68.97	69.06	36.22	57.21

⚠️ 完整 28 模型榜单与各子任务（AMIC/VMIC/AVL/AVM/VAR/AVR/AVC/AVH/VAH/AVQA/AVLG/ASQA/VSQA/AVSQA）细分以原文 Table 3 为准；此处仅取最强模型示意量级。

阶段样本分布¶

四阶段任务与样本数刻意做了模态平衡，PriSe 规模最大：

阶段	任务（样本数）	阶段合计
感知	AMIC(518)·VMIC(521)·AVL(205)·AVM(250)	1,494
理解	VAR(264)·AVR(264)·AVC(280)	808
推理	AVH(250)·VAH(250)·AVQA(469)·AVLG(503)	1,472
原始感知	ASQA(502)·VSQA-img(620)·VSQA-vid(580)·AVSQA(388)	2,090

关键发现¶

原始感知是普遍短板：即便最强的 Gemini-2.5-pro，PriSe 阶段平均分也只有 36.22，远低于其感知/理解/推理三阶段（54~69），印证了「高分多来自富语义训练分布、低语义陌生刺激下接近崩溃」的猜想。
grounding 是被现有基准漏掉的硬骨头：AVL/AVLG 这类需要空间定位的任务，是当前 Omni-MLLM 的明显弱项，也是 AVI-Bench 相比同类基准的独特贡献。
分层诊断能定位失败模式：把得分拆到认知阶段后，能看清模型是卡在感知、理解还是推理，而非只给一个笼统总分。

亮点与洞察¶

认知分层 + 模态配平的双重约束很扎实：既保证评测顺人类认知层级展开、又防止单模态强势刷分，得到的阶段分数比平铺基准更可解释。
PriSe「抽掉语义看真感知」的设问角度新颖：用低语义刺激把「模式拟合」和「真感知」分离，是检验 AVI 真伪的好探针，可迁移到其他多模态能力的「去捷径」评测。
把 grounding 纳入音视频评测填补了空间化感知/推理的评测空白，mask→bbox 的统一标注方式也便于复用。
四级 taxonomy（task/modality/stage/domain-adaptive 四个适配维度）为后续 Omni-MLLM 的能力诊断提供了结构化坐标系。

局限与展望¶

作为基准无法给出改进方法：AVI-Bench 诊断出短板（尤其原始感知与 grounding），但不提供如何补齐这些能力的训练方案。
样本规模相对中等：5,864 个样本在覆盖 14 任务后，单任务样本量（如 AVL 仅 205）偏少，统计稳健性受限。
指标依赖：开放式任务（AVC、部分 QA）的评分依赖自动指标/裁判，可能与人类判断有偏差，论文未深入讨论评分一致性。

评分¶

新颖性: ⭐⭐⭐⭐ 认知分层 + PriSe 原始感知探针 + grounding 纳入，在音视频基准里有明确结构创新。
实验充分度: ⭐⭐⭐⭐ 28 个开源/闭源模型 × 14 任务 × 9 指标，横向覆盖充分。
写作质量: ⭐⭐⭐⭐ 动机与阶段定义清晰，认知映射讲得明白。
价值: ⭐⭐⭐⭐ 为 Omni-MLLM 的能力诊断提供了结构化、可对齐人类认知的评测框架，社区价值高。