OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ItRYEe8E61
代码: https://github.com/NJU-LINK/OmniVideoBench
领域: 多模态VLM
关键词: 音视频理解, 评测基准, 全模态MLLM, 推理链标注, 长视频

一句话总结¶

OmniVideoBench 是一个专门评测「音频与视觉协同推理」的高质量基准：从 628 个最长 30 分钟的真实视频里，经人工出题 + 双重模型过滤 + 人工精修，构造出 1000 道带原子级推理链标注的多选题，结果显示连最强的 Gemini-3.0-Pro 也只有 61.8% 准确率、远低于人类的 82.69%，开源模型则接近随机。

研究背景与动机¶

领域现状：多模态大模型（MLLM）在视频理解上进步很快，越来越多的「全模态」（Omni）模型号称能同时处理视觉、语言和音频。要衡量这种能力，社区需要能真正考验「音视频协同推理」的评测基准。

现有痛点：现有的音视频基准存在两类系统性缺陷。其一是视频太短——AVQA、Music-AVQA、AVHBench 等大多用 10–60 秒的短片，无法考查长时间跨度的时序依赖；其二是模态整合不真实——很多基准名义上是「音频+视觉」，实际却把音频当成可有可无的辅助信号，或者音频和视觉在逻辑上根本没耦合（比如新闻、纪录片这类音频几乎覆盖全部视觉信息的视频，看画面就能答，听不听音频无所谓）。

核心矛盾：评测要测的是「音频和视觉必须协同才能答对」，但如果出题不严谨，模型完全可以靠单模态捷径（只看画面 / 只读字幕 / 只凭常识）或文本线索（题干、选项的措辞长度差异）蒙对，于是基准分数虚高，反映不出真正的跨模态推理能力。论文实测：把 Gemini-2.0-Flash 的音频关掉，它的准确率直接掉到接近随机，说明很多任务的视觉信息根本不够答。

本文目标：造一个「强制音视频协同、且杜绝各种捷径」的基准，同时还能透视模型怎么推理而不只是看最终答案对不对。

切入角度：作者坚持全程人工出题而非自动生成——自动标注的天花板被标注模型本身的能力卡死，而人工出题更贴近真实需求；再用模型做「过滤器」把能被单模态/纯文本解出的题剔除，最后给每道题补上逐步推理链。

核心 idea：用「人工出题 + 模型双重过滤 + 人工精修」三段式流水线，配合显式的原子推理链标注，造出一个既难又干净、能反向诊断模型推理过程的音视频基准。

方法详解¶

整体框架¶

OmniVideoBench 本质是一条数据构造与质检流水线，目标是把「海量真实视频」转化为「1000 道强制音视频协同、且无捷径可走」的高质量多选题。整条管线分三大阶段：先采集 628 个涵盖 8 大类、68 子类、时长从几秒到 30 分钟的真实视频，并由标注员人工出 ~2500 道多选题（覆盖 13 种任务类型）；接着进入双重过滤——用一个强 MLLM（Gemini-2.0-Flash）剔除「只靠单模态就能答对」的题，再用一个强 LLM（DeepSeek-V3.1）剔除「只靠文本/常识就能答对」的题，把题量从 ~2500 压到 1103；最后由另一组标注员人工精修，删掉答案错误/不唯一/不匹配的题，并给每道保留下来的题补上由「模态—证据—推理」三元组构成的原子推理链，最终沉淀出 1000 道题。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["628 真实视频<br/>8大类·68子类·几秒~30分钟"] --> B["视频采集与任务体系<br/>人工出题·13类任务·~2500 QA"]
    B --> C["反捷径出题规则<br/>语义距离约束·选项格式对齐"]
    C --> D["三阶段质检过滤<br/>VLM去单模态→LLM去纯文本<br/>~2500→1103"]
    D --> E["原子化推理链标注<br/>人工精修+模态/证据/推理三元组"]
    E --> F["1000 高质量 QA<br/>平均5.68步推理链"]

关键设计¶

1. 视频采集与任务体系：从源头保证「非协同不可答」

要测音视频协同，首先要保证视频本身音画互补、且任务足够多样。作者把视频分成 Vlog、News、Cartoon、Sports、Documentary、TV、Ego、Others 共 8 大类、近 68 个细粒度子类，并人工控制类别分布——新闻、纪录片这类「音频几乎覆盖全部视觉内容」的视频不适合协同推理，被刻意压低占比。时长上从几秒覆盖到 30 分钟（平均 384 秒），以考查不同时间尺度上的推理；为避免和已有训练集（如热门剧集）重叠，只选近期发布的视频。任务层面设计了 13 种类型：细粒度感知、空间推理、属性比较、背景与音乐理解、计数、时序理解、总结、情感分析、因果推理、关系推理、指代推理、第一人称推理、假设推理。每道题都被要求必须依赖音视频协同、答案唯一且不依赖分辨率/帧率，从出题阶段就把「单模态可解」的口子尽量堵死。

2. 反捷径出题规则：用语义距离约束消除文本作弊线索

即便视频本身需要协同，模型仍可能靠题面/选项的表层线索蒙对，因此作者给出题立了一套硬规则。核心是一个语义距离度量：把选项 \(o_i\) 表示成语义单元集合 \(S_i\)，两选项的距离定义为对称差的基数

\[d(o_i, o_j) = |S_i \triangle S_j|\]

要求所有干扰项与正确项、以及干扰项彼此之间的语义距离保持一致，防止模型靠「某个选项明显更接近正确答案」这种不均衡线索投机。除此之外还有几条规则：题干尽量精简、删去性别/着装/原话等冗余细节（既减少可被利用的文本线索、又提高难度）；限制答案长度避免答案本身泄题；要求选项在长度、语气、风格上格式一致（否则「三长一短」式排版会暗示答案）；干扰项必须真实出现在视频里且与问题相关，让模型无法靠常识直接排除。这些规则共同把「靠读题/读选项作弊」的空间压到最小。

3. 三阶段质检过滤：用强模型当过滤器筛掉可被捷径解出的题

人工出的 ~2500 道题里仍混有大量「能走捷径」的题，作者用两道模型过滤 + 一道人工精修来净化。第一道用具备强音视频感知和长上下文能力的 Gemini-2.0-Flash，专门测试「只给单模态信息能否答对」——若模型仅凭单模态就选对且解释合理，该题被判定为不需要协同、直接剔除，过滤后剩 ~1500 题。第二道用推理能力强的 DeepSeek-V3.1 测试「只靠文本能否答对」：一类是涉及经典/公认常识、不看视频也能答的题，直接丢弃；另一类是题干/选项/答案的措辞无意间泄露线索的题，由标注员审阅模型的推理过程后改写表述以消除偏置，过滤后剩 1103 题。第三道由另一组标注员通读全部题目，删掉答案错误、不唯一或答非所问的题。这种「让强模型先替你找漏洞」的思路，把质检从主观判断变成了可操作的对抗式筛选。

4. 原子化推理链标注：让基准既能评分也能透视推理过程

仅有最终答案无法解释「模型是怎么错的」，所以作者给每道保留题补上逐步推理链。每一步由三个元素构成：模态（这一步依赖音频还是视觉）、证据（从视频里提取的具体信息，如一句台词、一个动作、一个人物出现）、推理（基于该证据得出的判断）。关键约束是每步必须原子化——只涉及一个模态、只捕获一个最小证据单元，这样推理链既细粒度又完整。最终 1000 道题平均 5.68 步推理链，其中 54% 的步骤基于视觉、46% 基于音频，定量印证了两种模态在多步推理里的互补性。这套标注让基准不仅能算准确率，还提供了「模型在哪一模态、哪一步掉链子」的诊断信号。

数据集统计¶

最终数据集：628 个真实带音轨视频，8 大类 68 子类，平均时长 384.24 秒，分辨率 480p–1080p，每视频约 2k 个 ASR 转写 token、约 3 个说话人。标注侧 1000 道音视频推理题，13 种任务类型，平均题长 14.68 词、答案长 4.92 词、推理链 5.68 步；按音频类型分为语音（Speech）762、声音（Sound）147、音乐（Music）91 三类。

实验关键数据¶

主实验¶

评测涵盖闭源（Gemini-3.0/2.5/2.0 系列）与开源（Qwen3-Omni、Qwen2.5-Omni、Baichuan-Omni-1.5、HumanOmni、MiniCPM-o、VideoLLaMA2、VITA-1.5、OmniVinci 等）全模态模型，以及纯视觉 VLM（Qwen2.5-VL 系列）和纯文本 LLM（DeepSeek-V3.1）。人类标注员（10 人，含 2 名音乐专家）准确率为 82.69%。

模型	类型	总准确率	Music	Sound	Speech
人类	—	82.69	—	—	—
Gemini-3.0-Pro	视觉+音频	61.80	52.81	55.17	64.13
Gemini-2.5-Pro	视觉+音频	58.90	38.46	57.72	61.66
Gemini-2.0-Flash	视觉+音频	41.50	29.67	40.27	43.21
Qwen3-Omni-30B-A3B	视觉+音频	38.40	37.36	34.67	39.26
Qwen2.5-Omni-7B	视觉+音频	29.30	23.07	25.33	30.70
VideoLLaMA2-7B	视觉+音频	29.20	26.37	30.67	29.25

最强模型仅 61.8%、绝大多数开源模型逼近随机（~25–30%），凸显基准难度与「真正音视频推理」的鸿沟。

模态消融与分析¶

配置	现象	说明
关闭音频（Visual Only）	Gemini-2.0-Flash 41.5 → 31.3	仅靠视觉不够，证明任务确需协同
视觉 + ASR 文本	普遍优于 Visual Only	文本化语音能补一部分，但对 Music/Sound 几乎无用
视觉 + 真实音频	仍优于视觉+ASR	音频理解不可被 ASR 替代
开放式 QA vs 多选	Gemini-2.0-Flash 41.50 → 27.06；Qwen2.5-Omni-7B 29.30 → 17.25	去掉选项后大幅掉点，说明多选格式确实虚高了分数

关键发现¶

音乐类音频是最难的短板：Gemini-2.5-Pro 在音乐视频上仅 38.46%，远低于语音 61.66%——音乐编码的是抽象的情绪/氛围信息，模型难以把这种低语义声学线索转化为有效推理；「背景与音乐理解」任务连最强模型都不足 50%。
开源模型音频整合能力弱：同参数下处理音视频的 Qwen2.5-Omni-7B 竟不如纯视觉的 Qwen2.5-VL-7B，暴露开源 Omni 模型跨模态推理能力的普遍不足。
帧数越多越好、长视频更明显：帧数从 32 增到 256，准确率稳步上升，且在长视频上增益更显著，说明密集时序采样和长上下文处理对鲁棒的音视频推理很关键。
闭源全面领先、长视频仍是难点：Gemini-2.5-Pro 在 13 类任务中 11 类最优，但多数模型在长视频上仍吃力。

亮点与洞察¶

「让强模型当过滤器」是可复用的质检范式：与其靠人工主观判断哪些题能走捷径，不如直接让强 MLLM/LLM 去尝试用单模态/纯文本解题，凡是被解出的就剔除——把质检变成对抗式自动筛选，可迁移到任何「需要强制多模态协同」的基准构造。
语义距离 \(d(o_i,o_j)=|S_i\triangle S_j|\) 把「选项作弊」量化了：以往出题靠经验避免「三长一短」，这里用对称差给出可计算的均衡性约束，是消除文本捷径的一个干净抓手。
原子推理链让基准从「评分」升级到「诊断」：模态/证据/推理三元组 + 原子化约束，使得错误可以定位到具体模态和步骤，为分析模型推理过程（而非只看答案）提供了结构化信号。
开放式 QA 对照实验戳破多选虚高：去掉选项后所有模型大幅掉点，提醒社区多选格式会系统性高估真实理解能力。

局限与展望¶

规模偏小：1000 道题、628 个视频，相对训练数据量级仍属小样本评测，统计置信区间在细分任务（如音乐仅 91 题）上会偏大。
重度依赖人工：全程人工出题 + 多轮人工精修成本高、难以快速扩展，更新到新模型/新领域时维护代价不低。
多选为主：尽管补做了开放式 QA 对照，主榜仍是多选格式，存在猜测下限；开放式评测的自动判分一致性也是潜在噪声源。
过滤器引入的偏置：用 Gemini-2.0-Flash / DeepSeek-V3.1 当过滤器，可能系统性偏好或排除某类题，使保留题分布带上过滤模型的「指纹」。

评分¶

新颖性: ⭐⭐⭐⭐ 不是新模型/新机制，但「反捷径出题 + 模型过滤 + 原子推理链」组合在音视频协同评测上确有系统性创新
实验充分度: ⭐⭐⭐⭐⭐ 覆盖闭源/开源/纯视觉/纯文本大量模型，含模态消融、ASR 对照、帧数、开放式 QA 等多维分析
写作质量: ⭐⭐⭐⭐ 流水线和发现讲得清楚，量化指标到位
价值: ⭐⭐⭐⭐⭐ 揭示了当前 Omni MLLM 在真正音视频推理（尤其音乐/长视频）上的巨大差距，是有诊断价值的高质量基准