XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models¶

会议: ICLR 2026
论文: Project Page
代码: https://github.com/XingruiWang/XModBench (有)
领域: 多模态VLM
关键词: 全模态大模型, 跨模态一致性, 音视频文本, 评测基准, 模态偏置

一句话总结¶

XModBench 是首个"三模态全平衡"的多选题评测基准，用 6.1 万道把同一语义在音/图/文三种模态、6 种"上下文→候选"方向上各问一遍的题目，专门诊断全模态大模型（OLLM）到底是真做到了模态无关推理，还是在偷偷依赖某种模态的表层特征——结论是连最强的 Gemini 2.5 Pro 都远没达标。

研究背景与动机¶

领域现状：全模态大模型（Omni-modal LLM，OLLM）如 Gemini 2.5、Qwen2.5-Omni 把文本、视觉、音频塞进同一个推理框架，号称能"统一理解"。现有评测（Music-AVQA、OmniBench、WorldSense、AVQA 等）基本只看"模型能不能答对跨模态问题"，即综合准确率。

现有痛点：这些 benchmark 几乎都把上下文或候选项固定在单一模态（比如永远是"看图选文字"），覆盖不到所有模态方向；更关键的是，它们都不检验一致性——当同一件事换成"听声音选图""看图选声音"时，模型答案会不会变。少数做一致性的工作（如 Modality Importance Score、文本-图像一致性）又只局限在视觉-文本这一个模态对里。

核心矛盾：人类做跨模态整合是无缝的——"狗叫"无论是听到、看到还是读到，结论都一样。但 OLLM 究竟是在共享语义表示上推理（模态无关），还是在不同模态各自记了一套表层模式（模态特定偏置）？这二者用现有"只看综合准确率"的评测根本区分不开：一个模型在"图→文"上拿高分，可能只是视觉通道强，并不代表它在"音→文"上同样可靠。

本文目标：造一个能把"模态无关推理 / 模态间差距 / 方向不对称"三件事拆开、量化诊断的基准。

切入角度：关键观察是——只要让语义完全相同的题目在不同模态配置下各问一遍，准确率的分歧本身就是"依赖表层模式"的直接证据。于是把"控制变量"思想搬进评测设计：固定语义内容，只变模态。

核心 idea：用音/图/文对齐三元组造题，把每道题实例化成全部 6 种"上下文模态→候选模态"方向，再在这套平衡设计上定义两个差异指标，直接量出模型的模态偏置和方向不对称。

方法详解¶

整体框架¶

XModBench 本质是一条"造数据 + 定指标"的评测构建流水线，不是一个模型。它要回答的是"怎么把跨模态一致性测出来"。整体分三步走：先收集音-图-文 对齐三元组（同一语义有三种模态形态），把每个三元组按"上下文取哪种模态、四个候选取哪种模态"排列组合，实例化成 6 种模态配置的多选题；这些题覆盖 5 大任务族 17 个子任务，经过 LLM 过滤 + 人工核验后得到 10,220 个独立实例、61,320 道题；最后在这套平衡题库上定义 3 个诊断维度（任务能力 / 模态差距 / 方向不对称），把模型的弱点细粒度地照出来。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["音-图-文<br/>对齐三元组"] --> B["三阶段数据构建<br/>收集→造选项→过滤核验"]
    B --> C["模态平衡设计<br/>1题→6种上下文/候选配置"]
    C --> D["五任务族 17 子任务<br/>感知/空间/时序/语言/外部知识"]
    D --> E["三维诊断指标<br/>任务能力·模态差距·方向不对称"]
    E --> F["输出：OLLM 跨模态一致性诊断报告"]

关键设计¶

1. 模态平衡设计：同一道题强行问满 6 个方向，把"模态"变成唯一变量

这针对"现有 benchmark 固定上下文/候选模态、测不出一致性"的痛点。每道题是四选一的多选题，由一个 <context>（题干，描述某对象/事件）和四个 <candidates>（选项）组成。把文本(T)、视觉(V)、音频(A) 在 context 和 candidates 两个位置上做排列，就得到 6 种配置：\(A\!\to\!T,\ A\!\to\!V,\ T\!\to\!A,\ T\!\to\!V,\ V\!\to\!A,\ V\!\to\!T\)（箭头左边是上下文模态、右边是候选模态）。因为同一份语义被实例化成 6 个版本、内容完全不变只换模态壳，任何配置间的准确率差异都只能归因于模态本身——这正是"控制变量"在评测里的体现，也是后面两个诊断指标能成立的前提。没有平衡设计，"模型在音频上弱"这种结论就永远和"音频任务恰好更难"纠缠不清。

2. 五任务族 17 子任务：覆盖从感知到外部知识的能力谱，且每个子任务都跨模态可问

光有平衡方向还不够，得保证测的能力够全且够难。XModBench 设计了 5 大任务族：感知（识别同一对象/活动/乐器/自然环境，含通用与细粒度识别）、空间推理（2D 左右排列、3D 定位、3D 运动方向，音频用立体声左右/远近线索）、时序推理（事件顺序、重复计数、计数后再做简单算术如 \(2\times\text{count}\)）、语言理解（跨模态的文字识别/OCR-ASR 统一、中英翻译、对话情绪分类）、外部知识（电影识别、音乐流派、歌手辨识，需链接世界知识）。每个子任务都按平衡设计实例化到所有模态对，干扰项专门造得"语义接近但不歧义"（如翻译题把"very"换成"a little"、计数题只差几次、乐器题同类混淆），逼模型做精确判别而非蒙。

3. 三维诊断指标：把"综合准确率"拆成能力、模态差距、方向不对称三把尺子

这是 XModBench 区别于普通 benchmark 的核心。① 任务能力：每个任务在 6 个模态方向上都问过，对它们取平均，得到不受单一模态偏置干扰的任务级能力估计。② 模态差距（Modality disparity）：固定语义、只换模态来量两种模态谁更弱，定义为成对相减之和，例如比较文本与视觉

\[\Delta_{T\ \text{vs}\ V} = (\text{Acc}_{A\to V} - \text{Acc}_{A\to T}) + (\text{Acc}_{V\to A} - \text{Acc}_{T\to A})\]

负值越大说明把同样内容换成该模态时掉分越狠。③ 方向不对称（Directional imbalance）：交换 context 与 candidate 的角色看准确率差

\[\Delta_{X\leftrightarrow Y} = \text{Acc}(X\to Y) - \text{Acc}(Y\to X),\quad (X,Y)\in\{(A,T),(V,T),(V,A)\}\]

它暴露的是"读 X 选 Y"和"读 Y 选 X"不对等的 grounding 缺陷——理想的模态无关模型这俩应该相等。三把尺子合起来，就能说清模型到底是"哪类任务弱""哪种模态弱""哪个方向弱"。

4. 三阶段数据构建：保证三元组真对齐、选项有挑战、标注可信

跨模态一致性评测的命门是"三种模态版本必须语义严格对齐"，否则差异就成了噪声。流水线分三阶段：(i) 跨模态收集——融合三类来源：重标注/扩展已有数据集（如 VGG-Sound 做感知、STARSS23 做空间）、合成补全缺失模态（FireRedTTS 生成语音、渲染翻译用的文字图）、网络采集冷门域（歌手肖像与歌曲、电影海报与预告）；(ii) 题目候选生成——先用人工模板套三元组造多选题，再用 GPT-5 仅润色语言流畅度（明确不引入新信息、不改语义），干扰项造得语义难但无歧义；(iii) LLM 过滤 + 人在环核验——先用基础模型过滤低质/歧义样本，再由标注员双重核对、内部试答、对有歧义的题反复重生成重测，直到合格。这套流程换来的是 61,320 道高质量、跨模态严格对齐的题。

实验关键数据¶

主实验¶

在 14 个开源/闭源 OLLM 上评测（含 Gemini 1.5/2.0/2.5 系列、Qwen2.5-Omni、EchoInk-R1、Baichuan-Omni、VITA、Unified-IO 2 系列、PandaGPT 等），并设人类与"无上下文"对照。报告各任务族平均准确率、6 种模态配置准确率、整体均值 Avg. 与跨配置标准差 Std.（越小越稳健）。

模型	Avg.	Perc.	Spat.	Temp.	Ling.	Knwl.	Std.（6配置）
人类	91.5	91.0	89.7	88.9	93.9	93.9	3.0
Gemini 2.5 Pro	70.6	75.9	50.1	60.8	76.8	89.3	11.7
Gemini 2.5 Flash	63.7	66.1	48.0	48.6	73.1	82.8	14.2
EchoInk-R1（开源最强）	59.2	75.8	36.6	37.1	73.3	73.3	11.3
Qwen2.5-Omni	58.6	75.5	38.4	32.3	74.1	72.8	10.1
Gemini 1.5 Pro	55.0	56.2	40.1	37.1	72.6	69.4	16.7
No Context（瞎猜对照）	25.1	25.5	24.8	24.9	24.7	25.5	0.4

要点：① 最强的 Gemini 2.5 Pro 也只有 70.6，离人类 91.5 差一大截，空间(50.1)、时序(60.8) 是公认短板（比感知/语言低 15–25 分）；② 开源最强 EchoInk-R1/Qwen2.5-Omni 在感知上能追平 Gemini 2.5 Pro，但外部知识差很多（Gemini 2.5 Pro 89.3 vs ~73），作者归因于闭源模型更大规模的网络预训练；③ "No Context" 全在 25% 随机线附近，说明题目无法靠先验蒙对，设计有效。

诊断指标分析（模态差距 / 方向不对称）¶

诊断维度	关键数值（Gemini 2.5 Pro）	说明
\(\Delta_{T\ \text{vs}\ A}\)（文本 vs 音频）	−49	差距最大，音频是最弱模态
\(\Delta_{V\ \text{vs}\ A}\)（视觉 vs 音频）	−33	中等
\(\Delta_{T\ \text{vs}\ V}\)（文本 vs 视觉）	−15	最小，文本最稳健
\(\Delta_{T\to V \leftrightarrow V\to T}\)	8.8（Qwen2.5-Omni 达 16.6）	视觉-文本方向不对称明显
音频-文本方向差	~6–8	也存在不对称
音频-视觉方向	近乎对称但整体准确率最低	缺文本锚点时最难

关键发现¶

音频是全场最弱一环：只要题目涉及音频，准确率就大幅下滑；感知任务在视觉-文本下能超 90%，换成音频-文本直接掉 20+ 分。听觉表示的对齐质量远落后于视觉。
方向不对称暴露双向对齐没做全：候选项是文本时普遍更准；\(T\to V\) 比 \(V\to T\) 系统性更高，作者推测是训练数据偏向"以文本为输出模态"。
标准差是被低估的诊断量：Gemini 2.5 Pro 在高准确率同时 Std. 仅 11.7（最稳）；Gemini 1.5 Pro、Baichuan-Omni 1.5 的 Std. >14，说明它们对模态变化更脆弱——光看 Avg. 看不出这种鲁棒性差异。
失败案例：让模型边答边给推理，发现常见错误正对应模态差距与对齐问题（如对音频内容的错判、跨模态 grounding 错位）。⚠️ 具体失败类别细节以原文 Sec. 4.5 为准。

亮点与洞察¶

"控制变量"思想做评测：固定语义、只变模态，把"模型弱"和"任务难"彻底解耦——这是 XModBench 能给出可信一致性结论的根本，也是普通 benchmark 学不来的地方。
两个诊断指标可直接复用：模态差距 \(\Delta_{\text{vs}}\) 和方向不对称 \(\Delta_{\leftrightarrow}\) 的定义很通用，任何想测"模态偏置/双向对齐"的多模态系统都能照搬这套成对相减的算法。
Std. 当作鲁棒性指标：用跨配置标准差量"模型对模态变化的稳定性"，提供了一个超越平均准确率的评价角度，值得迁移到其他多配置评测。
三源数据构建模板：重标注现有集 + 合成补缺模态 + 网络采冷门域，是造"严格三模态对齐"数据集的实用配方。

局限与展望¶

只覆盖音/图/文三模态：未涉及视频时序的更复杂场景、触觉/3D 点云等其他模态；"全模态"实际仍是三模态。
多选题格式的天花板：四选一能精确判分，但也限制了对开放式生成、长链推理一致性的评估；真实应用里模型未必以选择题形式工作。
GPT 系列被排除：因 OpenAI API 当前不支持音视频联合输入而未评测，闭源对比不完整。⚠️ 以原文为准。
改进思路：可扩展到开放式作答的一致性度量、引入更多模态对、或把诊断指标反过来当训练信号去显式优化模态无关性。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个三模态全平衡、专测跨模态一致性的基准，控制变量式设计是真创新
实验充分度: ⭐⭐⭐⭐⭐ 14 个 OLLM + 人类对照，三维诊断把弱点照得很细
写作质量: ⭐⭐⭐⭐ 设计动机与指标定义清晰；部分子任务细节散在附录
价值: ⭐⭐⭐⭐⭐ 给 OLLM 指出"音频弱、方向不对称"的明确改进方向，诊断工具价值高