OMHBench: Benchmarking Balanced and Grounded Omni-Modal Multi-Hop Reasoning¶

会议: ACL 2026
arXiv: 2508.16198
代码: 无公开代码（数据集: https://huggingface.co/datasets/HYU-NLP/OMHBench）
领域: 多模态VLM
关键词: 全模态推理、多跳问答、语音理解、路径均衡、Benchmark

一句话总结¶

OMHBench 构造了一个覆盖文本、图像、语音三种上下文的 6,144 题全模态三跳推理 benchmark，通过实体-属性链和 6 种均衡推理路径暴露出当前 MLLM 在语音落地、路径鲁棒性和跨模态 grounding 上的系统性短板。

研究背景与动机¶

领域现状：多模态大模型已经从文本-图像或文本-语音的双模态模型，逐步走向同时处理文本、视觉和语音的 omni-modal 模型。对应的评测也大致分成两类：一类是 Omni-Modal Understanding benchmark，强调模型能否接收三种模态；另一类是 Cross-Modal Multi-Hop Reasoning benchmark，强调模型能否跨模态组合证据完成多跳推理。

现有痛点：这两类评测各有盲区。OMU 数据集虽然输入里有图像和语音，但文本常常只出现在题干或选项里，很多题可以绕开某个模态直接答出，形成 modality shortcut。CMR 数据集更强调推理链，但大多只覆盖文本和图像，缺少语音；同时推理路径分布高度不均衡，例如大量问题都遵循同一种 I-T 或 T-I 顺序，模型在单一路径上的高分不一定代表真正的跨模态推理能力。

核心矛盾：全模态评测想要同时考察“是否使用全部模态”和“是否能稳定执行多跳推理”，但现有数据集往往只能满足其中一边。只放入三种模态不等于模型必须使用三种模态；只做多跳问答也不等于路径分布公平、不同模态顺序都被可靠覆盖。

本文目标：作者希望构造一个更受控的 benchmark：第一，问题必须依赖文本、图像、语音三种证据；第二，每道题有明确的三跳实体-属性推理链；第三，同一题可以被实例化为 6 种模态顺序，从而检查模型是不是只擅长某几条路径；第四，答案形式足够明确，便于做可复现的 exact match 评测。

切入角度：论文把多跳推理抽象成“实体在不同模态之间共享，属性只在某个模态中可见”。例如先在图像图表里根据 goodwill 找到公司，再到文本里读取 inventory，最后到语音里聚合某个数值。这样每一步都必须落在特定模态上，路径也可以被显式控制。

核心 idea：用同一组实体的三张属性表生成三跳问答，再把三张表分别转成文本、图像和语音，并对三种模态分配做全排列，从而得到内容等价但推理路径不同的全模态多跳评测。

方法详解¶

OMHBench 不是提出一个新的模型，而是提出一个面向全模态多跳推理的 benchmark 构造流程。它的关键在于把“题目语义”“模态承载形式”和“推理路径”拆开控制：题目的底层实体和答案保持不变，但证据被放入不同模态，迫使模型沿着指定的模态顺序完成推理。

整体框架¶

整个 pipeline 分为四步。

第一步是 Table Triplet Formation。作者从 finance、economics、climate、nutrition 四个领域收集真实表格数据，来源包括 Yahoo Finance、World Bank、Open-Meteo 和 USDA。对每个样本，构造三张小表；三张表共享同一组实体，但属性互不相同。每张表包含 10 个实体和 3 个属性，并混入干扰实体与干扰属性。

第二步是 Multi-Hop QA Construction。系统从三张表中生成三跳问题。前两跳通常负责定位或筛选实体，最后一跳负责读取或聚合答案。作者定义了 Lookup、Ranking、Comparison、Range、Proximity、Retrieval、Mean、Summation 这 8 类操作，并组合出 Connect 和 Reasoning 两个子集。

第三步是 Omni-Modal Context Generation。三张表会被转成三种上下文：文本、图像和语音。文本由 LLM 按不同场景改写成报告、新闻、会议纪要等自然语言；图像用 Matplotlib 和 Seaborn 生成多种图表；语音先由 LLM 生成多说话人脚本，再用 Kokoro-82M TTS 合成音频。

第四步是 Reasoning Diversification。作者对三张表到三种模态的分配做全排列，得到 S-I-T、S-T-I、I-S-T、T-S-I、I-T-S、T-I-S 六种推理路径。同一题的底层答案不变，但模型需要先后访问的模态不同，因此可以比较路径本身对模型表现的影响。

关键设计¶

实体-属性三跳推理建模:
- 功能：把全模态推理任务约束成清晰的三跳链条，每一跳都围绕实体和属性展开，避免题目只靠题干常识或单一模态就能解出。
- 核心思路：实体在三张表之间共享，而属性被分散到不同表里；当表被映射到文本、图像、语音后，模型必须跨模态追踪同一实体。Connect 子集固定使用 Lookup-Comparison-Retrieval，考察单实体链式连接；Reasoning 子集允许 Ranking、Range、Proximity、Mean、Summation 等操作，考察集合筛选和数值聚合。
- 设计动机：这种设定把“是否真的用了某个模态”变成可检查的结构约束。只要中间某个属性只存在于语音或图像，模型跳过该模态就无法稳定得到正确答案。
表格三元组到全模态上下文的可控转换:
- 功能：让同一份结构化知识以不同模态出现，同时尽量保持事实一致性和表达多样性。
- 核心思路：文本侧用 24 类领域场景 prompt 生成自然语言描述；图像侧用 10 类图表、20 种字体、20 种颜色和 2 个绘图库增加视觉变化；语音侧用 22 类场景、四说话人对话和 27 种 TTS 声音生成音频。作者还做了表格重建和 factoid QA 一致性检查，报告转换后事实一致性达到 100%。
- 设计动机：如果只把表格机械地转成三种格式，benchmark 会过于单调；如果完全自由生成，又容易引入事实漂移。这里用真实表格做底座，再用受控生成增加风格多样性，是可扩展性和可靠性之间的折中。
路径均衡与鲁棒性指标:
- 功能：避免某条推理路径占据数据集主导地位，并量化模型是否能在内容等价但路径不同的版本上稳定答对。
- 核心思路：每道题对应 3 种模态的 \(3! = 6\) 个排列，因此六条路径各有 1,024 个样本，总计 6,144 题。论文提出 Path Balance Score，记第 \(i\) 组题在第 \(j\) 条路径上的正确性为 \(a_{i,j}\)，PBS 只在 \(\sum_j a_{i,j}=6\) 时计为该组成功，也就是同一题的 6 个路径版本全部答对才算路径鲁棒。
- 设计动机：平均准确率只能说明模型在混合分布上的总体表现，PBS 则更严格地检查跨路径一致性。一个模型如果 S-T-I 很强但 I-T-S 很差，平均分可能仍然可看，PBS 会直接揭示这种不对称 grounding。

损失函数 / 训练策略¶

本文不训练新模型，因此没有模型损失函数。评测时作者使用 zero-shot chain-of-thought prompt，不指定固定推理格式；对支持 reasoning mode 的模型设置 8,192 token thinking budget。输出被解析为离散数值答案，用 exact match 计算正确率。由于 OMHBench 的答案都是正整数，作者还在 600 个样本上对比人工判断、LLM-as-a-Judge 和 exact match，三者结果完全一致。

实验关键数据¶

主实验¶

论文评测了 13 个 MLLM，包括 Gemini 系列闭源模型和 Qwen3-Omni、Phi-4 Multimodal、Qwen2.5-Omni、OmniVinci、MiniCPM-o、Omni-AutoThink 等开源模型。下面保留最能说明问题的代表性结果。

模型	OMHBench-Connect 平均准确率	PBS	最强路径	最弱路径
Gemini 3 Flash	78.3	32.2	S-T-I 98.4	I-T-S 60.2
Gemini 2.5 Pro	72.5	25.0	S-T-I 96.9	T-I-S 50.8
Gemini 2.5 Flash	53.6	4.7	S-T-I 85.9	T-I-S 21.9
Qwen3-Omni 30B	46.8	2.3	S-T-I 77.0	I-T-S/T-I-S 16.0
Phi-4 Multimodal	15.1	0.0	S-I-T 26.6	T-I-S 0.0
Qwen2.5-Omni 7B	14.5	0.0	S-I-T 22.7	T-I-S 1.8

Connect 子集相对简单，因为中间状态始终是单实体。即便如此，最强模型 Gemini 3 Flash 的 PBS 也只有 32.2，说明它能答对大量单路径样本，却很难保证同一题在六种路径下全部答对。Qwen3-Omni 30B 是最强开源模型，但 S-T-I 到 I-T-S 的准确率差距达到 61.0 个百分点。

模型	OMHBench-Reasoning 平均准确率	PBS	最强路径	最弱路径
Gemini 3 Flash	49.4	8.6	S-T-I 58.8	I-T-S 40.0
Gemini 2.5 Pro	48.8	10.9	S-I-T 53.9	I-T-S 41.4
Gemini 2.5 Flash	21.0	0.0	S-I-T 32.0	I-T-S/T-I-S 10.9
Gemini 2.5 Flash-lite	10.7	0.0	S-T-I 21.1	I-T-S/T-I-S 0.0
Qwen3-Omni 30B	15.0	0.0	S-T-I 28.5	I-T-S/T-I-S 2.7
Phi-4 Multimodal	0.3	0.0	S-I-T 0.6	T-S-I 0.0

Reasoning 子集明显更难，因为前两跳可能产生实体集合，最后还要做求和或均值等数值聚合。最强模型也只有约 49% 平均准确率；大多数开源模型接近 0，说明“能听、能看、能读”距离“能跨三种模态做受控多跳推理”还有很大差距。

消融实验¶

这篇论文是 benchmark 工作，没有传统模型消融；更有价值的是一组受控分析实验，验证 OMHBench 是否真的消除了 shortcut、是否能诊断路径敏感性。

分析项	设置	关键结果	说明
OMU shortcut 验证	移除视觉或语音输入后再测可解比例	既有 OMU benchmark 约 70%-80% 样本仍可解；OMHBench 几乎没有 shortcut-prone 样本	实体-属性三跳结构确实迫使模型使用全部模态
PBS@k 路径鲁棒性	同一题 6 条路径中至少答对 k 条才计分	Gemini 3 Flash 在 Connect 上 PBS@1 为 100.0、PBS@6 为 32.2；在 Reasoning 上 PBS@1 为 90.0、PBS@6 为 8.6	答对任意一个路径很容易，六条路径都稳才难
输入模态顺序	固定推理路径，枚举输入上下文排列	Connect 的 T-S-I 路径最高波动 12.5 点；Reasoning 的 S-I-T 路径最高波动 11.5 点	模型不仅受“推理路径”影响，也受“输入摆放顺序”影响
Exact Match 验证	600 个 Gemini 3 Flash 输出，比较人工、LLM-as-a-Judge 和 EM	三种评测完全一致，Connect 为 72.7，Reasoning 为 45.7	正整数答案让自动评测可靠，减少主观打分噪声
TTS 质量检查	ASR 与语音质量指标	WER 0.03、CER 0.02、STOI 99.2、SI-SDR 21.0	语音错误率较低，模型失败更可能来自语音 grounding 而非音频失真

关键发现¶

闭源模型整体强于开源模型，但闭源模型也没有解决路径不对称问题。Gemini 3 Flash 在 Connect 上平均 78.3，看似很强，PBS 只有 32.2；到 Reasoning 子集，PBS 进一步降到 8.6。
语音位置是核心瓶颈。路径中较早访问语音通常更容易，推理后段转向语音，例如 I-S 或 T-S，往往更难。作者把这种现象称为 asymmetric omni-modal grounding。
路径分布会改变模型排名。比如 Reasoning 子集中，Gemini 2.5 Pro 在 I-S-T 上优于 Gemini 3 Flash，但在 T-S-I 上落后；这说明只报单一路径或混合平均值会隐藏重要行为差异。
操作类型也影响难度。Ranking 相对容易，Comparison、Proximity、Range 更难，尤其是涉及数值邻近或区间约束时，模型更容易在中间实体集合上犯错。
高级 prompting 不能根本解决问题。Self-Ask、Least-to-Most、Plan-and-Solve 相比普通 CoT 没有稳定增益，说明问题主要不是提示词形式，而是模型内部跨模态语义传递能力不足。

亮点与洞察¶

OMHBench 的最巧之处在于把同一问题复制成六条路径版本。这样一来，数据内容、答案和问题语义都被控制住，只改变证据所在模态顺序，因而可以更干净地测出模型对路径的偏好。
PBS 是一个比平均准确率更苛刻也更有解释力的指标。它直接问模型“同一道题换一种模态顺序还能不能答对”，对评估真正的全模态 grounding 很有价值。
数据构造没有完全依赖生成式模型来“凭空写题”，而是以真实表格为底层事实源，规则化地产生问题和答案。这降低了答案漂移和不可验证性的风险，也让 exact match 更可信。
论文把语音从“附加输入”提升为推理链中的必要证据。这个设计对后续 audio-language 或 speech-aware VLM 训练很有启发，因为模型必须把语音内容当成可查询的结构化知识，而不是背景材料。
OMHBench 的分析提醒我们，多模态 benchmark 不应该只看是否支持多种输入格式。真正重要的是每个模态是否携带不可替代的信息，以及模型是否能在不同模态顺序下稳定转移实体和属性。

局限与展望¶

任务形式仍然比较受控。OMHBench 主要覆盖实体-属性关系和固定三跳链条，适合精确诊断，但与开放世界问答、长视频理解、真实会议音频推理等复杂场景还有距离。
语音数据由 TTS 合成，虽然质量指标很好，但它不能完全代表真实口语中的口音、噪声、打断、重叠说话和语速变化。后续可以加入真实录音或半真实场景音频。
图像侧主要是表格可视化图表，不包含自然图像、界面截图、文档扫描等更复杂视觉证据。因此它评估的是图表/结构化视觉理解，而不是全部视觉 grounding 能力。
答案被设计为正整数，便于 exact match，但也限制了问题类型。现实任务中常见的开放式解释、条件判断、证据引用和不确定性回答并未覆盖。
数据生成使用 GPT-5.1、Grok-4、Claude-Sonnet-4.5 等模型生成文本与脚本，虽然底层事实可控，但语言风格仍可能带有这些生成器的分布偏好。更细粒度的人类改写或跨语言版本会让 benchmark 更稳健。
后续值得把 OMHBench 用作训练诊断集：不仅评测最终答案，也监督每一步实体、属性和模态跳转，让模型学习在语音、文本、图像之间显式对齐中间状态。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把全模态、三跳推理和路径均衡合在一个可控 benchmark 中，问题定义很清楚，创新主要在评测设计而非模型方法。
实验充分度: ⭐⭐⭐⭐⭐ 评测 13 个模型，报告准确率、PBS、PBS@k、路径分析、输入顺序、prompting、shortcut 和评测协议验证，诊断维度很完整。
写作质量: ⭐⭐⭐⭐☆ 论文结构清楚，方法和分析闭环好；少量表格和图示信息密集，读者需要来回对照主文与附录。
价值: ⭐⭐⭐⭐⭐ 对全模态 MLLM 评测很有价值，尤其是揭示了平均准确率掩盖的语音 grounding 与路径不对称问题。