OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Models¶
会议: ACL 2026
arXiv: 2604.20806
代码: GitHub
领域: 多模态VLM / LLM评估
关键词: 多图推理, 奥赛级推理, 视觉语言模型基准, 跨图关联, 科学推理
一句话总结¶
本文提出 OMIBench——首个面向奥赛级多图推理的大规模基准,涵盖生物、化学、数学、物理四学科超 1000 道竞赛题,发现即使最强 LVLM(Gemini-3-Pro)也仅达约 50% 准确率,比单图基准下降超 25%。
研究背景与动机¶
领域现状:LVLM 在标准推理任务上进步显著,链式思考(CoT)提示在单图奥赛基准上取得了重大突破。OlympiadBench 等现有基准已被头部模型接近饱和。
现有痛点:(1)现有奥赛级多模态基准几乎完全局限于单图问题设置,而真实科学竞赛中大量问题依赖多个相互关联的图表和实验装置图;(2)现有多图基准(如 MuirBench、MMIU)侧重感知和跨图引用,但难度偏低、缺少强语义/定量跨图关联,不足以评估奥赛级推理能力;(3)缺少专家推理路径标注,无法深入分析模型推理过程的具体失败点。
核心矛盾:奥赛级多图推理要求模型不仅理解单张图片,还需(1)维持跨图信息流的连贯性,(2)执行跨图、跨模态的深层推理——这是一种从感知到整合推理的质的飞跃,现有基准无法有效评估。
本文目标:构建覆盖四大理科学科的奥赛级多图推理基准,包含专家推理标注和多种评估协议,系统暴露 LVLM 在多图场景下的推理短板。
切入角度:从国际和国家级学科竞赛中收集需要多图联合推理的真实竞赛题,而非合成或简化的多图任务。
核心 idea:将奥赛级推理评估从单图扩展到多图——证据分散在多张图中时,推理难度发生质变而非量变。
方法详解¶
整体框架¶
OMIBench 包含 1000+ 道奥赛级多图推理题,每题平均 3.07 张图像。支持选择题和开放式作答两种格式。每道题配有专家验证的推理路径(rationale),支持精确匹配和语义等价两种评估模式。数据构建流水线串起三个贡献环节——多图竞赛题数据集构建、两阶段专家推理路径标注、双重评估协议,中间穿插质量控制与分类标注两步脚手架。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["竞赛 PDF 试题<br/>(IPhO / IChO / 国家级竞赛)"] --> B
subgraph B["多图竞赛题数据集构建"]
direction TB
B1["Mathpix OCR → Markdown<br/>人工校验 + 翻译核对"] --> B2["多图筛选:每题 ≥2 张<br/>联合提供证据的图"]
end
B --> C
subgraph C["两阶段专家推理路径标注"]
direction TB
C1["Gemini-2.5-pro 生成<br/>≤16 候选解,留答案正确者"] --> C3["竞赛专家逐题校验修正"]
C1 -->|16 个全错| C2["喂回正确答案重新生成"]
C2 --> C3
end
C --> D["质量控制 + 分类标注<br/>(脚手架)"]
D --> E["OMIBench<br/>1000+ 题,平均 3.07 图/题"]
E --> F["双重评估协议<br/>精确匹配 ACC + GPTScore"]
关键设计¶
1. 多图竞赛题数据集构建:让证据真正分散在多张图里,逼出跨图推理
现有奥赛基准几乎全是单图,掩盖了模型整合多图信息的能力缺陷,所以第一步要保证每道题都"非看多图不可"。作者从国际奥赛(IPhO、IChO 等)、国家/地区竞赛和混合复杂度基准中收集 PDF 试题,用 Mathpix OCR 转成 Markdown 后人工校验,多语言题目先经 Google Translate 翻译再人工核对。关键筛选条件是每题必须包含 \(\geq 2\) 张联合提供推理证据的图像——不是补充插图,而是缺了任何一张就无法解题。这样筛出来的题目平均 3.07 张图,既保证竞赛级难度,又确保多图之间存在非平凡的语义/定量依赖,而非简单的并列罗列。
2. 两阶段专家推理路径标注:先让强模型铺草稿,再让竞赛专家定稿
大多数竞赛数据集只给最终答案、不给解题过程,导致无法定位模型究竟在哪一步翻车。OMIBench 为每题补上专家验证的推理路径(rationale),但纯人工标注成本太高,于是采用"机器初稿 + 人工精修"的两阶段流程:先用 Gemini-2.5-pro-thinking 为每题生成至多 16 个候选解答,保留答案正确的方案;若 16 个全错,则把正确答案喂回去重新生成,仅此一招就省下约 20% 的人工标注量。再由有竞赛经验的标注者逐题校验和修正,确保推理步骤正确、完整、规范。有了这条参考路径,后续才能做"46% 关键步骤存在逻辑错误"这类细粒度的失败分析。
3. 双重评估协议(精确匹配 + GPTScore):堵住开放式答案被低估的漏洞
开放式科学答案常有多种等价表达(不同的单位写法、等价的化学式、化简程度不同的表达式),只用字符级精确匹配会把"答对但写法不同"误判为错,从而系统性低估模型真实能力。OMIBench 因此并行两套指标:精确匹配(ACC)要求答案完全一致,作为严格下界;GPTScore 则在多模态上下文约束下判定开放式答案与参考答案是否语义等价,吸收表达差异。两者一严一宽,共同框定模型能力的真实区间。
损失函数 / 训练策略¶
本文是纯基准工作,不涉及模型训练。
实验关键数据¶
主实验¶
| 模型 | 生物 Score | 化学 Score | 数学 Score | 物理 Score | 总体 Score |
|---|---|---|---|---|---|
| Gemini-3-Pro | 71.31 | 25.35 | 62.56 | 38.92 | 50.53 |
| GPT-5 | 62.55 | 29.03 | 56.51 | 40.80 | 48.11 |
| GPT-5-mini | 59.36 | 24.42 | 56.74 | 43.63 | 47.73 |
| Qwen3-VL-32B | 58.57 | 20.74 | 40.70 | 25.00 | 35.78 |
| InternVL3-78B | 46.61 | 20.74 | 17.21 | 18.63 | 23.83 |
与单图基准对比¶
| 分析 | 数据 |
|---|---|
| Gemini-3-Pro: OlympiadBench → OMIBench | 75.67% → 50.53% (↓25%+) |
| 模型排名相关性(Spearman ρ) | 0.614 < 0.7(中等相关) |
| 人工审查 o4-mini 推理步骤错误率 | 46% 关键步骤存在逻辑错误 |
关键发现¶
- 最强模型 Gemini-3-Pro 也仅达 50.53%,说明多图奥赛推理仍是极大挑战
- 从单图到多图,模型准确率下降超 25%,且模型排名发生显著变化(ρ = 0.614),说明多图推理能力不能由单图能力简单推断
- 闭源与开源差距显著——Gemini-3-Pro 比最佳开源模型高约 15%,但 GPT-4o 仅与开源模型相当,说明规模不是唯一决定因素
- Long CoT、测试时缩放、ICL 带来有限但一致的提升;参数缩放和 think-with-image 方法收益甚微甚至负面
- 化学和物理最难(得分最低),生物最"容易"——可能因为生物题更偏向知识记忆而非多步推理
亮点与洞察¶
- 从单图到多图的"质变"论断得到了坚实的实验支持——25%+ 的绝对下降和排名重排(ρ = 0.614)共同说明这不是简单的难度叠加
- 人工审查发现 46% 关键推理步骤有逻辑错误——模型能生成流畅的推理链但逻辑可能不对,这对 CoT 评估方法论有重要警示
- 四学科覆盖使得基准可以揭示学科间推理能力的不均衡——对教育和能力评估有参考价值
局限与展望¶
- 数据集规模约 1000 题,部分学科子集可能偏小,统计功效有限
- 依赖 GPTScore 做语义评估,LLM-as-judge 在数学/科学答案等价判断上的可靠性待验证
- 多图之间的依赖关系类型(补充信息、矛盾信息、时序变化等)未做细粒度分类
- 未测试多模态 RAG 或工具增强策略
- 题目来源偏向国际和中国竞赛,可能对某些文化背景的模型有不公平偏差
相关工作与启发¶
- vs OlympiadBench (He et al., 2024): 同为竞赛级但仅 <5% 多图题,OMIBench 全部为多图,暴露了此前被单图设置掩盖的能力缺陷
- vs MuirBench / MMIU: 这些多图基准难度低、无竞赛级推理,且无推理路径标注
- vs ReMI (Kazemi et al., 2024): 覆盖数学和物理但难度为 H/COL 级别,不含生物化学,且无推理标注
评分¶
- 新颖性: ⭐⭐⭐⭐ 多图 + 奥赛级的组合是新的评估角度,但基准构建方法论相对标准
- 实验充分度: ⭐⭐⭐⭐⭐ 30+ 模型评测、多种增强策略分析、与单图基准的系统对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰、数据丰富
- 价值: ⭐⭐⭐⭐ 填补了多图奥赛推理评估的空白,对模型能力分析有参考意义