MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark¶
会议: ACL 2025
arXiv: 2409.02813
代码: 排行榜
领域: 多模态 / VLM评估
关键词: 多模态基准, MMMU, 视觉推理, VLM评估, CoT推理
一句话总结¶
本文引入MMMU-Pro,通过过滤纯文本可解的题目、将选项从4个增加到10个、引入"纯视觉输入"设置三步增强了MMMU基准的鲁棒性,导致模型性能下降16.8%~26.9%,更准确地反映了多模态模型的真实理解能力。
研究背景与动机¶
领域现状: MMMU是评估多模态大模型在大学级别多学科理解与推理能力的标准benchmark,覆盖30个学科11.5K题目。GPT-4o等模型已在MMMU上达到69.1%,但这些分数是否真正反映了深层多模态理解仍存疑。
现有痛点: (1) 部分MMMU题目可被纯文本LLM正确回答(无需图像);(2) 4选1的选项空间太小,模型可通过猜测或选项间的线索推断答案;(3) 当前评估未测试模型"看"与"读"的整合能力。
核心矛盾: 现有benchmark分数可能高估了模型的真实多模态理解能力——模型可能在利用文本捷径而非真正理解图像内容。
本文目标: 构建更鲁棒的多模态评估基准,过滤捷径、增加难度、引入更贴近真实使用场景的评估设置。
切入角度: 三步增强流程——过滤、扩选项、纯视觉输入——系统性地堵住现有benchmark的漏洞。
核心 idea: 通过过滤文本可解题目、10选项增难、以及将题目嵌入截图的纯视觉设置,MMMU-Pro暴露了当前多模态模型在真正"看+读"整合能力上的巨大差距。
方法详解¶
整体框架¶
基于MMMU的三步构造流程:(1) 用4个强开源LLM过滤掉纯文本可解的题目;(2) 人工+GPT-4o将选项从4个扩展到10个,增加猜测难度;(3) 引入纯视觉输入设置,将题目嵌入截图/照片中呈现给模型。最终获得3460道题目(标准1730+视觉1730)。
关键设计¶
-
文本可解题目过滤
- 功能:去除不需要图像就能回答的题目
- 核心思路:用Llama3-70B、Qwen2-72B、Yi-1.5-34B、Mixtral-8×22B四个纯文本LLM各回答MMMU题目10次,若≥3个模型在>5次中答对则过滤
- 设计动机:确保保留的题目真正需要视觉信息,消除文本捷径
-
选项扩展至10个
- 功能:减少猜测成功的概率
- 核心思路:GPT-4o生成候选选项,Claude 3.5过滤,两轮人工审核确保质量和多样性。同时再次过滤与图像无关的题目(去掉70题)
- 设计动机:4选1有25%随机基线,10选1降至10%,迫使模型真正理解题意
-
纯视觉输入设置
- 功能:测试模型整合视觉和文本信息的核心认知能力
- 核心思路:人工标注者在多样的显示环境下截屏/拍照,变化背景、字体、字号,题目和选项全部以图像形式呈现
- 设计动机:模拟真实用户场景(用户常截屏提问),挑战模型同时"看"文字和图像的能力
损失函数 / 训练策略¶
不涉及训练。本文是benchmark构造工作,评估使用Direct和CoT两种提示方式,报告较高分数。
实验关键数据¶
主实验¶
| 模型 | Standard(4选项) | Standard(10选项) | Vision | MMMU(Val) | Δ₁(10选项-MMMU) |
|---|---|---|---|---|---|
| GPT-4o (0513) | 64.7 | 54.0 | 49.7 | 69.1 | -15.1 |
| Claude 3.5 Sonnet | 63.7 | 55.0 | 48.0 | 68.3 | -13.3 |
| Gemini 1.5 Pro | 60.6 | 49.4 | 44.4 | 65.8 | -16.4 |
| InternVL2-76B | 55.0 | 41.9 | 38.0 | 58.3 | -16.4 |
| LLaVA-OneVision-72B | 52.3 | 38.0 | 24.0 | 56.8 | -18.8 |
| 人类专家(High) | 88.6 | 85.4 | 85.4 | 88.6 | -3.2 |
| 随机选择 | 24.9 | 12.8 | 12.4 | 22.1 | -9.3 |
消融实验¶
| 实验条件 | 结论 |
|---|---|
| CoT vs Direct (Claude 3.5) | Standard: 42.7%→55.0% (+12.3%),CoT显著提升 |
| CoT vs Direct (VILA-1.5) | 显著下降,因指令遵循能力不足导致格式错误 |
| OCR提示 vs 无OCR (Vision) | GPT-4o: 49.7% vs 49.4%,OCR提示几乎无影响 |
| CoT按学科 (GPT-4o) | 工程: +14.49%, 科学: +8.22%, 艺术设计: +1.58% |
关键发现¶
- 从MMMU到MMMU-Pro的性能下降幅度为16.8%~26.9%,表明现有模型在MMMU上的分数被高估
- 人类专家从MMMU到MMMU-Pro仅下降1.8~3.2%,而模型下降15-27%,差距被显著放大
- Vision设置比Standard(10选项)再降4-14%,开源模型(如LLaVA-OneVision-72B降14%)在文字图像整合上尤其薄弱
- OCR提示几乎无帮助,说明瓶颈不在文字提取而在于图像中文字和视觉元素的语义整合
- CoT在推理密集型学科(工程、科学)帮助最大,在主观性学科(艺术设计)效果有限甚至负面
亮点与洞察¶
- 纯视觉输入设置的创新性:将题目嵌入截图测试"看+读"整合能力,贴近真实用户行为,暴露了模型在图文交织场景下的根本弱点
- 人机差距的放大镜:MMMU上人机差距约20%,MMMU-Pro上扩大到30-40%,更真实地反映了多模态AI的现状
- OCR不是瓶颈的发现:强模型已具备良好OCR能力(>85%),Vision设置的难度来源于需要理解文字在视觉上下文中的语义关系
局限与展望¶
- 人类专家性能为基于原MMMU数据的近似估计,未在MMMU-Pro上直接评估
- 10选项的扩展引入了GPT-4o/Claude的偏见,可能影响选项质量
- 纯视觉输入的截图由人工拍摄而非程序生成,可能引入非预期的视觉线索(如背景颜色)
- 未包含自由响应题型(仅多选),不反映模型的开放式推理能力
- 学科分布可能不均匀,某些学科的题目可能过于依赖领域知识而非视觉理解
相关工作与启发¶
- MMMU (Yue et al. 2024): MMMU-Pro的基础benchmark,11.5K大学级多学科多模态题目
- Du et al. (2023) / Yuksekgonul et al. (2023): 揭示多模态模型利用捷径的研究,本文借鉴其发现系统性地构建更鲁棒的benchmark
- 启发:benchmark设计应该持续迭代升级以追赶模型能力的提升,纯视觉输入设置可以推广到其他多模态benchmark
评分¶
- 新颖性: ⭐⭐⭐⭐(纯视觉输入设置是亮点,三步增强方法论有推广价值)
- 实验充分度: ⭐⭐⭐⭐⭐(20+模型评估,CoT/OCR/学科维度全面分析)
- 写作质量: ⭐⭐⭐⭐⭐(图表清晰,层次分明,动机阐述convincing)
- 价值: ⭐⭐⭐⭐⭐(已成为多模态模型评估的标准benchmark之一,影响力大)