MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark¶

会议: ACL 2025
arXiv: 2409.02813
代码: 排行榜
领域: 多模态 / VLM评估
关键词: 多模态基准, MMMU, 视觉推理, VLM评估, CoT推理

一句话总结¶

本文引入MMMU-Pro，通过过滤纯文本可解的题目、将选项从4个增加到10个、引入"纯视觉输入"设置三步增强了MMMU基准的鲁棒性，导致模型性能下降16.8%~26.9%，更准确地反映了多模态模型的真实理解能力。

领域现状: MMMU是评估多模态大模型在大学级别多学科理解与推理能力的标准benchmark，覆盖30个学科11.5K题目。GPT-4o等模型已在MMMU上达到69.1%，但这些分数是否真正反映了深层多模态理解仍存疑。

现有痛点: (1) 部分MMMU题目可被纯文本LLM正确回答（无需图像）；(2) 4选1的选项空间太小，模型可通过猜测或选项间的线索推断答案；(3) 当前评估未测试模型"看"与"读"的整合能力。

核心矛盾: 现有benchmark分数可能高估了模型的真实多模态理解能力——模型可能在利用文本捷径而非真正理解图像内容。

本文目标: 构建更鲁棒的多模态评估基准，过滤捷径、增加难度、引入更贴近真实使用场景的评估设置。

切入角度: 三步增强流程——过滤、扩选项、纯视觉输入——系统性地堵住现有benchmark的漏洞。

核心 idea: 通过过滤文本可解题目、10选项增难、以及将题目嵌入截图的纯视觉设置，MMMU-Pro暴露了当前多模态模型在真正"看+读"整合能力上的巨大差距。

基于MMMU的三步构造流程：(1) 用4个强开源LLM过滤掉纯文本可解的题目；(2) 人工+GPT-4o将选项从4个扩展到10个，增加猜测难度；(3) 引入纯视觉输入设置，将题目嵌入截图/照片中呈现给模型。最终获得3460道题目（标准1730+视觉1730）。

文本可解题目过滤
- 功能：去除不需要图像就能回答的题目
- 核心思路：用Llama3-70B、Qwen2-72B、Yi-1.5-34B、Mixtral-8×22B四个纯文本LLM各回答MMMU题目10次，若≥3个模型在>5次中答对则过滤
- 设计动机：确保保留的题目真正需要视觉信息，消除文本捷径
选项扩展至10个
- 功能：减少猜测成功的概率
- 核心思路：GPT-4o生成候选选项，Claude 3.5过滤，两轮人工审核确保质量和多样性。同时再次过滤与图像无关的题目（去掉70题）
- 设计动机：4选1有25%随机基线，10选1降至10%，迫使模型真正理解题意
纯视觉输入设置
- 功能：测试模型整合视觉和文本信息的核心认知能力
- 核心思路：人工标注者在多样的显示环境下截屏/拍照，变化背景、字体、字号，题目和选项全部以图像形式呈现
- 设计动机：模拟真实用户场景（用户常截屏提问），挑战模型同时"看"文字和图像的能力

不涉及训练。本文是benchmark构造工作，评估使用Direct和CoT两种提示方式，报告较高分数。

模型	Standard(4选项)	Standard(10选项)	Vision	MMMU(Val)	Δ₁(10选项-MMMU)
GPT-4o (0513)	64.7	54.0	49.7	69.1	-15.1
Claude 3.5 Sonnet	63.7	55.0	48.0	68.3	-13.3
Gemini 1.5 Pro	60.6	49.4	44.4	65.8	-16.4
InternVL2-76B	55.0	41.9	38.0	58.3	-16.4
LLaVA-OneVision-72B	52.3	38.0	24.0	56.8	-18.8
人类专家(High)	88.6	85.4	85.4	88.6	-3.2
随机选择	24.9	12.8	12.4	22.1	-9.3