MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning¶

会议: ICLR 2026
arXiv: 2603.02024
代码: 项目页面
领域: 多模态评估基准
关键词: 多模态推理, 多图推理, 真实场景, 推理类型, 基准评估

一句话总结¶

提出 MMR-Life 基准（2646 道 5 选 1 多图选择题，基于 19108 张真实图像，覆盖 7 种推理类型和 21 个任务），首次系统评估 MLLM 在真实生活场景中的多图推理能力，发现最强模型 GPT-5 仅 58.69% 准确率，距人类水平差 14%，并揭示了推理增强方法在大模型上失效、RL 泛化弱于 BoN 等关键发现。

研究背景与动机¶

MLLM 推理评估存在两条主流路线，但两者都偏离日常推理场景：
- 知识密集型基准（MMMU、GPQA 等）：使用专家级 STEM 题目，日常推理很少需要专业知识
- 合成符号型基准（VisualPuzzles、PuzzleVQA 等）：使用拼图/符号图案，与真实视觉场景差距大
多图输入严重不足：
- 大多数多模态推理基准仅用单图输入（MMMU 平均 1.05 张），不符合人类从多图序列获取信息的真实感知模式
- 现有多图基准要么包含非推理任务，要么只覆盖有限推理类型（如仅空间推理）
核心需求：需要一个全面覆盖多种推理类型、基于真实生活场景、支持多图输入的 MLLM 推理基准

方法详解¶

整体框架¶

MMR-Life 是一个面向真实生活场景的多图多模态推理基准，共 2646 道 5 选 1 多选题，基于 19108 张真实图像，覆盖 7 种推理类型和 21 个子任务，每题平均 7.22 张图。它的构造是一条数据流水线：先从公开图像数据集、开放网络资源、视频抽帧和已有基准多源采集真实图像，再按 7 种推理类型设计任务、用"自动合成 + 人工标注"两条路径生成约 3.2K 道候选题、为每题构造易混淆的干扰项，最后经难度/格式/质量三阶段过滤筛到 2646 道。整套设计刻意回避领域专业知识，把难度集中在"整合多图信息 + 运用多种推理能力"这一日常推理核心上，从而与现有知识密集型或合成符号型基准区分开。

关键设计¶

1. 七种推理类型的系统化分类：让基准覆盖完整的日常推理谱系

现有多图基准往往只覆盖单一推理类型（如仅空间推理），无法刻画人类在真实场景中混合调用的多种推理能力。MMR-Life 把题目显式划分为七类，并保持相对均衡的分布：溯因推理（从观察反推最合理解释，307 题 11.60%）、类比推理（发现相似性并迁移到新情况，568 题 21.47%）、因果推理（从原因推断效果，263 题 9.94%）、演绎推理（从一般规则推断具体情况，282 题 10.66%）、归纳推理（从具体观察归纳规律，429 题 16.21%）、空间推理（理解物体位置与空间关系，255 题 9.64%）、时序推理（推断事件顺序与时间，542 题 20.48%）。这种分类不仅让评估结果可以按推理类型细分（后续实验正是借此暴露出空间/时序推理是当前 MLLM 的共同瓶颈），也为推理能力的相关性与聚类分析提供了结构基础。

2. 多源采集与三阶段质控：在真实图像上构造可靠且无捷径的题目

为保证场景真实且题目可靠，数据从公开图像数据集（Kaggle）、开放网络资源（eBird 等）、公开视频抽帧以及现有基准多路汇集。题目生成兼用两条路径：能用规则可靠合成的（如时序排列任务直接利用视频帧的先后信息）走自动管线，需要隐含推理的（如溯因任务）则交由人工标注。干扰项的构造尤其讲究——图片选项用启发式规则采样易混淆的错误候选，文本选项先由 GPT-5-mini/GPT-4o/Qwen2.5-VL-32B 生成大量候选再人工筛出最优的 4 个错误选项，使干扰项既贴近正确答案又不至于产生歧义。最后经过三阶段过滤层层把关：难度过滤剔除三个小模型都能答对的过易题，格式过滤统一选项长度与格式以避免模型靠表面线索走 shortcut，质量过滤由人工审核排除歧义、多答案或需要专业知识的题目。这套流程共同压低了数据污染和捷径作答的风险。

3. 文本与图片混合的选项格式：堵住单模态依赖的捷径

题目的答案选项并非全为文本，而是有意混合两种形态：1454 题（54.95%）用文本选项，1192 题（45.05%）用图片选项。若选项全是文本，模型可能只读文字就猜出答案；若全是图片，又可能只靠视觉匹配。混合格式迫使模型在不同题目上分别调动语言理解和视觉理解，从而真正考察跨模态的多图推理，而非任何一侧的单模态捷径。

损失函数 / 训练策略¶

本文是评估基准而非训练新模型，因此不涉及损失函数设计。评估时对所有模型采用统一的 zero-shot CoT prompt，开源模型重复跑 5 次取平均以抑制采样随机波动，保证横向对比的公平性。

实验设计¶

评估模型¶

类别	代表模型	数量
闭源 + Thinking	GPT-5, Gemini-2.5-Pro, o4-mini, Claude-Sonnet-4	6
闭源 + No Thinking	GPT-4.1, GPT-4o, Claude-3.7-Sonnet, Doubao-1.5-vision	5
开源 + Thinking	VL-Rethinker-72B, QVQ-72B, MM-Eureka-32B, MiMo-VL-7B	6
开源 + No Thinking	Qwen2.5-VL-7/32/72B, Gemma3-12/27B, InternVL3.5-8B/30B	7+
人类	12 名不同学历学生，210 题子集	12 人

与现有基准对比¶

基准	规模	图像类型	推理类型	知识需求	平均图片数
MME-Reasoning	1.2K	符号图	3 种	低	1
VisualPuzzles	1.1K	符号图	5 种	低	1
MMMU	11.5K	混合	-	高	1.05
MMRB	4.8K	混合	3 种	中	6.17
MMR-Life	2.7K	自然图	7 种	低	7.22

实验结果与分析¶

主实验结果（37 个模型）¶

模型	溯因	类比	因果	演绎	归纳	空间	时序	平均
人类	79.76	57.65	75.00	70.59	63.41	79.76	79.76	72.28
GPT-5	53.75	78.87	41.06	80.14	78.32	17.25	41.70	58.69
Gemini-2.5-Pro	54.40	73.77	36.99	79.43	73.66	25.10	35.79	56.86
o4-mini	41.37	73.59	27.38	71.28	68.07	19.22	32.66	50.49
Claude-Sonnet-4	36.96	60.92	44.11	67.02	56.64	15.69	28.23	45.32
GPT-4.1	44.30	71.30	22.43	67.38	70.16	13.73	27.31	48.15
Qwen2.5-VL-72B	35.50	55.46	35.36	52.13	55.48	12.94	23.80	40.21
VL-Rethinker-72B	36.48	50.88	33.08	56.03	57.58	15.69	21.59	39.68
InternVL3.5-8B	35.18	11.44	18.63	34.04	11.19	14.90	16.61	18.67

关键发现：

⭐⭐⭐ MMR-Life 极具挑战性：GPT-5 仅 58.69%，距人类 72.28% 差 14 个百分点；几乎所有开源模型低于 40%，部分模型（InternVL3.5-8B 的 18.67%）接近随机猜测水平（20%）
⭐⭐⭐ 推理类型间差异巨大：所有模型在空间推理上表现极差（最高仅 25.10% vs 人类 79.76%），但在类比推理和演绎推理上部分闭源模型超越人类。空间/时序/因果推理是当前 MLLM 的显著瓶颈
⭐⭐ 开源 Thinking 模型未见改善：开源 thinking 模型平均 27.15%，反而低于 no-thinking 模型的 29.01%，说明开源模型的推理模式在真实场景泛化能力不足

推理范式分析¶

分析维度	核心发现
Thinking 长度 vs 准确率	准确率与 thinking token 数呈对数线性关系，但部分开源 thinking 模型处于低效区域（token 多，准确率低）
长 CoT 是否总有效	否——归纳推理使用 CoT 反而变差，类比推理显著受益，推测长 CoT 仅适合需逐步推导的任务
BoN vs GRPO	BoN@8 在所有模型规模上泛化优于 GRPO，GRPO 在大模型上甚至低于基线 CoT
推理类型间相关性	类比-归纳高度相关（Pearson \(r=0.97\)），空间推理与其他所有类型低相关（\(r=0.40\)），聚类揭示高阶推理模式

推理增强方法对比¶

模型	方法	溯因	类比	因果	演绎	归纳	空间	时序	平均 (Δ)
Qwen2.5-VL-7B	CoT	26.06	35.74	20.53	20.92	38.93	9.41	12.18	24.68
Qwen2.5-VL-7B	BoN@8	27.64	44.72	22.81	25.53	48.02	13.33	13.10	29.54 (+4.86)
Qwen2.5-VL-72B	CoT	35.50	55.46	35.36	52.13	55.48	12.94	23.80	40.21
Qwen2.5-VL-72B	BoN@8	34.20	53.35	32.70	51.77	56.88	13.73	24.72	39.80 (-0.41)
Qwen2.5-VL-72B	GRPO	36.48	50.88	33.08	56.03	57.58	15.69	21.59	39.68 (-0.53)