跳转至

MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

会议: ICLR 2026
arXiv: 2603.02024
代码: 项目页面
领域: 多模态评估基准
关键词: 多模态推理, 多图推理, 真实场景, 推理类型, 基准评估

一句话总结

提出 MMR-Life 基准(2646 道 5 选 1 多图选择题,基于 19108 张真实图像,覆盖 7 种推理类型和 21 个任务),首次系统评估 MLLM 在真实生活场景中的多图推理能力,发现最强模型 GPT-5 仅 58.69% 准确率,距人类水平差 14%,并揭示了推理增强方法在大模型上失效、RL 泛化弱于 BoN 等关键发现。

研究背景与动机

  1. MLLM 推理评估存在两条主流路线,但两者都偏离日常推理场景:

    • 知识密集型基准(MMMU、GPQA 等):使用专家级 STEM 题目,日常推理很少需要专业知识
    • 合成符号型基准(VisualPuzzles、PuzzleVQA 等):使用拼图/符号图案,与真实视觉场景差距大
  2. 多图输入严重不足:

    • 大多数多模态推理基准仅用单图输入(MMMU 平均 1.05 张),不符合人类从多图序列获取信息的真实感知模式
    • 现有多图基准要么包含非推理任务,要么只覆盖有限推理类型(如仅空间推理)
  3. 核心需求:需要一个全面覆盖多种推理类型、基于真实生活场景、支持多图输入的 MLLM 推理基准

方法详解

整体框架

MMR-Life 是一个面向真实生活场景的多图多模态推理基准,共 2646 道 5 选 1 多选题,基于 19108 张真实图像,覆盖 7 种推理类型和 21 个子任务,每题平均 7.22 张图。它的构造是一条数据流水线:先从公开图像数据集、开放网络资源、视频抽帧和已有基准多源采集真实图像,再按 7 种推理类型设计任务、用"自动合成 + 人工标注"两条路径生成约 3.2K 道候选题、为每题构造易混淆的干扰项,最后经难度/格式/质量三阶段过滤筛到 2646 道。整套设计刻意回避领域专业知识,把难度集中在"整合多图信息 + 运用多种推理能力"这一日常推理核心上,从而与现有知识密集型或合成符号型基准区分开。

关键设计

1. 七种推理类型的系统化分类:让基准覆盖完整的日常推理谱系

现有多图基准往往只覆盖单一推理类型(如仅空间推理),无法刻画人类在真实场景中混合调用的多种推理能力。MMR-Life 把题目显式划分为七类,并保持相对均衡的分布:溯因推理(从观察反推最合理解释,307 题 11.60%)、类比推理(发现相似性并迁移到新情况,568 题 21.47%)、因果推理(从原因推断效果,263 题 9.94%)、演绎推理(从一般规则推断具体情况,282 题 10.66%)、归纳推理(从具体观察归纳规律,429 题 16.21%)、空间推理(理解物体位置与空间关系,255 题 9.64%)、时序推理(推断事件顺序与时间,542 题 20.48%)。这种分类不仅让评估结果可以按推理类型细分(后续实验正是借此暴露出空间/时序推理是当前 MLLM 的共同瓶颈),也为推理能力的相关性与聚类分析提供了结构基础。

2. 多源采集与三阶段质控:在真实图像上构造可靠且无捷径的题目

为保证场景真实且题目可靠,数据从公开图像数据集(Kaggle)、开放网络资源(eBird 等)、公开视频抽帧以及现有基准多路汇集。题目生成兼用两条路径:能用规则可靠合成的(如时序排列任务直接利用视频帧的先后信息)走自动管线,需要隐含推理的(如溯因任务)则交由人工标注。干扰项的构造尤其讲究——图片选项用启发式规则采样易混淆的错误候选,文本选项先由 GPT-5-mini/GPT-4o/Qwen2.5-VL-32B 生成大量候选再人工筛出最优的 4 个错误选项,使干扰项既贴近正确答案又不至于产生歧义。最后经过三阶段过滤层层把关:难度过滤剔除三个小模型都能答对的过易题,格式过滤统一选项长度与格式以避免模型靠表面线索走 shortcut,质量过滤由人工审核排除歧义、多答案或需要专业知识的题目。这套流程共同压低了数据污染和捷径作答的风险。

3. 文本与图片混合的选项格式:堵住单模态依赖的捷径

题目的答案选项并非全为文本,而是有意混合两种形态:1454 题(54.95%)用文本选项,1192 题(45.05%)用图片选项。若选项全是文本,模型可能只读文字就猜出答案;若全是图片,又可能只靠视觉匹配。混合格式迫使模型在不同题目上分别调动语言理解和视觉理解,从而真正考察跨模态的多图推理,而非任何一侧的单模态捷径。

损失函数 / 训练策略

本文是评估基准而非训练新模型,因此不涉及损失函数设计。评估时对所有模型采用统一的 zero-shot CoT prompt,开源模型重复跑 5 次取平均以抑制采样随机波动,保证横向对比的公平性。

实验设计

评估模型

类别 代表模型 数量
闭源 + Thinking GPT-5, Gemini-2.5-Pro, o4-mini, Claude-Sonnet-4 6
闭源 + No Thinking GPT-4.1, GPT-4o, Claude-3.7-Sonnet, Doubao-1.5-vision 5
开源 + Thinking VL-Rethinker-72B, QVQ-72B, MM-Eureka-32B, MiMo-VL-7B 6
开源 + No Thinking Qwen2.5-VL-7/32/72B, Gemma3-12/27B, InternVL3.5-8B/30B 7+
人类 12 名不同学历学生,210 题子集 12 人

与现有基准对比

基准 规模 图像类型 推理类型 知识需求 平均图片数
MME-Reasoning 1.2K 符号图 3 种 1
VisualPuzzles 1.1K 符号图 5 种 1
MMMU 11.5K 混合 - 1.05
MMRB 4.8K 混合 3 种 6.17
MMR-Life 2.7K 自然图 7 种 7.22

实验结果与分析

主实验结果(37 个模型)

模型 溯因 类比 因果 演绎 归纳 空间 时序 平均
人类 79.76 57.65 75.00 70.59 63.41 79.76 79.76 72.28
GPT-5 53.75 78.87 41.06 80.14 78.32 17.25 41.70 58.69
Gemini-2.5-Pro 54.40 73.77 36.99 79.43 73.66 25.10 35.79 56.86
o4-mini 41.37 73.59 27.38 71.28 68.07 19.22 32.66 50.49
Claude-Sonnet-4 36.96 60.92 44.11 67.02 56.64 15.69 28.23 45.32
GPT-4.1 44.30 71.30 22.43 67.38 70.16 13.73 27.31 48.15
Qwen2.5-VL-72B 35.50 55.46 35.36 52.13 55.48 12.94 23.80 40.21
VL-Rethinker-72B 36.48 50.88 33.08 56.03 57.58 15.69 21.59 39.68
InternVL3.5-8B 35.18 11.44 18.63 34.04 11.19 14.90 16.61 18.67

关键发现

  1. ⭐⭐⭐ MMR-Life 极具挑战性:GPT-5 仅 58.69%,距人类 72.28% 差 14 个百分点;几乎所有开源模型低于 40%,部分模型(InternVL3.5-8B 的 18.67%)接近随机猜测水平(20%)

  2. ⭐⭐⭐ 推理类型间差异巨大:所有模型在空间推理上表现极差(最高仅 25.10% vs 人类 79.76%),但在类比推理和演绎推理上部分闭源模型超越人类。空间/时序/因果推理是当前 MLLM 的显著瓶颈

  3. ⭐⭐ 开源 Thinking 模型未见改善:开源 thinking 模型平均 27.15%,反而低于 no-thinking 模型的 29.01%,说明开源模型的推理模式在真实场景泛化能力不足

推理范式分析

分析维度 核心发现
Thinking 长度 vs 准确率 准确率与 thinking token 数呈对数线性关系,但部分开源 thinking 模型处于低效区域(token 多,准确率低)
长 CoT 是否总有效 否——归纳推理使用 CoT 反而变差,类比推理显著受益,推测长 CoT 仅适合需逐步推导的任务
BoN vs GRPO BoN@8 在所有模型规模上泛化优于 GRPO,GRPO 在大模型上甚至低于基线 CoT
推理类型间相关性 类比-归纳高度相关(Pearson \(r=0.97\)),空间推理与其他所有类型低相关(\(r=0.40\)),聚类揭示高阶推理模式

推理增强方法对比

模型 方法 溯因 类比 因果 演绎 归纳 空间 时序 平均 (Δ)
Qwen2.5-VL-7B CoT 26.06 35.74 20.53 20.92 38.93 9.41 12.18 24.68
Qwen2.5-VL-7B BoN@8 27.64 44.72 22.81 25.53 48.02 13.33 13.10 29.54 (+4.86)
Qwen2.5-VL-72B CoT 35.50 55.46 35.36 52.13 55.48 12.94 23.80 40.21
Qwen2.5-VL-72B BoN@8 34.20 53.35 32.70 51.77 56.88 13.73 24.72 39.80 (-0.41)
Qwen2.5-VL-72B GRPO 36.48 50.88 33.08 56.03 57.58 15.69 21.59 39.68 (-0.53)

关键发现

  1. ⭐⭐⭐ 推理增强方法在大模型上失效:从 7B→32B→72B,SC/BoN/GRPO 相对 CoT 的增益单调递减;72B 模型上 BoN 和 GRPO 反而低于基线 CoT,推测大模型采样正确路径概率已较高,增强方法边际收益递减

  2. ⭐⭐ RL 泛化弱于 BoN:在所有模型规模上,GRPO 的泛化性均弱于 BoN@8,RL 训练的模型在真实场景推理上可能存在过拟合特定数据集的风险

错误分析(GPT-5 & Gemini-2.5-Pro)

错误类型 占比 说明
推理错误 32% 因果倒置(24%)、时序混淆(42%)、遗漏关键步骤(24%)
抽象错误 17% 短程思维能力不足,联想/概括失败
知识错误 17% 无法调用正确的常识/世界知识辅助推理
感知错误 12% 颜色/形状等静态属性或运动等动态变化识别失败

优点与创新

  1. ⭐⭐⭐ 填补真实场景多图推理空白:首个同时满足"真实生活图像 + 多图输入 + 7 种推理类型"的基准,与日常推理场景高度对齐
  2. ⭐⭐⭐ 揭示关键研究发现:推理增强方法在大模型失效、RL 泛化弱于 BoN、长 CoT 不总有效等发现对未来研究有重要指导价值
  3. ⭐⭐ 严格的数据质量控制:三阶段过滤(难度/格式/质量)+ 人工审核,降低 shortcut 和数据污染风险
  4. ⭐⭐ 推理类型聚类分析:通过相关性分析和层次聚类揭示了推理能力的内在结构(如类比-归纳共享模式、空间推理独立性)
  5. 大规模评估:覆盖 37 个模型,包括最新的 GPT-5、Gemini-2.5-Pro 等

不足与展望

  1. ⭐⭐ 规模相对有限:2646 道题目(部分推理类型仅 250+ 题),细分到子任务后单任务样本量小,可能影响统计显著性
  2. ⭐⭐ 仅选择题格式:5 选 1 格式存在猜测概率(20%基线),无法评估开放式推理能力
  3. 推理类型边界模糊:溯因推理和因果推理的区分在实际中可能存在重叠,部分题目可能同时涉及多种推理类型
  4. 图片来源多样性:视频抽帧和监控截图占比较高,可能不完全代表日常手持拍摄的真实场景
  5. 缺乏训练信号:仅作为评估基准,未提供训练集指导模型在弱势推理类型上的改进

总结

MMR-Life 是首个面向真实生活场景的多模态多图推理基准,系统覆盖 7 种推理类型和 21 个任务。通过对 37 个 MLLM 的大规模评估,揭示了当前模型在空间/时序/因果推理上的显著瓶颈(GPT-5 仅 58.69% vs 人类 72.28%),并发现推理增强方法在大模型上失效、开源 thinking 模型泛化不足等关键洞察。该基准为评估和改进下一代多模态推理系统提供了重要基础。