MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=gHRoX4vXm3
代码: 待确认
领域: 多模态 VLM / 空间智能评测
关键词: 多图空间推理, MLLM 评测, VQA Benchmark, 空间智能, 错误分析

一句话总结¶

六位 3D 视觉研究者耗时 300+ 小时、从 12 万张真实图像中纯人工打磨出 1000 道多图空间推理选择题，构成 MMSI-Bench；37 个主流 MLLM 上最强开源仅 30%、GPT-5 也只有 41.9%，而人类 97%，并配套了一条借助人工推理标注的自动化错误诊断流水线。

研究背景与动机¶

领域现状：空间智能（理解物体在哪、怎么动）被视为 MLLM 走向具身智能的核心能力，社区已涌现大量空间推理 benchmark。但现有痛点在于：绝大多数基准只考察单图内的简单空间关系（如 SpatialVLM、CV-Bench），而真实世界部署要求模型跨多张图像追踪物体与自身运动、关联从未在同一帧共现的实体。

核心矛盾：少数多图基准要么只是通用 VQA 套件里的几个零散空间子集（BLINK、MuirBench），要么靠模板/规则从已有标注或仿真器自动生成题目（VSI-Bench、MMIU、SAT、MultiSPA），多样性和难度都被模板框死；唯一人工策展的 ERQA 仅 400 题、多图样本只有 113 条。换句话说，社区缺一个既多样、又准确、又足够难的多图空间推理标尺。

本文目标：构建一个专门面向多图空间智能的 VQA 基准，并量化当前 MLLM 与人类的真实差距。核心 idea —— 纯人工策展 + 步进式推理标注：放弃模板，让 3D 视觉专家自己挑图、出题、写推理过程，既保证每道题"必须跨多图才能答"，又用人工推理链支撑后续的自动化错误分析。

方法详解¶

整体框架¶

MMSI-Bench 围绕三类空间基本元素——相机（观察者）、物体、区域——的位置、属性、运动，定义出 10 种原子空间推理任务，再加一个把原子任务串成长程问题的多步推理（MSR）类别，共 11 类。整条数据生产管线分四步串行推进：构建题型与图像库 → 人工挑图 → 设计 QA 与推理标注 → 多人质检。最终产出 1000 道四选一选择题，每题平均 2.55 张图、配一段平均 252 字的参考推理过程。

flowchart LR
    A[8个真实数据集<br/>12万候选图] --> B[专家挑图<br/>挑出非平凡空间关系图组]
    B --> C[自由出题+干扰项<br/>必须跨多图才可答]
    C --> D[标注步进式推理过程]
    D --> E{准确/无歧义/<br/>有挑战性?}
    E -- 否 --> F[丢弃]
    E -- 是 --> G[独立3人质检]
    G --> H[1000道QA对<br/>+人工推理链]
    H --> I[自动错误分析<br/>四类失败模式]

关键设计¶

1. 三元素 × 三维度的任务分类法：把"空间智能"拆成可枚举的题型。 作者以相机、物体、区域为三个基本元素，沿位置、属性、运动三个维度展开：位置关系细分为 Camera–Camera / Camera–Object / Camera–Region / Object–Object / Object–Region / Region–Region 六种，属性分为几何测量（Measurement）与外观（Appearance），运动分为相机运动与物体运动，外加一个组合式的多步推理。由于相机参数对人不可答、区域天然静止，作者刻意剔除"相机属性"和"区域运动"两类，保证每题都可被人类回答。这套分类法让"多图空间推理"从一个模糊概念变成一张可覆盖、可统计的题型表。

2. 纯人工、无模板的对抗式出题：用专家时间换取多样性与难度。 每道题由六位标注者之一在图库中翻找，挑出一组蕴含非平凡空间关系的图像，再自由设计一道四选一问题——关键约束是"答案只能通过综合所有选中图像跨图推理得到，任何单图都答不出"。干扰项被精心设计为貌似合理的诱饵。这种以人为中心的设计直接对抗模板法的低多样性低难度问题；统计上 1000 题用了 1990 张唯一图像、平均题长 130 字、最长题含 10 张图，覆盖 ScanNet、Matterport3D、nuScenes、Waymo、Ego4D、AgiBot-World、DTU、DAVIS 2017 八个真实数据源，从室内扫描、户外驾驶到机器人操作和日常活动全都纳入。

3. 步进式推理标注 + 双重质检：让基准既可信又可诊断。 每道题除答案外都附一段显式引向正确答案的逐步推理过程，承担双重作用：质检阶段帮助筛除错误样本，评测阶段成为自动化错误分析的"参考答案"。质检由三位独立于出题者的审阅者系统排查，剔除有语言歧义、视觉信息不足、答案错误、或单图/常识即可答的样本，并按人类答题耗时标注难度。正是这段人工推理链，使得后续把"给模型正确答案让它自检错误类型"的准确率从 53% 提升到 78%——成为整条自动化诊断流水线能跑通的前提。

实验关键数据¶

主实验（37 个 MLLM，准确率 %）¶

模型	类型	Avg.	多步推理 MSR	相机运动
Human Level	人类	97.2	97.0	98.6
GPT-5	闭源推理	41.9	42.0	32.4
o3	闭源	41.0	34.9	31.1
GPT-4.5	闭源	40.3	36.4	41.9
Gemini-2.5-Pro	闭源	36.9	34.3	36.4
Qwen2.5-VL-72B	开源最佳	30.7	27.3	27.0
NVILA-15B	开源	30.5	27.8	18.9
Blind GPT-4o	盲测基线	22.7	20.2	20.2
Random Guessing	随机	25.0	25.0	25.0

最强开源仅 30.7%、最强闭源 41.9%，人类 97.2%：作者称这是现有空间智能基准中 SOTA 模型与人类差距最大的一个。
Blind GPT-4o 仅 22.7%、接近随机：证明题目确实需要真实视觉-空间推理，无法靠语言先验或常识蒙对。
多步推理与相机运动是重灾区：MSR 普遍低于单步任务；开源模型在相机运动上尤其差，说明 MLLM 作为"具身智能体"难以理解自身运动（推测因缺乏第一人称运动训练数据）。

消融与诊断¶

实验	设置	关键结果
模型规模	Qwen2.5-VL 72B vs 32B	仅 +3%；InternVL3-78B vs 1B 仅 +1.5%，规模收益极小
空间微调	Spatial-MLLM / InternSpatial / RoboBrain2.0	较 base 仅边际提升甚至下降（27.7 vs 26.5 等）
语言提示	Zero-Shot CoT	仅 GPT-4o 略升，其余模型反而掉点
视觉提示	PATS 跨图对应连线	仅 2 个模型微升，另 2 个下降
自动错误分析	仅给答案 vs 给答案+人工推理链	错误类型标注准确率 53% → 78%

关键发现¶

瓶颈在数据而非规模：同系列堆参数几乎不涨分，NVILA-15B 甚至超过多数 70B+ 模型，说明当前进步受限于数据质量与多样性。
答对≠推理对：GPT-4.5/GPT-4o/Qwen2.5-VL-72B 的推理准确率（37.5%/29.9%/21.5%）均低于其选择题准确率，Qwen2.5-VL-72B 推理准确率比答题准确率还低约 10%。
四类失败模式中"重叠匹配与场景重建错误"占比最大：跨图对应同一物体、隐式重建场景布局，是所有模型最薄弱环节，也指明了最值得攻关的方向。

亮点与洞察¶

"必须跨多图才可答"是这套基准的灵魂约束：它把单图能力、语言先验、常识捷径全部排除，逼出模型真正的多视图空间重建能力，也解释了为何盲测基线只能拿随机分。
人工推理链是一石二鸟的设计：既在质检期当过滤器，又在评测期当自动诊断的"金标准参考"，把昂贵的人工标注价值复用到了可扩展的错误分析上。
"答对但推理错"的现象极具警示性：选择题准确率高估了模型的真实空间推理能力，提醒后续基准应同时评测推理过程而非只看最终选项。
规模/微调/提示三条捷径集体失效，把矛头明确指向训练数据与架构范式，为社区省去了在错误方向上的试错。

局限与展望¶

规模相对有限：1000 题虽精，但相比模板法动辄数万题，覆盖的长尾场景仍有限，统计显著性在细分类别上可能不足。
自动错误分析依赖 GPT-4o 自评，上限 78%：诊断本身带噪，且高度依赖人工推理链的存在，难以无标注泛化到新基准。
只给出"是什么"未给"怎么解"：基准定位为诊断工具，未提出提升多图空间智能的训练方法；如何注入第一人称运动数据、强化重叠匹配能力仍是开放问题。
未来方向：作者指向架构与训练范式的革新（领域专用数据、跨图对应的显式建模），而非继续依赖提示工程或单纯堆参数。

评分¶

新颖性: ⭐⭐⭐⭐ 首个专注多图空间智能、纯人工策展并配套推理链与自动错误诊断的 VQA 基准，任务分类法清晰，定位精准。
实验充分度: ⭐⭐⭐⭐⭐ 评测 37 个开源/闭源模型 + 人类与盲测基线，覆盖规模、空间微调、语言/视觉提示四组消融，并做了细到错误类型分布的诊断分析，极为扎实。
写作质量: ⭐⭐⭐⭐ 动机—分类法—构建管线—评测—错误分析逻辑顺畅，图表（题型示例、构建流程、错误类型）信息密度高，易读。
价值: ⭐⭐⭐⭐⭐ 暴露当前 MLLM 在多图空间推理上巨大的"人机鸿沟"，把瓶颈明确指向数据与架构，是具身/空间智能方向极有价值的北极星基准与诊断工具。