Can Multimodal Large Language Models Understand Spatial Relations?¶
- 会议: ACL 2025
- arXiv: 2505.19015
- 代码: GitHub
- 领域: 多模态VLM
- 关键词: 空间关系, 多模态基准, MLLM评估, SpatialMQA, 视角替换
一句话总结¶
提出 SpatialMQA 基准,以多选题形式评估 MLLM 的空间关系推理能力,发现 SOTA 模型仅达 48.14% 准确率,远低于人类 98.40%。
研究背景与动机¶
- 核心问题: 现有空间关系推理基准存在依赖边界框、忽视视角替换、仅凭先验知识可答题等问题,无法真正评估 MLLM 对图像中空间关系的理解能力。
- 现有方法局限:
- 依赖边界框: SpatialVOC2K、Rel3D、SpatialSense+ 等需要 bbox 标注主客体,但某些实体(如"太阳")无法用 bbox 框定。
- 标注不基于客观世界: SpatialSense 将"天空在森林后方"标注为 behind,与人类认知不一致。
- 忽视视角替换: 如 VSR 中仅 6% 样本使用第一人称视角,缺乏对复杂场景(如自动驾驶)的评估能力。
- 先验知识可答题: 如"书在公交车上方"可仅凭常识回答 No,无需理解图像。
- 本文动机: 构建一个高质量的人工标注基准,使模型必须理解图像才能回答,同时覆盖多种视角替换场景。
方法详解¶
整体框架¶
SpatialMQA 是一个基于 COCO2017 的多选题空间关系推理基准,包含 5,392 个样本、128 种主客体类型、6 种空间关系(left of / right of / in front of / behind / on/above / below)。任务形式为:给定图像 I 和问题 Q,从 k(k=2,...,6) 个选项中选择正确的空间关系。
关键设计¶
- 以客观世界为参考系的空间坐标系: 以重力方向为下、观察者为原点,X 轴从左到右,Y 轴从后到前,Z 轴从下到上,确保标注符合人类直觉认知。
- 视角替换机制: 题目分为两类——图像外视角(第三方观察者)和图像内视角(第一人称/第三人称),其中图像内视角占 60%,要求模型理解不同观察者视角下的空间关系。
- 三轮标注质量控制: 一轮标注 → 二轮检查(是否可仅凭先验知识回答 + 主客体是否清晰)→ 三轮审查(主作者抽检 20%),每轮设置通过率阈值(90%/95%)。
损失函数¶
开源模型微调时使用标准的交叉熵损失,LoRA 用于参数高效微调。
实验¶
主实验结果¶
| 模型 | 设置 | Acc (%) |
|---|---|---|
| SpaceLLaVA | LoRA | 48.14 |
| LLaVA1.5-7B | LoRA | 46.85 |
| InstructBLIP-3B | LoRA | 42.38 |
| GPT-4o | 0-shot | 40.20 |
| Gemini-1.5-flash | 3-shot | 38.00 |
| BLIP-vqa-base | Full | 33.64 |
| Random Choose | - | 27.20 |
| Human | - | 98.40 |
消融实验(按问题类型和答案维度分析)¶
| 模型 | Q1(图外) | Q2(第一人称) | Q3(第三人称) | Ax(左右) | Ay(前后) | Az(上下) |
|---|---|---|---|---|---|---|
| SpaceLLaVA (LoRA) | 54.87 | 42.37 | 58.82 | 56.00 | 51.85 | 31.41 |
| GPT-4o (0-shot) | 44.09 | 33.74 | 61.76 | 37.08 | 47.50 | 36.00 |
| LLaVA1.5-7B (LoRA) | 53.14 | 40.99 | 64.71 | 55.71 | 29.64 | 48.13 |
关键发现¶
- MLLM 与人类差距巨大: SOTA 模型(SpaceLLaVA LoRA)48.14% vs 人类 98.40%,差距超过 50 个百分点。
- 视角替换是主要难点: 图像内第一人称视角(Q2)准确率普遍最低(如 SpaceLLaVA 仅 42.37%),说明模型难以进行视角切换推理。
- LoRA 微调显著提升表现: 经指令微调后,SpaceLLaVA 从 31.32% 提升至 48.14%,LLaVA 从 29.28% 提升至 46.85%。
- 纯文本无法回答: 仅给文本不给图像时准确率仅 24.40%,低于随机选择,验证了基准的"必须看图"特性。
- GPT-4o 的 few-shot 未必优于 zero-shot: GPT-4o 0-shot (40.20%) 优于 3-shot (37.80%),可能因为 ICL 样例引入了干扰。
亮点¶
- 首个系统化排除先验知识干扰、涵盖第一/第三人称视角替换的空间关系推理基准
- 三轮人工标注质量控制流程设计严谨,确保每个样本必须看图才能作答
- 揭示了当前 MLLM 在空间关系理解上的巨大不足(50+个百分点差距),为后续研究提供了明确方向
- 提供了按视角类型和空间维度的细粒度分析,精确定位了模型的薄弱环节
- 基准和代码完全开源,标注指南详尽可复现
局限性¶
- 空间关系仅覆盖 6 种基本类型,未包含更复杂的空间描述(如"旁边""之间""环绕")
- 基于 COCO2017 的图像,场景多样性受限于该数据集的覆盖范围
- 仅评估了有限数量的闭源模型(GPT-4o 和 Gemini),未覆盖更多最新模型(如 Claude、Qwen-VL)
- 第三人称视角样本较少(仅 185 个),可能影响该类别评估的统计可靠性
- 选项数量(2/4/6)的分布不均匀(75% 为 4 选项),对不同选项数量的难度差异分析不足
- 未探讨空间关系的模糊性(如"on"和"above"的边界情况)如何影响标注一致性
相关工作¶
- 空间关系基准: SpatialVOC2K (Belz et al. 2018)、SpatialSense (Yang et al. 2019)、Rel3D (Goyal et al. 2020)、VSR (Liu et al. 2023a)、EmbSpatial (Du et al. 2024)、SpatialRGPT (Cheng et al. 2024)
- MLLM: GPT-4o (Achiam et al. 2023)、Gemini-1.5-flash、LLaVA (Liu et al. 2024)、SpaceLLaVA (Chen et al. 2024)、BLIP/BLIP2/InstructBLIP 系列
- 空间推理增强: SpaceLLaVA 通过空间关系指令微调提升理解能力;SpatialVLM (Chen et al. 2024) 通过开放式 QA 评估空间感知
- 基准设计方法论: COCO2017 (Lin et al. 2014) 提供多实体场景图像;三轮标注流程参考了严格的质量控制范式
评分¶
- 创新性: ⭐⭐⭐⭐ — 首次系统化地解决了空间关系基准中的视角替换和先验知识问题
- 实用性: ⭐⭐⭐⭐ — 为社区提供了高质量评估工具,暴露了当前模型的明确短板
- 严谨性: ⭐⭐⭐⭐⭐ — 三轮标注质量控制流程非常扎实
- 综合: ⭐⭐⭐⭐