Can Multimodal Large Language Models Understand Spatial Relations?¶

会议: ACL 2025
arXiv: 2505.19015
代码: GitHub
领域: 多模态VLM
关键词: 空间关系, 多模态基准, MLLM评估, SpatialMQA, 视角替换

一句话总结¶

提出 SpatialMQA 基准，以多选题形式评估 MLLM 的空间关系推理能力，发现 SOTA 模型仅达 48.14% 准确率，远低于人类 98.40%。

研究背景与动机¶

核心问题: 现有空间关系推理基准存在依赖边界框、忽视视角替换、仅凭先验知识可答题等问题，无法真正评估 MLLM 对图像中空间关系的理解能力。
现有方法局限:
- 依赖边界框: SpatialVOC2K、Rel3D、SpatialSense+ 等需要 bbox 标注主客体，但某些实体（如"太阳"）无法用 bbox 框定。
- 标注不基于客观世界: SpatialSense 将"天空在森林后方"标注为 behind，与人类认知不一致。
- 忽视视角替换: 如 VSR 中仅 6% 样本使用第一人称视角，缺乏对复杂场景（如自动驾驶）的评估能力。
- 先验知识可答题: 如"书在公交车上方"可仅凭常识回答 No，无需理解图像。
本文动机: 构建一个高质量的人工标注基准，使模型必须理解图像才能回答，同时覆盖多种视角替换场景。

方法详解¶

整体框架¶

SpatialMQA 是一个基于 COCO2017 的多选题空间关系推理基准，包含 5,392 个样本、128 种主客体类型、6 种空间关系（left of / right of / in front of / behind / on/above / below）。任务形式为：给定图像 I 和问题 Q，从 k(k=2,...,6) 个选项中选择正确的空间关系。

关键设计¶

以客观世界为参考系的空间坐标系: 以重力方向为下、观察者为原点，X 轴从左到右，Y 轴从后到前，Z 轴从下到上，确保标注符合人类直觉认知。
视角替换机制: 题目分为两类——图像外视角（第三方观察者）和图像内视角（第一人称/第三人称），其中图像内视角占 60%，要求模型理解不同观察者视角下的空间关系。
三轮标注质量控制: 一轮标注 → 二轮检查（是否可仅凭先验知识回答 + 主客体是否清晰）→ 三轮审查（主作者抽检 20%），每轮设置通过率阈值（90%/95%）。

损失函数¶

开源模型微调时使用标准的交叉熵损失，LoRA 用于参数高效微调。

实验¶

主实验结果¶

模型	设置	Acc (%)
SpaceLLaVA	LoRA	48.14
LLaVA1.5-7B	LoRA	46.85
InstructBLIP-3B	LoRA	42.38
GPT-4o	0-shot	40.20
Gemini-1.5-flash	3-shot	38.00
BLIP-vqa-base	Full	33.64
Random Choose	-	27.20
Human	-	98.40

消融实验（按问题类型和答案维度分析）¶

模型	Q1(图外)	Q2(第一人称)	Q3(第三人称)	Ax(左右)	Ay(前后)	Az(上下)
SpaceLLaVA (LoRA)	54.87	42.37	58.82	56.00	51.85	31.41
GPT-4o (0-shot)	44.09	33.74	61.76	37.08	47.50	36.00
LLaVA1.5-7B (LoRA)	53.14	40.99	64.71	55.71	29.64	48.13

关键发现¶

MLLM 与人类差距巨大: SOTA 模型（SpaceLLaVA LoRA）48.14% vs 人类 98.40%，差距超过 50 个百分点。
视角替换是主要难点: 图像内第一人称视角（Q2）准确率普遍最低（如 SpaceLLaVA 仅 42.37%），说明模型难以进行视角切换推理。
LoRA 微调显著提升表现: 经指令微调后，SpaceLLaVA 从 31.32% 提升至 48.14%，LLaVA 从 29.28% 提升至 46.85%。
纯文本无法回答: 仅给文本不给图像时准确率仅 24.40%，低于随机选择，验证了基准的"必须看图"特性。
GPT-4o 的 few-shot 未必优于 zero-shot: GPT-4o 0-shot (40.20%) 优于 3-shot (37.80%)，可能因为 ICL 样例引入了干扰。

亮点¶

首个系统化排除先验知识干扰、涵盖第一/第三人称视角替换的空间关系推理基准
三轮人工标注质量控制流程设计严谨，确保每个样本必须看图才能作答
揭示了当前 MLLM 在空间关系理解上的巨大不足（50+个百分点差距），为后续研究提供了明确方向
提供了按视角类型和空间维度的细粒度分析，精确定位了模型的薄弱环节
基准和代码完全开源，标注指南详尽可复现

局限性¶

空间关系仅覆盖 6 种基本类型，未包含更复杂的空间描述（如"旁边""之间""环绕"）
基于 COCO2017 的图像，场景多样性受限于该数据集的覆盖范围
仅评估了有限数量的闭源模型（GPT-4o 和 Gemini），未覆盖更多最新模型（如 Claude、Qwen-VL）
第三人称视角样本较少（仅 185 个），可能影响该类别评估的统计可靠性
选项数量（2/4/6）的分布不均匀（75% 为 4 选项），对不同选项数量的难度差异分析不足
未探讨空间关系的模糊性（如"on"和"above"的边界情况）如何影响标注一致性

评分¶

创新性: ⭐⭐⭐⭐ — 首次系统化地解决了空间关系基准中的视角替换和先验知识问题
实用性: ⭐⭐⭐⭐ — 为社区提供了高质量评估工具，暴露了当前模型的明确短板
严谨性: ⭐⭐⭐⭐⭐ — 三轮标注质量控制流程非常扎实
综合: ⭐⭐⭐⭐