SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?¶

会议: ICLR 2026
arXiv: 2602.03916
代码: spatialab-reasoning.github.io
领域: 多模态VLM
关键词: 空间推理, VLM基准, 多选题评估, 开放式评估, 真实场景

一句话总结¶

提出SpatiaLab，一个包含1400个视觉QA对的真实场景空间推理基准，涵盖6大类30子类空间任务，支持多选和开放式双格式评估，揭示当前最强VLM（InternVL3.5-72B MCQ 54.93%）与人类（87.57%）之间存在巨大空间推理鸿沟，且开放式设置下差距更大。

研究背景与动机¶

领域现状：空间推理是人类认知的基础能力，对机器人、自动驾驶、AR/VR至关重要。现有VLM在多模态表示和语言接地上取得进展，但空间判断在真实环境中仍然脆弱。

现有痛点： - 现有空间推理基准过于简化：多数聚焦二元空间关系、低分辨率深度分类、或合成/拼图式场景 - 控制环境减弱了感知和推理难度，导致表面上的饱和掩盖了分布偏移下的失败 - 遮挡推理、跨视角尺度一致性、部分可观测下的路径规划等关键挑战严重采样不足 - 在ScanQA、BLINK等合成基准上表现好的模型在真实场景中常常失败

核心矛盾：人类无缝整合相对位置、深度、方向、尺度、导航、3D几何等多维空间信息，但VLM在任何单一维度上都远逊于人类，更不用说多维联合推理。

本文目标 - 构建涵盖全部空间推理核心轴的真实场景基准 - 用MCQ和开放式双格式评估，避免格式偏差 - 测试25+种VLM并建立人类基线 - 深入分析失败模式，提供可行改进方向

切入角度：从认知心理学的空间认知分类出发，系统分解为6×5=30种细粒度任务类型，用真实照片（非合成数据）构建基准。

核心 idea：SpatiaLab通过30种真实场景空间推理任务的双格式评估，系统暴露了VLM在深度感知、遮挡推理、导航规划和3D几何上的根本性缺陷。

方法详解¶

整体框架¶

SpatiaLab = 基准数据集 + 评估协议 + 改进策略探索

6大类：Relative Positioning（相对定位）、Depth & Occlusion（深度与遮挡）、Orientation（方向）、Size & Scale（大小与尺度）、Spatial Navigation（空间导航）、3D Geometry（3D几何）
每大类5个子类 → 30种任务类型
每子类≥25题，每大类≥200题 → 总计1400个经验证QA对
双格式：MCQ（4选1）+ 开放式生成

关键设计¶

多源图像采集
- 功能：构建视觉多样性极高的真实场景图像库
- 核心思路：三种互补来源——自动网络爬虫、针对性在线检索、手动室内外拍摄。沿6个元维度（光照、纹理复杂度、边缘复杂度、空间关系、材质类型、重力约束）系统覆盖
- 设计动机：确保基准反映真实世界的视觉噪声和复杂性，而非实验室条件
- 复杂度统计：平均21.48个物体/图，11.88个部分可见，3.23层深度，2.07步空间推理链
三阶段标注+质量控制
- 功能：确保QA对的语义有效性、答案正确性和任务清晰度
- 核心思路：Phase 1标注员培训→Phase 2每图配对空间QA→Phase 3双格式编码。三轮审查：语义校验→独立验证→金标准建立
- 设计动机：空间推理QA的错误率在高复杂度场景下很高，三轮审查确保最终1400题的可靠性
改进策略探索
- 功能：系统测试提升VLM空间推理的多种方法
- 覆盖方法：内在推理、CoT提示、CoT+自反思、SFT微调（40%数据/60%评估）、多智能体系统（SpatioXolver）
- 设计动机：不仅暴露问题，还提供可行改进方向。SFT在导航和方向上效果最好，多智能体推理在方向上有帮助但其他类别停滞或退化

损失函数 / 训练策略¶

（基准论文，无训练损失。SFT实验用标准损失微调Qwen-VL2.5-3B-Instruct）

实验关键数据¶

主实验（MCQ格式，25+模型）¶

模型	3D几何	深度&遮挡	方向	相对位置	尺度	导航	总体
人类基线	93.70	74.13	91.58	91.51	88.89	87.76	87.57
InternVL3.5-72B	50.00	57.14	53.47	66.04	49.21	54.85	54.93
GPT-5-mini	48.74	54.83	60.40	62.74	44.84	56.54	54.29
o4-mini-medium	51.26	58.30	54.95	64.15	40.87	51.48	53.21
空间专用模型	~42	~38	~48	~38	~43	~39	~41
随机选择	25.00	25.00	25.00	25.00	25.00	25.00	25.00

开放式格式对比¶

模型	MCQ总体	开放式总体	性能下降
GPT-5-mini	54.29	40.93	-13.36
o4-mini-medium	53.21	37.86	-15.35
InternVL3.5-72B	54.93	23.36	-31.57
人类基线	87.57	64.93	-22.64
平均MCQ→Open gap	-	-	-23.0%

关键发现¶

最强模型仅55%（MCQ）/41%（开放式）：与人类88%/65%差距悬殊。空间专用模型反而更差（~41%），说明当前特化方法无效
开放式评估暴露真实能力：平均MCQ→Open下降23%，空间专用模型下降最多（~27%），说明MCQ可高估真实空间推理能力
最难的三大类：Size & Scale、Depth & Occlusion、Spatial Navigation一致成为瓶颈，多数模型<50%/30%
模型规模≠空间推理：Llama-3.2-11B仅30.5%，比许多4B模型都差，说明空间推理需要特殊能力而非纯规模
推理增强有限效果：CoT对方向类有帮助，SFT改善导航（+7.69%），但多智能体系统在遮挡/尺度上反而退化
系统性失败模式：物体旋转（2%）、反射面（<20%）、工具惯用手（<30%）等任务几乎全军覆没

亮点与洞察¶

真实场景+双格式评估设计精良：1400题覆盖30种任务是空间推理领域最细粒度的分类体系，MCQ+Open双格式避免了格式偏差这是之前基准忽略的关键问题
"空间专用模型不如通用模型"的反直觉发现：SpaceOm/SpaceThinker/SpaceQwen在真实场景下全面落后于InternVL3.5-72B，说明在合成数据上训练的空间能力无法迁移
错误分析的诊断价值：聚类分析发现失败集中在空间误定位、透视/尺度错误、遮挡排序失败三类，与VLM缺乏几何监督直接相关
开放式评估的必要性：MCQ→Open平均下降23%，且下降在导航（最需要多步推理）上最大，说明当前VLM依赖消去法而非真正理解

局限与展望¶

1400题虽质量高但数量有限，每子类仅25+题可能不足以稳定评估
开放式评估依赖LLM judge（Gemini-2.5-Flash），虽然Cohen's kappa=0.738但评判本身仍不完美
未涵盖视频场景的时序空间推理
可改进方向：开发基于物理引擎的空间推理预训练数据，或在VLM中引入显式的几何编码模块来弥补空间推理短板

评分¶

新颖性: ⭐⭐⭐⭐ 30类任务+双格式评估设计新颖，但核心方法论（构建基准）非全新范式
实验充分度: ⭐⭐⭐⭐⭐ 25+模型、人类基线、改进策略探索、error analysis极为全面
写作质量: ⭐⭐⭐⭐ 结构清晰，分析深入，但篇幅较长
价值: ⭐⭐⭐⭐⭐ 填补了真实场景空间推理评估的空白，量化了VLM-人类差距，对VLM社区有重要指导意义