SpatiaLab: Can Vision-Language Models Perform Spatial Reasoning in the Wild?¶

会议: ICLR 2026
arXiv: 2602.03916
代码: spatialab-reasoning.github.io
领域: 多模态VLM
关键词: 空间推理, VLM基准, 多选题评估, 开放式评估, 真实场景

一句话总结¶

提出SpatiaLab，一个包含1400个视觉QA对的真实场景空间推理基准，涵盖6大类30子类空间任务，支持多选和开放式双格式评估，揭示当前最强VLM（InternVL3.5-72B MCQ 54.93%）与人类（87.57%）之间存在巨大空间推理鸿沟，且开放式设置下差距更大。

研究背景与动机¶

领域现状：空间推理是人类认知的基础能力，对机器人、自动驾驶、AR/VR至关重要。现有VLM在多模态表示和语言接地上取得进展，但空间判断在真实环境中仍然脆弱。

现有痛点： - 现有空间推理基准过于简化：多数聚焦二元空间关系、低分辨率深度分类、或合成/拼图式场景 - 控制环境减弱了感知和推理难度，导致表面上的饱和掩盖了分布偏移下的失败 - 遮挡推理、跨视角尺度一致性、部分可观测下的路径规划等关键挑战严重采样不足 - 在ScanQA、BLINK等合成基准上表现好的模型在真实场景中常常失败

核心矛盾：人类无缝整合相对位置、深度、方向、尺度、导航、3D几何等多维空间信息，但VLM在任何单一维度上都远逊于人类，更不用说多维联合推理。

本文目标 - 构建涵盖全部空间推理核心轴的真实场景基准 - 用MCQ和开放式双格式评估，避免格式偏差 - 测试25+种VLM并建立人类基线 - 深入分析失败模式，提供可行改进方向

切入角度：从认知心理学的空间认知分类出发，系统分解为6×5=30种细粒度任务类型，用真实照片（非合成数据）构建基准。

核心 idea：SpatiaLab通过30种真实场景空间推理任务的双格式评估，系统暴露了VLM在深度感知、遮挡推理、导航规划和3D几何上的根本性缺陷。

方法详解¶

整体框架¶

SpatiaLab 想回答一个问题：把视觉语言模型（VLM）丢进真实世界的杂乱照片里，它还能做空间推理吗？为此它先把空间认知拆成 6 大类——Relative Positioning（相对定位）、Depth & Occlusion（深度与遮挡）、Orientation（方向）、Size & Scale（大小与尺度）、Spatial Navigation（空间导航）、3D Geometry（3D几何），每大类再细分 5 个子类，共 30 种细粒度任务类型。整条构建流水线是：先从多源采集真实照片建图像库并沿 6 个元维度系统覆盖视觉噪声，再经三阶段人工标注 + 三轮质控为每张图配上空间 QA、并把每题编码成 MCQ（4选1）和开放式生成两种格式，最终每子类≥25 题、每大类≥200 题，汇成 1400 个经验证的 QA 对。模型在这套基准上跑完后，论文再用一组改进策略去探测「能不能补上短板」。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多源图像采集<br/>爬虫 + 定向检索 + 实拍<br/>6 元维度系统覆盖视觉噪声"] --> B["三阶段标注 + 三轮质控<br/>概念培训→配 QA→双格式编码<br/>语义校验→独立验答→金标准"]
    B --> C["1400 个验证 QA 对<br/>6 大类 × 30 子类<br/>MCQ + 开放式"]
    C --> D["25+ VLM 评估 + 人类基线<br/>双格式同题对比"]
    D --> E["改进策略探索<br/>CoT / 自反思 / SFT / 多智能体 SpatioXolver"]

关键设计¶

1. 多源图像采集：让基准反映真实世界的视觉噪声，而非实验室条件

现有空间推理基准多用合成图或拼图式场景，受控环境把感知和推理难度都削弱了，于是表面饱和、真实场景一上就崩。SpatiaLab 改用三种互补来源凑齐视觉多样性：自动网络爬虫拉海量图、针对性在线检索补特定空间关系、再加手动室内外实拍。采集时沿 6 个元维度——光照、纹理复杂度、边缘复杂度、空间关系、材质类型、重力约束——系统性覆盖，避免图像分布偏向某一类。最终图库的复杂度相当高：平均每图 21.48 个物体、其中 11.88 个部分可见、3.23 层深度、需要 2.07 步空间推理链才能答对，正是这种遮挡多、层次深的真实噪声让模型暴露问题。

2. 三阶段标注 + 三轮质控：保证每道 QA 的语义有效、答案正确、任务清晰

空间推理 QA 在高复杂度场景下很容易标错，所以 SpatiaLab 用分阶段流程把质量锁死。Phase 1 先培训标注员对齐空间概念的判定标准，Phase 2 给每张图配上对应的空间 QA，Phase 3 再把每题编码成 MCQ 和开放式双格式。配好的题目还要过三轮审查：先做语义校验确认问题本身成立，再由独立标注员验证答案，最后建立金标准。这套层层过滤是 1400 题最终可靠的保证，也让 MCQ 与开放式两套答案严格对应、可做格式对比。

3. 改进策略探索：不止暴露问题，还系统试探哪条路能补上空间短板

发现差距之后，论文进一步把多种提升手段拉到同一基准上横评：模型内在推理、CoT 提示、CoT+自反思、SFT 微调（用 40% 数据训练、60% 留作评估，微调 Qwen-VL2.5-3B-Instruct），以及多智能体系统 SpatioXolver。结论是没有银弹——SFT 在导航和方向上收益最明显，多智能体推理对方向有帮助但在遮挡、尺度等类别上反而停滞甚至退化。这组对照说明当前主流增强手段只能局部缓解，空间推理的根本缺陷靠堆这些技巧补不齐。

损失函数 / 训练策略¶

基准论文本身无训练损失。仅在改进策略探索的 SFT 实验中用标准监督损失微调 Qwen-VL2.5-3B-Instruct（40% 数据训练 / 60% 评估）。

实验关键数据¶

主实验（MCQ格式，25+模型）¶

模型	3D几何	深度&遮挡	方向	相对位置	尺度	导航	总体
人类基线	93.70	74.13	91.58	91.51	88.89	87.76	87.57
InternVL3.5-72B	50.00	57.14	53.47	66.04	49.21	54.85	54.93
GPT-5-mini	48.74	54.83	60.40	62.74	44.84	56.54	54.29
o4-mini-medium	51.26	58.30	54.95	64.15	40.87	51.48	53.21
空间专用模型	~42	~38	~48	~38	~43	~39	~41
随机选择	25.00	25.00	25.00	25.00	25.00	25.00	25.00

开放式格式对比¶

模型	MCQ总体	开放式总体	性能下降
GPT-5-mini	54.29	40.93	-13.36
o4-mini-medium	53.21	37.86	-15.35
InternVL3.5-72B	54.93	23.36	-31.57
人类基线	87.57	64.93	-22.64
平均MCQ→Open gap	-	-	-23.0%

关键发现¶

最强模型仅55%（MCQ）/41%（开放式）：与人类88%/65%差距悬殊。空间专用模型反而更差（~41%），说明当前特化方法无效
开放式评估暴露真实能力：平均MCQ→Open下降23%，空间专用模型下降最多（~27%），说明MCQ可高估真实空间推理能力
最难的三大类：Size & Scale、Depth & Occlusion、Spatial Navigation一致成为瓶颈，多数模型<50%/30%
模型规模≠空间推理：Llama-3.2-11B仅30.5%，比许多4B模型都差，说明空间推理需要特殊能力而非纯规模
推理增强有限效果：CoT对方向类有帮助，SFT改善导航（+7.69%），但多智能体系统在遮挡/尺度上反而退化
系统性失败模式：物体旋转（2%）、反射面（<20%）、工具惯用手（<30%）等任务几乎全军覆没

亮点与洞察¶

真实场景+双格式评估设计精良：1400题覆盖30种任务是空间推理领域最细粒度的分类体系，MCQ+Open双格式避免了格式偏差这是之前基准忽略的关键问题
"空间专用模型不如通用模型"的反直觉发现：SpaceOm/SpaceThinker/SpaceQwen在真实场景下全面落后于InternVL3.5-72B，说明在合成数据上训练的空间能力无法迁移
错误分析的诊断价值：聚类分析发现失败集中在空间误定位、透视/尺度错误、遮挡排序失败三类，与VLM缺乏几何监督直接相关
开放式评估的必要性：MCQ→Open平均下降23%，且下降在导航（最需要多步推理）上最大，说明当前VLM依赖消去法而非真正理解

局限与展望¶

1400题虽质量高但数量有限，每子类仅25+题可能不足以稳定评估
开放式评估依赖LLM judge（Gemini-2.5-Flash），虽然Cohen's kappa=0.738但评判本身仍不完美
未涵盖视频场景的时序空间推理
可改进方向：开发基于物理引擎的空间推理预训练数据，或在VLM中引入显式的几何编码模块来弥补空间推理短板

评分¶

新颖性: ⭐⭐⭐⭐ 30类任务+双格式评估设计新颖，但核心方法论（构建基准）非全新范式
实验充分度: ⭐⭐⭐⭐⭐ 25+模型、人类基线、改进策略探索、error analysis极为全面
写作质量: ⭐⭐⭐⭐ 结构清晰，分析深入，但篇幅较长
价值: ⭐⭐⭐⭐⭐ 填补了真实场景空间推理评估的空白，量化了VLM-人类差距，对VLM社区有重要指导意义