SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models¶

会议: CVPR 2026
arXiv: 2602.20901
代码: https://github.com/xieyc99/SpatiaLQA
领域: 多模态VLM
关键词: 空间逻辑推理, VLM基准, 场景图, 室内场景理解, 多步推理

一句话总结¶

提出SpatiaLQA基准（9605个QA对、241个真实室内场景），系统评估41个VLM在空间逻辑推理上的表现，并设计递归场景图辅助推理方法来提升VLM的空间逻辑推理能力。

领域现状：VLM在通用VQA和逻辑推理任务上已取得不错成绩，但在需要结合空间理解和多步逻辑推理的复杂现实场景中仍然力不从心。

现有痛点：现有基准要么聚焦空间理解（如SpatialRGPT-Bench）、要么聚焦逻辑推理（如MathVista），缺乏将二者整合的评估体系。同时，EQA任务关注的是动作执行，而非纯视觉-语义层面的推理。

核心矛盾：空间逻辑推理要求模型同时具备精确的空间感知能力和严密的多步因果推理能力，这两种能力的融合在现有VLM中未被系统研究。

本文目标：(a) 构建一个全面的空间逻辑推理基准；(b) 系统评估现有VLM在该任务上的表现；(c) 提出改进方法。

切入角度：将复杂场景分解为任务相关的场景图，让VLM聚焦于目标对象周围的空间环境。

核心 idea：用递归场景图构建方法将复杂室内场景逐步分解为与任务相关的空间关系图，增强VLM的多步空间推理能力。

输入为室内场景图像和一个需要多步空间推理的问题，输出为一系列逻辑连贯的操作步骤。方法分三步：(1) 利用视觉基础模型获取深度图和分割图；(2) 基于目标对象递归构建场景图；(3) 将场景图与问题一并输入VLM生成最终答案。

SpatiaLQA基准构建：
- 功能：构建9605个QA对，来自241个真实室内场景
- 核心思路：三阶段数据采集——手动标注2401对，子图提取增强得到2251对，图扩展增强得到4953对
- 设计动机：直接构建大规模空间逻辑推理数据成本极高，通过基于逻辑依赖关系的子图提取和图扩展实现高效增强
评估指标设计：
- 功能：基于GPT-4o和匈牙利算法进行步骤级匹配
- 核心思路：先用GPT-4o生成预测步骤与标注步骤的匹配矩阵，再用匈牙利算法获取最优一对一匹配，最后计算内容和前置条件的精确率/召回率
- 设计动机：开放式多步答案无法用传统准确率评估，需要步骤级别的语义匹配
递归场景图辅助推理 (RSGAR)：
- 功能：利用Depth Anything V2和SAM获取深度和分割信息，递归构建以目标对象为中心的场景图
- 核心思路：以任务指定的对象为初始源对象，VLM识别与其直接接触的目标对象及空间关系，构建场景图节点和边；然后迭代展开，直到达到最大迭代次数
- 设计动机：直接让VLM处理复杂场景容易忽略关键空间关系，逐步分解可以让模型聚焦于局部空间环境

RSGAR 是推理时方法，无需额外训练，直接利用预训练VLM和视觉基础模型进行推理增强。

配置	\(F_c\)	\(F_p\)	说明
GPT-4o (baseline)	52.5	19.2	无场景图辅助
+ 深度图	53.8	20.1	仅加深度信息
+ 分割图	54.2	20.5	仅加分割信息
+ RSGAR (1轮)	55.1	21.3	单轮场景图
+ RSGAR (3轮)	56.8	22.4	递归3轮，效果最佳