SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models¶
会议: CVPR 2026
arXiv: 2602.20901
代码: https://github.com/xieyc99/SpatiaLQA
领域: 多模态VLM
关键词: 空间逻辑推理, VLM基准, 场景图, 室内场景理解, 多步推理
一句话总结¶
提出SpatiaLQA基准(9605个QA对、241个真实室内场景),系统评估41个VLM在空间逻辑推理上的表现,并设计递归场景图辅助推理方法来提升VLM的空间逻辑推理能力。
研究背景与动机¶
领域现状:VLM在通用VQA和逻辑推理任务上已取得不错成绩,但在需要结合空间理解和多步逻辑推理的复杂现实场景中仍然力不从心。
现有痛点:现有基准要么聚焦空间理解(如SpatialRGPT-Bench)、要么聚焦逻辑推理(如MathVista),缺乏将二者整合的评估体系。同时,EQA任务关注的是动作执行,而非纯视觉-语义层面的推理。
核心矛盾:空间逻辑推理要求模型同时具备精确的空间感知能力和严密的多步因果推理能力,这两种能力的融合在现有VLM中未被系统研究。
本文目标:(a) 构建一个全面的空间逻辑推理基准;(b) 系统评估现有VLM在该任务上的表现;(c) 提出改进方法。
切入角度:将复杂场景分解为任务相关的场景图,让VLM聚焦于目标对象周围的空间环境。
核心 idea:用递归场景图构建方法将复杂室内场景逐步分解为与任务相关的空间关系图,增强VLM的多步空间推理能力。
方法详解¶
整体框架¶
输入为室内场景图像和一个需要多步空间推理的问题,输出为一系列逻辑连贯的操作步骤。方法分三步:(1) 利用视觉基础模型获取深度图和分割图;(2) 基于目标对象递归构建场景图;(3) 将场景图与问题一并输入VLM生成最终答案。
关键设计¶
-
SpatiaLQA基准构建:
- 功能:构建9605个QA对,来自241个真实室内场景
- 核心思路:三阶段数据采集——手动标注2401对,子图提取增强得到2251对,图扩展增强得到4953对
- 设计动机:直接构建大规模空间逻辑推理数据成本极高,通过基于逻辑依赖关系的子图提取和图扩展实现高效增强
-
评估指标设计:
- 功能:基于GPT-4o和匈牙利算法进行步骤级匹配
- 核心思路:先用GPT-4o生成预测步骤与标注步骤的匹配矩阵,再用匈牙利算法获取最优一对一匹配,最后计算内容和前置条件的精确率/召回率
- 设计动机:开放式多步答案无法用传统准确率评估,需要步骤级别的语义匹配
-
递归场景图辅助推理 (RSGAR):
- 功能:利用Depth Anything V2和SAM获取深度和分割信息,递归构建以目标对象为中心的场景图
- 核心思路:以任务指定的对象为初始源对象,VLM识别与其直接接触的目标对象及空间关系,构建场景图节点和边;然后迭代展开,直到达到最大迭代次数
- 设计动机:直接让VLM处理复杂场景容易忽略关键空间关系,逐步分解可以让模型聚焦于局部空间环境
损失函数 / 训练策略¶
RSGAR 是推理时方法,无需额外训练,直接利用预训练VLM和视觉基础模型进行推理增强。
实验关键数据¶
主实验¶
| 模型 | \(F_c\) (内容F1) | \(F_p\) (前置条件F1) |
|---|---|---|
| Human | 97.6 | 92.5 |
| GPT-4o | 52.5 | 19.2 |
| Claude 3.5 Sonnet | 46.3 | 15.8 |
| Gemini 2.0 Flash | 44.1 | 14.7 |
| GPT-4o + RSGAR | 56.8 | 22.4 |
| InternVL2-26B | 38.2 | 12.1 |
消融实验¶
| 配置 | \(F_c\) | \(F_p\) | 说明 |
|---|---|---|---|
| GPT-4o (baseline) | 52.5 | 19.2 | 无场景图辅助 |
| + 深度图 | 53.8 | 20.1 | 仅加深度信息 |
| + 分割图 | 54.2 | 20.5 | 仅加分割信息 |
| + RSGAR (1轮) | 55.1 | 21.3 | 单轮场景图 |
| + RSGAR (3轮) | 56.8 | 22.4 | 递归3轮,效果最佳 |
关键发现¶
- 即使最强的GPT-4o在空间逻辑推理上的 \(F_c\) 也仅约52.5%,与人类97.6%差距巨大
- 所有VLM在前置条件推理 \(F_p\) 上表现更差,说明理解步骤间依赖关系是核心难题
- 随着答案步骤数增加,模型performance急剧下降,多步推理是瓶颈
- RSGAR方法在多个VLM上均能带来一致提升,验证了场景图分解的有效性
亮点与洞察¶
- 评估体系设计巧妙:使用GPT-4o做语义匹配+匈牙利算法做最优对齐,解决了开放式多步回答的评估难题。这种两阶段评估范式可迁移到其他多步推理任务。
- 递归场景图分解:将端到端的复杂空间推理转化为逐步聚焦的子问题求解,类似于思维链的空间版本,巧妙利用了视觉基础模型的互补能力。
- 数据增强策略:子图提取和图扩展从有限标注中高效生成大量训练数据,同时保持逻辑一致性。
局限与展望¶
- 基准仅覆盖室内场景,室外复杂场景(如交通、建筑工地)未涉及
- RSGAR依赖外部视觉模型(SAM、Depth Anything),引入额外计算开销和误差传播
- 场景图的最大迭代次数是固定的,缺乏自适应终止机制
- 未探索如何将空间逻辑推理能力注入到VLM训练中,仅在推理时增强
相关工作与启发¶
- vs SpatialRGPT-Bench:SpatialRGPT仅关注空间理解,不涉及多步逻辑推理;SpatiaLQA在此基础上加入了步骤依赖关系
- vs EmbodiedBench:EmbodiedBench关注具身执行,输出空间是预定义动作原语;SpatiaLQA关注开放词汇的推理过程
评分¶
- 新颖性: ⭐⭐⭐⭐ 提出新任务定义和大规模基准,填补了空间逻辑推理评估空白
- 实验充分度: ⭐⭐⭐⭐⭐ 评估了41个VLM,涵盖主流模型,分析全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,但部分描述较冗长
- 价值: ⭐⭐⭐⭐ 基准资源对社区有重要价值,方法改进空间较大