OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models¶

会议: ICLR 2026
arXiv: 2506.03135
代码: 项目页面
领域: 多模态VLM/基准测试
关键词: 空间推理, VLM基准, 认知心理学, 动态推理, 透视转换

一句话总结¶

基于认知心理学构建OmniSpatial——首个全面空间推理基准，系统覆盖动态推理、复杂空间逻辑、空间交互和透视转换4大维度50个子类别共8.4K人工标注QA对，让o3最强推理模型仅达56.33%而人类达92.63%→揭示复杂空间推理仍是VLM的核心瓶颈。

研究背景与动机¶

领域现状：空间推理是VLM的核心能力。现有基准（SpatialBot-Bench、EmbSpatial等）集中于基础空间关系——辨别左右、估计远近、物体计数。最新推理模型（o3、Gemini-2.5-Pro）已在这些基准上达到>90%准确率→基础空间理解接近饱和。

现有痛点： - 基础空间关系（左/右/前/后/计数）≠复杂空间推理（旋转/变形/路径规划/视角变换）→现有基准低估了真实能力差距 - 现有基准多采用模板自动标注→数据多样性和挑战性不足，问题表述刻板（如"A在B的左边吗？"） - 缺乏认知心理学理论支撑的系统化分类→各基准任务设计零散、覆盖面有限

核心矛盾：VLM在现有基准上的"高分"掩盖了其在真实场景复杂空间推理上的根本性不足——人类在紧急情况下理解AED位置不仅需要辨别"在门右边"，还需要读懂示意图、关联地图与实景、规划路线。

本文目标：构建一个"不可饱和"的综合性空间推理基准，覆盖从基础到高阶的完整空间认知能力谱。

切入角度：从认知心理学的空间认知理论出发（Chabris 2006; Meneghetti 2022），将复杂空间推理分为4个互补维度→以此为框架设计50个子类别→确保理论完备性。

核心 idea：用认知心理学的空间认知理论重新定义"空间推理"评测的完整边界。

方法详解¶

整体框架¶

OmniSpatial 把视觉-空间推理形式化为映射 \(f:(\mathbf{I}_{1:T}, q) \longrightarrow a\)：给定 RGB 观测流 \(\mathbf{I}_{1:T}\) 和任务查询 \(q\)，模型输出落在可验证答案/动作空间中的 \(a\)；标注刻意排除可纯靠语言常识答出的题，确保分数提升能归因于视觉推理本身。整个基准围绕一套认知心理学驱动的分类体系搭建——把空间认知拆成 4 个互补维度、共 50 个子类别，并配上多源采集 + 全人工标注的数据管线，最后辅以两条推理增强策略来探测瓶颈到底在哪。

关键设计¶

1. 四大认知维度的分类体系：把"空间推理"重新定义到完备

现有基准只覆盖左右、远近、计数这类基础关系，最新模型已刷到 >90%、失去区分度。OmniSpatial 不靠随意堆难题来对抗饱和，而是从空间认知的几项独立官能（可视化、心理旋转、透视转换、空间更新）出发，划出四个互补维度、对应不同认知能力：动态推理（11 子类）从视觉证据推断运动与时间变化，如轨迹预测、物理仿真、交通情境分析；复杂空间逻辑（15 子类）做关系/变换/几何结构的高阶推理，如 3D 结构推理、心理折叠展开、空间兼容性判断；空间交互（12 子类）在环境约束下做任务导向推理，如路径规划、障碍避免、上下文动作选择；透视转换（12 子类）考察采纳他者视角的能力，如心理旋转、镜像理解、多智能体视角协调。四个维度合计 50 个子类别，既因为锚在认知理论上而有完备性，又覆盖了从机器人操作到自动驾驶的完整应用谱——任何维度被刷高都还有其余维度兜底，使整个基准"不可饱和"。

2. 多源采集与会话式人工标注：用难度和多样性堵住模板化漏洞

模板自动标注（"A 在 B 左边吗？"）表述刻板、多样性差，是现有基准被刷穿的另一原因。OmniSpatial 改从四类来源采集图像以拉开分布：网络图片用 -ai、-generated 等搜索词排除合成内容，覆盖多国、多场景、多天气；公共空间认知测试题侧重纯空间推理；至少 3 个国家的驾照考试题（含从美国驾考视频抽帧再标）引入真实交通场景；以及 MME（带深度信息）和 HOI4D（人-物交互帧序列）等已有数据集。所有问题都改用会话式自然表述（如"如果你正进教室，学生在你哪一侧？"），并由 6 名标注者交叉验证，标注一致性 Krippendorff's \(\alpha = 0.84\)，最终切出 1.5K 纯人工标注的测试集与 6.9K 训练集（合计约 8.4K QA 对）。难度与表述的多样性让题目无法被模板套路猜中，分数提升只能来自真实的视觉空间推理。

3. PointGraph 与 SpatialCoT 增强：把几何先验显式喂给模型，借此定位瓶颈

VLM 缺乏内在 3D 表示，遮挡和视角歧义常导致空间推理崩塌；作者于是设计两条增强策略，既想拉高分、更想用它们当探针看瓶颈在哪。PointGraph 用开放词汇 grounding 模型 Florence-2 定位场景中的多个物体、提取中心点与边界框，组装成 JSON 格式的场景图作为显式几何线索；SpatialCoT 则受人类心理意象能力启发，用 InstantMesh 为每张输入图生成 6 个新视角拼成多视角图，连同问题一起送入模型做链式思考，提供强几何先验以消解遮挡与视角相关的歧义。结果是两条策略只在部分维度带来有限提升——这种"补了先验也救不回来"的现象反过来印证：瓶颈是 VLM 基础空间认知能力的缺失，而不是缺少几何标注。

实验关键数据¶

主实验：OmniSpatial-test上代表性模型表现（%）¶

模型	平均	操作	运动分析	交通	定位	地理	策略	模式识别	几何推理	自我中心	他者中心
Random	24.98	-	24.86	26.30	25.88	23.43	27.27	21.44	24.77	22.55	24.84
GPT-4o	47.81	65.54	57.23	56.47	52.38	54.09	26.29	25.48	75.98	39.49	39.76
o3	56.33	71.89	66.18	61.18	68.57	65.45	40.21	29.68	77.06	48.40	48.19
Gemini-2.5-Pro	55.19	67.57	71.39	62.35	75.24	64.55	43.30	34.84	74.51	38.03	37.35
InternVL3-78B	49.33	63.78	63.12	56.24	59.24	51.45	27.63	30.19	74.51	38.46	35.90
SoFar-3B	45.14	56.49	51.16	54.12	53.14	52.73	31.75	22.88	71.60	36.56	41.69
人类	92.63	94.62	96.07	91.38	95.11	92.15	89.02	85.90	98.53	94.30	90.26

现有基准 vs OmniSpatial 的饱和度对比¶

模型	SpatialBot-Bench	EmbSpatial	OmniSpatial
o3	>90%	>90%	56.33%
Gemini-2.5-Pro	>90%	>90%	55.19%
人类	~95%	~95%	92.63%

关键发现¶

最强推理模型o3（56.33%）vs 人类（92.63%）→差距达36个百分点→复杂空间推理远未解决
策略（Strategy, ~40%）和模式识别（Pattern Recognition, ~30%）是最难维度→即使o3也仅半数正确
透视转换（自我中心/他者中心，~48%/~48%）难度显著→VLM缺乏内在3D表示和心理旋转能力
专用空间模型（SpatialBot、RoboPoint）在OmniSpatial上并无优势（35-40%）→"专用"训练集太简单
PointGraph和SpatialCoT可改善部分维度但提升有限→基础空间认知能力缺失是根源

亮点与洞察¶

"饱和的警示"：清晰展示现有基准已被最新模型"解决"→社区需要更难的评估标杆。OmniSpatial将评测从"Pattern Matching"提升到"Cognitive Reasoning"
认知心理学的理论锚点：不是随意添加难题，而是从空间认知理论出发→系统性和完备性有理论保证
50个子类别的诊断价值：不同子任务难度差异极大（几何推理~75% vs 模式识别~30%）→为模型改进提供精确方向
人类92.63%的性能上界：即使人类也并非100%→有些题目（如模式识别85.90%）对人类也有挑战性→说明题目设计有深度

局限与展望¶

主要基于静态图片/少量视频帧→动态空间推理可进一步扩展到连续视频
所有3D推理任务仍是在2D图片上进行→真正的3D交互环境（VR/模拟器）未涉及
人工标注质量高但扩展成本大→需要探索半自动标注方案以持续扩充数据
PointGraph和SpatialCoT作为增强策略效果有限→更根本的改进可能需要在模型架构层面引入3D空间先验

评分¶

⭐⭐⭐⭐⭐ (5/5)

综合评价：首个基于认知心理学理论的全面空间推理基准，50类×8.4K题的精心人工标注，o3仅56%/人类93%的巨大差距证明了基准的区分度和价值——为VLM空间认知能力评估设定了新标杆。