Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models¶
会议: ICLR 2026
arXiv: 2510.13394
代码: https://github.com/Spatial-DISE
领域: 多模态VLM
关键词: spatial reasoning, VLM benchmark, cognitive taxonomy, DISE framework, mental transformation
一句话总结¶
提出基于认知科学 2×2 分类法(内在/外在 × 静态/动态)的统一空间推理基准 Spatial-DISE,包含 559 个评估 VQA 对和 12K+ 训练数据,在 32 个 SOTA VLM 上的评测揭示了模型在动态空间推理(尤其是心理旋转和折叠)上与人类的巨大差距。
研究背景与动机¶
领域现状:空间推理能力对机器人、增强现实、自动驾驶等应用至关重要,近年来涌现了大量 VLM 空间推理基准如 SpatialRGPT、VSR、CV-Bench、BLINK 等。这些基准主要评估外在-静态(E-S)能力,即固定场景中物体间的空间关系理解。Table 1 对比了 18 个现有基准的 DISE 四象限覆盖情况,绝大多数只覆盖 1-2 个象限。
现有痛点:现有基准存在三大局限:(1) 缺乏系统的认知框架来分类和评估不同类型的空间推理能力,评测碎片化且不平衡;(2) 过度聚焦于静态空间问题,忽视需要多步动态推理的任务(如心理旋转和折叠);(3) 少数涉及动态任务的基准(如 SAT、SPACE)规模太小,难以可靠评估模型能力或支持模型训练。
核心矛盾:人类的空间认知包含丰富的动态心理模拟能力(如想象物体旋转后的样子、折叠后的形状),但现有基准几乎没有系统地评估这类"内在-动态"(I-D)能力。模型在静态判断上可能表现不错,但在需要心理模拟的场景下可能完全失败——而这恰恰是实际应用中最关键的能力。
本文目标 (1) 如何建立一个认知科学导向的统一分类框架覆盖所有空间推理类型?(2) 如何大规模生成可验证的动态空间推理数据来解决数据稀缺问题?(3) 当前 VLM 在不同空间推理维度上的能力边界和失败模式是什么?(4) 训练数据的补充能否有效改善空间推理能力?
切入角度:借鉴认知科学中 Uttal 等人的空间能力分类体系,将空间推理沿"内在 vs 外在"和"静态 vs 动态"两个维度组织为 DISE 四象限,设计 10 个涵盖所有象限的认知任务。利用 Blender 引擎构建可扩展的合成数据生成流水线,解决动态任务的数据稀缺问题。
核心 idea:用认知科学的 2×2 DISE 分类法统一组织空间推理评测,重点弥补现有基准在内在-动态维度上的空白。
方法详解¶
整体框架¶
Spatial-DISE 不是一个新模型,而是一套「认知分类法 + 数据构建流水线 + 评测」三位一体的空间推理基准。它先用 DISE 分类法把空间推理沿两个正交维度切成四象限、铺出 10 个认知任务;再用一条三阶段策展流水线(真实数据收集 → Blender 合成 → 人工质量控制)大规模产出可验证的 VQA(视觉问答)数据,得到 559 对评估集 Spatial-DISE Bench 和 12K+ 训练集 Spatial-DISE-12K;最后在 32 个 SOTA VLM 上评测,并以经 IRT 校验的人类基线为标尺,量化模型离人类还有多远。
10 个任务的设计都对标经典心理测验,并按象限分布:内在-静态(I-S)的 2D/3D 形状查找测部分-整体关系分析;内在-动态(I-D)的 2D/3D 旋转、2D/3D 折叠、Fold&Punch 测纯心理模拟变换;外在-静态(E-S)的 3D 投影测固定视角下的空间关系;外在-动态(E-D)的 2D/3D 组合测多部件动态装配。流水线里的真实数据(从心理测验和专业能力评估收集的 1180 个概念模板)既直接贡献部分题目,又为 Blender 合成提供任务模板。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
T["DISE 认知分类法<br/>内在/外在 × 静态/动态<br/>→ 10 任务铺满 4 象限"]
R["真实数据收集<br/>心理测验/能力评估<br/>1180 概念模板"]
S["Blender 合成流水线<br/>种子化生成 → 渲染<br/>→ 分层 near-miss 干扰项"]
Q["人工质量控制<br/>唯一性 / 清晰度 / 去冗余"]
B["Spatial-DISE Bench<br/>559 评估对"]
K["Spatial-DISE-12K<br/>12K+ 训练对"]
E["32 个 VLM 评测"]
H["人类基线<br/>54 人 · IRT 校验 · 76.8%"]
T --> R
R -->|概念模板| S
R -.真实题目.-> Q
S --> Q
Q --> B
Q --> K
B --> E
E -.对比.-> H
关键设计¶
1. DISE 认知分类法:用两个正交维度把空间推理切成四象限,补齐最薄弱的内在-动态
针对现有基准评测碎片化、大多只覆盖 1-2 个象限的痛点,DISE 沿两个正交维度组织所有空间推理任务:第一维度区分内在(Intrinsic,关注物体内部结构和部件关系)与外在(Extrinsic,关注物体之间的空间关系);第二维度区分静态(Static,信息固定不变)与动态(Dynamic,需要心理变换)。两维度交叉出四个象限——I-S(分析物体内部静态属性,如形状查找)、I-D(心理模拟物体变换,如旋转、折叠)、E-S(固定场景中的物体关系,如 3D 投影)、E-D(推理多物体的变化关系,如 2D/3D 组合)。以往基准大多挤在 E-S 一角,DISE 用这张 2×2 网格保证十个任务铺满四象限,尤其把最稀缺的 I-D 心理模拟单独拎出来评估。框架本身一个已知局限是不区分 2D 与 3D 空间推理的难度差异。
2. Blender 可扩展合成流水线:把稀缺的动态空间数据变成可大规模生成、答案可自动验证的合成数据
动态空间推理数据极度稀缺、难以从真实世界大规模收集,这是补齐 I-D 的最大瓶颈。流水线用五步把它工程化:(1) 用 question_id 哈希出可复现的随机种子,保证每个实例可重建、可验证;(2) 生成核心 3D 物体(如不规则形状、带纹理的立方体);(3) 从最佳视角渲染问题图和正确答案图;(4) 系统性生成分层 near-miss 干扰项;(5) 在受控虚拟环境里统一渲染输出标准 VQA 对。这里干扰项是诊断性的关键——简单干扰项只能筛掉最差的模型,所以按任务定制四类容易混淆的近似错误:几何变体(增减组件)、模式/方向错误(纹理错位)、错误视角(正交投影方向错误)、组件替换(用几何相似但不正确的部件顶替)。每种都对准模型常犯的某类错误(如 3D 旋转靠微调角度、3D 折叠靠交换面纹理生成),逼模型必须做精确空间推理而非模式匹配。因为整个场景由 Blender 参数驱动,正确答案能直接用场景参数验证、无需人工标注;社区只要实现新的物体生成和干扰项策略就能扩展新任务。
3. 人工质量控制:用唯一性、清晰度、去冗余三道闸把不合格实例直接踢出去
合成数据规模虽大,仍可能有歧义题、渲染瑕疵或重复项,因此策展流水线的第三阶段对每个实例过三道质量闸:(1) 答案唯一性——每题必须有且只有一个正确答案;(2) 准确性与清晰度——图像无渲染瑕疵、问题表述清楚、所有选项都符合任务标准;(3) 冗余消除——去掉逻辑或视觉上重复的实例。任一闸不合格的实例直接从最终数据集中移除,保证评估集 559 对每一道都干净可用(12K 训练集则对分层抽样的 1000 个实例做人工核验、其余用程序化单解检查兜底)。
4. 人类基线建立:用矩阵采样 + IRT 交叉验证给出心理测量学可靠的人类上界
光有模型分数不知道"差距"有多大,所以要一个可靠的人类上界做标尺。作者招了 54 名参与者(年龄 15-55 岁),共收集 1679 个有效回答;采用矩阵采样设计,让每题平均被 3 个独立参与者作答;最终报告所有回答的平均准确率(76.8%),并用 Item Response Theory(IRT,项目反应理论)做交叉验证,确保这个基线在心理测量学上可靠,而非少数人偶然发挥。正是有了这条 76.8% 的人类线,才能定量说明 VLM 平均仅 28.4% 的成绩离人类有多远。
实验关键数据¶
主实验¶
| 模型类型 | 代表模型 | 总体准确率 | I-D(内在动态) | E-D(外在动态) | I-S(内在静态) |
|---|---|---|---|---|---|
| 闭源最佳 | Doubao1.5VL-thinking | 42.0% | 40.9% | 61.9% | 35.6% |
| 闭源平均 | — | 31.9% | 35.2% | 26.0% | 27.7% |
| 开源最佳 | Qwen2.5-VL-7B-sft | 47.0% | 43.1% | 66.7% | 51.7% |
| 开源平均 | — | 26.2% | 29.1% | 23.2% | 19.3% |
| 人类基线 | — | 76.8% | 80.2% | 61.1% | 76.8% |
| 随机猜测 | — | 24.8% | 24.3% | 25.4% | 24.7% |
微调实验(Spatial-DISE-12K)¶
| 模型 | Spatial-DISE | CVBench | SAT | SPACE | OmniSpatial |
|---|---|---|---|---|---|
| Qwen2.5-VL-7B (Base) | 26.1% | — | — | — | — |
| Qwen2.5-VL-7B (SFT) | 47.0% (+20.9pp) | — | — | — | — |
| SpaceOm (Base) | 25.9% | 68.8% | 46.67% | 27.22% | 27.91% |
| SpaceOm (SFT) | 41.3% (+15.4pp) | 70.33% | 49.33% | — | — |
关键发现¶
- 所有 32 个模型平均准确率仅 28.4%,仅略高于随机猜测(25%),远低于人类基线(76.8%),空间推理是 VLM 的系统性弱点
- Fold&Punch 任务(需要折叠→打孔→展开三步心理模拟)上最优模型仅 30.8%,平均仅 25.4%(等同随机猜测),揭示了"空间工作记忆"的严重缺陷——模型无法在多步变换中维持连贯的心理状态
- 静态能力并非动态推理的前提:多个模型在动态任务上反而优于静态任务(如 Gemini-2.0-Flash 动态 38.3% vs 静态 23.6%),表明模型学到的是碎片化策略而非系统性空间认知
- Doubao-1.5-thinking 在 E-D 任务上超过人类(61.9% vs 61.1%),因为它将认知模拟转化为计算问题——算法式地比较几何特征而非依赖心理模拟
- Spatial-DISE-12K 微调带来显著提升(Qwen2.5-VL +20.9pp),且部分泛化到外部基准如 CVBench 和 SAT
- 推理增强训练(如 RLHF、GRPO)带来的提升有限且不均匀,不能从根本上解决认知空间推理问题
亮点与洞察¶
- DISE 分类法将分散的空间推理研究统一到一个框架下,可以精准诊断模型在哪个认知维度上最薄弱。这个框架可以迁移到其他认知能力评测领域(如因果推理、时序推理)
- Blender 合成流水线是一个可复用的工具——用种子化随机保证可验证性,用分层干扰项保证诊断性。社区可以在此基础上扩展新的空间推理任务类型
- "静态能力不是动态推理前提"的发现挑战了直觉,暗示当前 VLM 的空间"理解"可能只是模式匹配而非真正的空间认知
- Doubao-1.5-thinking 在 E-D 上超过人类的现象启示:对于可以算法化的空间任务,模型有天然优势——这指向了一种"计算式空间推理"的研究方向
- 微调 12K 数据即可获得 20pp+ 提升说明动态空间推理的训练数据极度匮乏,这一数据集本身就是重要贡献
局限与展望¶
- 评估使用 VQA 多选题形式,可能低估模型的开放式空间推理能力(如自由描述空间关系)
- 合成数据的视觉风格(纯色背景、简洁几何体)与真实世界差距较大,微调后是否能迁移到真实场景需要更多验证
- 只关注 2D/3D 几何空间推理,未涉及语义空间推理(如"厨房通常在餐厅旁边")和导航空间推理
- 人类基线的 54 名参与者规模偏小,年龄跨度 15-55 岁但年龄/教育分布未详细说明
- Blender 流水线目前只覆盖 5 种 3D 任务,可扩展到遮挡推理、透视变换、镜像反转等更多类型
- Bench 规模(559 对)对于某些子类别(如 E-S 只有 70 对)可能偏小,模型置信区间较宽
- 未探索视频输入下的动态空间推理,多帧信息可能改善模型的心理模拟能力
相关工作与启发¶
- vs SPARE3D: SPARE3D 只覆盖 I-S 象限(用合成数据测试 3D 形状识别),Spatial-DISE 覆盖全部四象限,特别是补齐 I-D
- vs SPACE: SPACE 也涉及动态推理但规模小(5K),且缺乏统一框架;Spatial-DISE 有更大规模的训练集(12K+)和系统的认知分类
- vs OmniSpatial: OmniSpatial 覆盖所有四象限但规模小(1.5K)且使用真实世界数据,难以大规模扩展;Spatial-DISE 的 Blender 流水线提供了可扩展方案
评分¶
- 新颖性: ⭐⭐⭐⭐ DISE 分类法有认知科学基础,对内在-动态推理的系统性重视填补了重要评估空白
- 实验充分度: ⭐⭐⭐⭐⭐ 32 个模型(含闭源、开源、推理增强、空间特化四类)、四象限细分分析、微调实验和跨五个外部基准的泛化测试,覆盖广度和分析深度均突出
- 写作质量: ⭐⭐⭐⭐ 结构清晰,DISE 框架图示直观,认知分析有深度;部分实验表格过于密集难以快速提取关键信息
- 价值: ⭐⭐⭐⭐ 揭示了当前 VLM 在认知空间推理上的系统性弱点,Blender 合成流水线和 12K 训练集对社区有实际复用价值