Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models¶

会议: ICLR 2026
arXiv: 2510.13394
代码: https://github.com/Spatial-DISE
领域: 多模态VLM
关键词: spatial reasoning, VLM benchmark, cognitive taxonomy, DISE framework, mental transformation

一句话总结¶

提出基于认知科学 2×2 分类法（内在/外在 × 静态/动态）的统一空间推理基准 Spatial-DISE，包含 559 个评估 VQA 对和 12K+ 训练数据，在 32 个 SOTA VLM 上的评测揭示了模型在动态空间推理（尤其是心理旋转和折叠）上与人类的巨大差距。

研究背景与动机¶

领域现状：空间推理能力对机器人、增强现实、自动驾驶等应用至关重要，近年来涌现了大量 VLM 空间推理基准如 SpatialRGPT、VSR、CV-Bench、BLINK 等。这些基准主要评估外在-静态（E-S）能力，即固定场景中物体间的空间关系理解。Table 1 对比了 18 个现有基准的 DISE 四象限覆盖情况，绝大多数只覆盖 1-2 个象限。

现有痛点：现有基准存在三大局限：(1) 缺乏系统的认知框架来分类和评估不同类型的空间推理能力，评测碎片化且不平衡；(2) 过度聚焦于静态空间问题，忽视需要多步动态推理的任务（如心理旋转和折叠）；(3) 少数涉及动态任务的基准（如 SAT、SPACE）规模太小，难以可靠评估模型能力或支持模型训练。

核心矛盾：人类的空间认知包含丰富的动态心理模拟能力（如想象物体旋转后的样子、折叠后的形状），但现有基准几乎没有系统地评估这类"内在-动态"（I-D）能力。模型在静态判断上可能表现不错，但在需要心理模拟的场景下可能完全失败——而这恰恰是实际应用中最关键的能力。

本文目标 (1) 如何建立一个认知科学导向的统一分类框架覆盖所有空间推理类型？(2) 如何大规模生成可验证的动态空间推理数据来解决数据稀缺问题？(3) 当前 VLM 在不同空间推理维度上的能力边界和失败模式是什么？(4) 训练数据的补充能否有效改善空间推理能力？

切入角度：借鉴认知科学中 Uttal 等人的空间能力分类体系，将空间推理沿"内在 vs 外在"和"静态 vs 动态"两个维度组织为 DISE 四象限，设计 10 个涵盖所有象限的认知任务。利用 Blender 引擎构建可扩展的合成数据生成流水线，解决动态任务的数据稀缺问题。

核心 idea：用认知科学的 2×2 DISE 分类法统一组织空间推理评测，重点弥补现有基准在内在-动态维度上的空白。

方法详解¶

整体框架¶

Spatial-DISE 包含两个数据集：Spatial-DISE Bench（559 个 VQA 对，覆盖 10 种任务、4 个 DISE 象限，用于评估）和 Spatial-DISE-12K（12K+ VQA 对，覆盖 5 种 3D 任务，用于训练）。数据来源有两条线：真实世界数据（从学术心理测验和专业能力评估中收集，初始获取 1180 个 VQA 对作为概念模板）和基于 Blender 的合成数据（为 3D 旋转、3D 折叠、3D 形状查找等动态任务自动生成大规模数据）。

DISE 分类法的 10 个任务设计灵感来自经典心理测验：内在-静态（I-S）任务包括 2D/3D 形状查找，测试静态的部分-整体关系分析；内在-动态（I-D）任务包括 2D/3D 旋转、2D/3D 折叠和 Fold&Punch，测试纯心理模拟变换能力；外在-静态（E-S）任务使用 3D 投影，测试固定外部视角下的空间关系理解；外在-动态（E-D）任务使用 2D/3D 组合，测试多部件动态装配推理。

整个流程分三阶段：真实数据收集 → 可扩展合成数据生成 → 严格人工质量控制。

关键设计¶

DISE 认知分类法（2×2 四象限）:
- 功能：为空间推理任务提供统一的分类框架
- 核心思路：第一维度区分内在（Intrinsic，物体内部结构和部件关系）与外在（Extrinsic，物体之间的空间关系）；第二维度区分静态（Static，固定不变的信息）与动态（Dynamic，需要心理变换的信息）。由此产生四个象限：I-S（分析物体内部静态属性，如形状查找）、I-D（心理模拟物体变换，如旋转、折叠）、E-S（固定场景中的物体关系，如 3D 投影）、E-D（推理多物体变化关系，如 2D/3D 组合）
- 设计动机：以往基准通常只覆盖 1-2 个象限（主要是 E-S），DISE 框架确保全面覆盖，特别是补齐 I-D 这一最薄弱环节
- 已知局限：框架本身不区分 2D 和 3D 空间推理的难度差异
Blender 自动合成数据流水线:
- 功能：大规模生成可验证的 3D 空间推理 VQA 数据
- 核心思路：五步流程——(1) 用 question_id 哈希生成可复现的随机种子；(2) 生成核心 3D 物体（如不规则形状、带纹理的立方体）；(3) 从最佳视角渲染问题和正确答案图像；(4) 系统性生成多层级干扰项（几何变体、纹理/方向错误、错误视角、组件替换）；(5) 在受控虚拟环境中统一渲染。每个实例的答案都可通过 Blender 场景参数验证
- 设计动机：动态空间推理数据极度稀缺且难以从真实世界大规模收集，Blender 合成流水线是解决此瓶颈的关键技术贡献
- 可扩展性：社区可以在此框架基础上添加新任务类型，只需实现对应的物体生成和干扰项策略
分层干扰项生成策略:
- 功能：确保每道题目的诊断性和挑战性
- 核心思路：根据任务类型设计不同的干扰项策略——几何变体（增减组件）、模式/方向错误（纹理错位）、错误视角（正交投影方向错误）、组件替换（用几何相似但不正确的部件替换正确部件）。每种策略针对模型可能犯的特定类型错误
- 设计动机：简单的干扰项（如完全不同的形状）无法有效区分模型能力，near-miss 干扰项迫使模型进行精确的空间推理而非模式匹配
- 实现要点：每种任务的干扰项策略经过专门设计，如 3D 旋转的干扰项通过微调旋转角度生成，3D 折叠的干扰项通过交换面的纹理生成

质量控制¶

三阶段质量控制：(1) 答案唯一性检查——每题必须有唯一正确答案；(2) 准确性与清晰度——图像无渲染瑕疵、问题表述清楚、所有选项符合任务标准；(3) 冗余消除——去除逻辑/视觉重复实例。不合格实例直接从最终数据集中移除。

人类基线建立¶

人类基线通过 54 名参与者（年龄 15-55 岁）收集 1679 个有效回答。采用矩阵采样设计，确保每题平均被 3 个独立参与者作答。报告所有回答的平均准确率，并用 Item Response Theory (IRT) 进行交叉验证，确保基线的心理测量学可靠性。

实验关键数据¶

主实验¶

模型类型	代表模型	总体准确率	I-D（内在动态）	E-D（外在动态）	I-S（内在静态）
闭源最佳	Doubao1.5VL-thinking	42.0%	40.9%	61.9%	35.6%
闭源平均	—	31.9%	35.2%	26.0%	27.7%
开源最佳	Qwen2.5-VL-7B-sft	47.0%	43.1%	66.7%	51.7%
开源平均	—	26.2%	29.1%	23.2%	19.3%
人类基线	—	76.8%	80.2%	61.1%	76.8%
随机猜测	—	24.8%	24.3%	25.4%	24.7%

微调实验（Spatial-DISE-12K）¶

模型	Spatial-DISE	CVBench	SAT	SPACE	OmniSpatial
Qwen2.5-VL-7B (Base)	26.1%	—	—	—	—
Qwen2.5-VL-7B (SFT)	47.0% (+20.9pp)	—	—	—	—
SpaceOm (Base)	25.9%	68.8%	46.67%	27.22%	27.91%
SpaceOm (SFT)	41.3% (+15.4pp)	70.33%	49.33%	—	—

关键发现¶

所有 32 个模型平均准确率仅 28.4%，仅略高于随机猜测（25%），远低于人类基线（76.8%），空间推理是 VLM 的系统性弱点
Fold&Punch 任务（需要折叠→打孔→展开三步心理模拟）上最优模型仅 30.8%，平均仅 25.4%（等同随机猜测），揭示了"空间工作记忆"的严重缺陷——模型无法在多步变换中维持连贯的心理状态
静态能力并非动态推理的前提：多个模型在动态任务上反而优于静态任务（如 Gemini-2.0-Flash 动态 38.3% vs 静态 23.6%），表明模型学到的是碎片化策略而非系统性空间认知
Doubao-1.5-thinking 在 E-D 任务上超过人类（61.9% vs 61.1%），因为它将认知模拟转化为计算问题——算法式地比较几何特征而非依赖心理模拟
Spatial-DISE-12K 微调带来显著提升（Qwen2.5-VL +20.9pp），且部分泛化到外部基准如 CVBench 和 SAT
推理增强训练（如 RLHF、GRPO）带来的提升有限且不均匀，不能从根本上解决认知空间推理问题

亮点与洞察¶

DISE 分类法将分散的空间推理研究统一到一个框架下，可以精准诊断模型在哪个认知维度上最薄弱。这个框架可以迁移到其他认知能力评测领域（如因果推理、时序推理）
Blender 合成流水线是一个可复用的工具——用种子化随机保证可验证性，用分层干扰项保证诊断性。社区可以在此基础上扩展新的空间推理任务类型
"静态能力不是动态推理前提"的发现挑战了直觉，暗示当前 VLM 的空间"理解"可能只是模式匹配而非真正的空间认知
Doubao-1.5-thinking 在 E-D 上超过人类的现象启示：对于可以算法化的空间任务，模型有天然优势——这指向了一种"计算式空间推理"的研究方向
微调 12K 数据即可获得 20pp+ 提升说明动态空间推理的训练数据极度匮乏，这一数据集本身就是重要贡献

局限与展望¶

评估使用 VQA 多选题形式，可能低估模型的开放式空间推理能力（如自由描述空间关系）
合成数据的视觉风格（纯色背景、简洁几何体）与真实世界差距较大，微调后是否能迁移到真实场景需要更多验证
只关注 2D/3D 几何空间推理，未涉及语义空间推理（如"厨房通常在餐厅旁边"）和导航空间推理
人类基线的 54 名参与者规模偏小，年龄跨度 15-55 岁但年龄/教育分布未详细说明
Blender 流水线目前只覆盖 5 种 3D 任务，可扩展到遮挡推理、透视变换、镜像反转等更多类型
Bench 规模（559 对）对于某些子类别（如 E-S 只有 70 对）可能偏小，模型置信区间较宽
未探索视频输入下的动态空间推理，多帧信息可能改善模型的心理模拟能力

评分¶

新颖性: ⭐⭐⭐⭐ DISE 分类法有认知科学基础，对内在-动态推理的系统性重视填补了重要评估空白
实验充分度: ⭐⭐⭐⭐⭐ 32 个模型（含闭源、开源、推理增强、空间特化四类）、四象限细分分析、微调实验和跨五个外部基准的泛化测试，覆盖广度和分析深度均突出
写作质量: ⭐⭐⭐⭐ 结构清晰，DISE 框架图示直观，认知分析有深度；部分实验表格过于密集难以快速提取关键信息
价值: ⭐⭐⭐⭐ 揭示了当前 VLM 在认知空间推理上的系统性弱点，Blender 合成流水线和 12K 训练集对社区有实际复用价值