Thinking in Structures: Evaluating Spatial Intelligence in Constraint-Governed Spaces¶

会议: ICML 2026
arXiv: 2602.07864
代码: https://ssi-bench.github.io
领域: 多模态VLM
关键词: 空间智能, 结构化推理, 排序问答, VLM 基准, 三维约束

一句话总结¶

作者构造了 SSI-Bench，一个由 1,000 道排序型 VQA 组成、聚焦"受约束的结构化空间"（屋顶、桥梁、塔架等真实 3D 结构）的基准，要求 VLM 对 3-4 个候选构件按几何或拓扑准则给出完整排列；评测 31 个 VLM 后发现最强闭源模型 Gemini-3-Flash 仅 33.6%、最佳开源 GLM-4.6V 22.2%，而人类 91.6%，揭示当前 VLM 在受几何/连接/物理可行性共同约束的真实 3D 场景下缺乏一致的空间推理能力。

研究背景与动机¶

领域现状：空间智能基准沿多条轴扩张——单视图 vs 多视图（SpatialRGPT、ViewSpatial-Bench）、图像 vs 视频（VSI-Bench、STI-Bench）、人工 vs 自动标注（MMSI-Bench、Spatial457）等。这些工作都把空间推理建模为"场景中心"，即基于无约束的室内/室外日常环境去测距测向。

现有痛点：场景中心基准存在根本歧义——单张图像下 3D 关系往往欠定（同一物体可能更小也可能更远），多种 3D 配置都能解释同一 2D 观察。结果是模型靠外观先验或数据集偏置就能"猜对"，无法甄别其是否真正恢复 3D 结构。

核心矛盾：现实世界中真正可靠的空间推理常发生在 结构受约束 的场景（桥梁、屋顶、塔架），那里几何规律、连通性约束、物理可行性把候选 3D 状态严格收窄；但既有基准要么走完全无约束的日常场景，要么走极简合成形状（CLEVR、Spatial457），都没能保留"真实视觉复杂度 + 强结构约束"这一组合。

本文目标：（i）形式化定义结构中心空间推理 SCSR（Structure-Centric Spatial Reasoning）；（ii）构造一个保留真实 3D 复杂度、又能让候选关系唯一可判的 VQA 基准；（iii）以排序题为评测载体，逼迫模型解析所有候选间的相对 3D 关系；（iv）系统评测 31 个 VLM 并诊断典型失败模式。

切入角度：把场景表示成节点-构件图 \(\mathbf{s}=(V,E,\mathbf{G},\mathbf{A})\)，几何自由度 \(\mathbf{G}\) 与离散属性 \(\mathbf{A}\) 受 显式等式约束 \(\mathbf{c}(\mathbf{s})=\mathbf{0}\) 与 不等式约束 \(\mathbf{h}(\mathbf{s})\leq\mathbf{0}\) 限制；这些约束不直接喂给模型，而是用来构造使候选排序唯一可判的样本。这样既保留视觉真实复杂度，又能严格定义 ground truth。

核心 idea：把空间智能评测从"测距测向"提升为"排序所有候选 3D 关系"，并通过结构约束让排序唯一可判，从而把模型的空间推理能力与 2D 像素 shortcut 解耦。

方法详解¶

整体框架¶

SSI-Bench 的构造与评测形成五步流水线：（1）数据召回——从 Unsplash/Pexels/Pixabay 等无版权图库与作者自拍中扫过 ~20,000 张结构图，10 名研究员 400+ 小时筛出 2,000+ 候选，覆盖空间桁架、钢塔、斜拉桥、木桁架、配筋框架、管线系统等常见结构；（2）任务设计——10 个类别分为几何族与拓扑族；（3）元数据标注——用 Label Studio 记录排序、并标多边形高亮目标构件；（4）题目生成——为每个候选单独画一张高亮图以避免遮挡和颜色偏置；（5）质量控制——独立检查员复盘，分歧三审，并给每题打难度标签。

关键设计¶

SCSR 形式化 + 三类结构约束：
- 功能：把"在结构受约束空间下的空间推理"形式化为受约束推断问题，使评测对象有数学清晰的语义。
- 核心思路：每张图对应一个结构状态 \(\mathbf{s}=(V,E,\mathbf{G},\mathbf{A})\)，可行集 \(\mathcal{M}=\{\mathbf{s}:\mathbf{c}(\mathbf{s})=\mathbf{0},\,\mathbf{h}(\mathbf{s})\leq\mathbf{0}\}\)。三类约束分别是几何规律（如成员长度/方向的对称等约束）、拓扑连通性（图 \(\mathcal{G}=(V,E)\) 决定哪些节点共线/共面）、物理可行性（不相交、支撑条件等不等式）。这些约束在构造样本时被用于 筛掉模糊样本，留下候选排序唯一确定的题目；模型推理时只看图像，不显式获得约束。
- 设计动机：通过约束让 ground truth 唯一可判，从根本上避免"多种 3D 配置都能解释同一图像"的歧义，逼迫模型必须真正恢复 3D 结构而不是依赖外观先验。
排序型 VQA 评测协议：
- 功能：用 \(K \in \{3,4\}\) 个候选的全排序题代替传统二选一/多选一，要求模型解析所有候选两两关系。
- 核心思路：每题给一个候选集 \(\mathcal{C}=\{c_i\}_{i=1}^K\) 与准则函数 \(f_\tau(\mathbf{s}, c)\)（如"质心相对地面的高度""主方向与地面的夹角""节点群的凸包体积"），ground truth 为 \(\pi^\star=\arg\mathrm{sort}_{\pi\in S_K}\bigl(f_\tau(\mathbf{s}, c_{\pi(1)}), \dots, f_\tau(\mathbf{s}, c_{\pi(K)})\bigr)\)；模型必须输出可解析的 Python 列表表达完整排列。同时报 Taskwise Accuracy（全排序精确匹配）与 Pairwise Accuracy（成对一致性）两套指标。
- 设计动机：相比二元题，全排序题的随机基线只有 \(\sim 12.85\%\)（\(K=4\) 时为 \(1/24\)），猜中难度大幅提高；要做对必须解析所有 \(\binom{K}{2}\) 对关系，把"猜对一两个"的策略边缘化。
10 类任务覆盖几何 + 拓扑 + 多视图：
- 功能：在"结构受约束空间"下尽量覆盖空间推理的关键维度。
- 核心思路：几何族 6 类——Ground Height（4 构件按质心高度排序）、Ground Angle（按主方向与地面夹角）、Dimension（按主方向长度）、Relative Distance（3 个构件组按主轴最小距离）、Area（3 个节点群按平面凸包面积）、Volume（3 个节点群按 3D 凸包体积）；拓扑族 2 类——Hop Distance（按连通图最短路径跳数）、Cycle Length（按最小环长）；外加两个 Multi-View 子集，分别配两张图，一张高亮参考构件 Member 0、一张高亮目标，强制跨视图对应。
- 设计动机：单一任务（如距离测算）容易被现成 prior 解决，10 类组合迫使模型在同一基准内同时具备心理旋转、截面推理、遮挡推理、力路径推理等多种能力，可用于细粒度诊断模型的能力短板。

损失函数 / 训练策略¶

基准仅做评测，不训练任何模型。所有 31 个 VLM 都在 temperature=0、图像最长边压到 512 像素的统一协议下零样本推理，使用任务专属 prompt 模板。

实验关键数据¶

主实验¶

表 2 摘录 SSI-Bench 上代表性模型的 Taskwise Accuracy（按几何均值、拓扑均值与总均值），完整 10 任务结果见原文。

模型	几何均值	拓扑均值	总均值	vs Random (12.85%)
Human (Average)	~91	~89	91.60	+78.75
Gemini-3-Flash (proprietary)	~33	~32	33.60	+20.75
GPT-5.2	~30	~26	29.10	+16.25
Gemini-3-Pro	~29	~29	29.50	+16.65
Seed-1.8	~25	~29	25.90	+13.05
GLM-4.6V (best open-source)	~22	~23	22.20	+9.35
Qwen3-VL-235B-A22B	~21	~24	21.90	+9.05
InternVL3.5-2B (worst large)	~12	~7	11.10	−1.75
Random Guessing	12.85	12.85	12.85	0

Thinking 影响分析¶

作者对 Gemini-3-Pro（high vs low thinking）与 Qwen3-VL-30B-A3B（Thinking vs Instruct）做了对照。

设置	不带 thinking	带 thinking	提升
Gemini-3-Pro (low → high)	27.1%	29.5%	+2.4
Qwen3-VL-30B-A3B (Instruct → Thinking)	20.6%	22.5%	+1.9

关键发现¶

VLM 与人类差距巨大：最强闭源模型 Gemini-3-Flash 才 33.60%，最佳开源 GLM-4.6V 22.20%，距人类 91.60% 有 60+ 个点的鸿沟；许多开源模型甚至贴近 12.85% 的随机基线，说明 SCSR 不能靠 2D 浅层启发式蒙混。
闭源 vs 开源裂痕显著：所有开源模型上限在 22% 附近，与 Gemini-3 系列拉开 10+ 点；同时 GLM 系列内部 4.5V→4.6V 仅 +0.8 点，说明 仅靠 scale up 不足以解决。
Thinking 增益有限且非单调：思考令牌使用量 vs 准确率不是单调上升，在中等使用量处达峰，使用越多反而下降；token usage 与有效推理的关联很弱，多余 token 常对应"在错误的 3D 假设上反复纠缠"。
多视图与 Volume 任务上 thinking 甚至负向：对依赖全局一致 3D 重建的任务，更长推理反而放大错误。

错误分析（基于 Gemini-3-Pro 100 题人工诊断）¶

作者总结了四类典型失败模式：构件范围错误（在遮挡下把可见片段当成整根）、对象识别错误（混淆楼梯踏板与斜支撑、把斜杆当水平）、计算与比较逻辑错误（在体积题上优化投影面积、用直角高度代替斜高）、视图融合错误（多视图下找不到 Member 0 的对应）。

亮点与洞察¶

把"结构约束"作为构造样本的隐含先验、而不是显式输入，巧妙地把基准本身变成 3D grounding 的探针——模型只能从图像反推 3D，而 ground truth 的唯一性由作者保证，这一思路可以直接搬到机器人抓取、医学解剖结构推理等领域。
排序题作为评测载体是个被低估的好选择：随机基线低、避免单题猜中、强制全关系解析，比常见的二选一/多选一更适合衡量"真懂"。
"Thinking 提升仅小幅、token usage 与准确率非单调"的发现非常重要——它暗示当前推理增强 VLM 的瓶颈不在推理长度而在 3D 表示，简单加 chain-of-thought 解决不了 SCSR。
错误分类（范围/识别/计算/视图）可以直接拿来设计针对性改进：例如范围错误可用部件分割辅助、视图融合可用几何对应学习。
评测 31 个模型 + 人类基线 + Random 基线的对照非常充分，论文的"诊断价值"远大于"刷榜价值"。

局限与展望¶

1,000 道题目规模相对较小，几何族占比偏高、拓扑族（Hop Distance、Cycle Length）样本只有几百题，对小族内的细分趋势统计力弱。
现成图像主要来自 Unsplash/Pexels/Pixabay，结构类型仍以"美图友好"的桥梁、塔架、屋顶为主，工业级 CAD/BIM 场景（管道走向、力流路径）尚未覆盖。
多视图子集中部分图像由作者自拍补齐，存在视角配对偏置；扩展到 6 视图甚至 NeRF/3DGS 渲染图能更全面诊断 3D 一致性。
评测全部零样本，没有探索"给模型一张额外的草图或点云作为辅助"是否能跨越 33% 门槛；这是一个明确的后续方向。
错误分析仅以 Gemini-3-Pro 为代表，结论是否普适到其他模型族还需进一步验证。

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评