跳转至

Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=fbGmSV6tUw
领域: 多模态VLM / 空间推理评测
关键词: 空间认知, 视觉模拟, 多模态评测基准, 心理旋转, MLLM

一句话总结

作者提出 STARE 基准,用约 4000 道需要"多步视觉模拟"才能解的空间题(2D/3D 变换、立方体折叠、七巧板、视角与时序推理)系统检验多模态大模型,发现模型在简单 2D 变换上接近人类、但在折叠/七巧板等需要逐步在脑中"想象空间"的任务上掉到接近随机,且无法稳定利用中间视觉步骤——揭示了当前 MLLM 在非语言、序列化视觉模拟能力上的根本缺口。

研究背景与动机

领域现状:空间推理是人类智能的基石。认知心理学早有证据表明,人类解空间问题靠的是"在脑中跑一遍视觉模拟"——Shepard & Metzler 发现判断两张三维透视图是否同一物体所需时间随旋转角度线性增长,暗示存在一种"模拟式的心理旋转";Hegarty 发现人理解机械图时会逐部件地"心理动画"地推演运动。这类把物体在脑中一步步变换、预测其物理交互的能力,支撑了拼装家具、看地图、读装配图等日常任务。

现有痛点:尽管动态视觉模拟在真实世界无处不在,现有评测 MLLM 的数据集却大多停留在静态识别,或是那些"可以被改写成语言推理"的问题(如 CLEVR、各种 VQA)。这些基准测的是"看一眼就能答"的感知,而非"看完要在脑子里推演好几步"的模拟。即便是强调空间记忆的 VSI-Bench,关注的也是从视频估计空间关系,而非显式的逐步模拟。

核心矛盾:人类擅长的恰恰是非语言的、多步的视觉模拟(把 2D 网格折成 3D 立方体、把若干碎片拼成目标形状、换个视角想象场景长什么样),而这部分能力在现有基准里几乎不可见——主要因为标注中间视觉状态成本高,导致"模拟过程"长期是可选项、很少被显式提供和评测。于是我们既不知道模型到底能不能做视觉模拟,也不知道给它中间步骤是否真能帮上忙。

本文目标:构建一个专门评测"更适合用多步视觉模拟来解"的空间推理基准,覆盖从基础几何变换到真实世界空间认知的连续难度谱,并能区分模型失败到底来自感知缺陷还是高层推理缺陷。

切入角度:作者把任务按"中间步骤能否被显式可视化"分成两类——前两层(基础几何变换、折叠/七巧板)的每一步变换都能画出来,人类解题时也确实会画或想象中间态;最后一层(视角、时序推理)则要求更抽象、没有清晰中间视觉线索的隐式心理模拟。在每类任务上都同时评测"给中间视觉步骤"和"不给"两种设置,就能把"模型自己脑补模拟"和"被喂可视化"的能力拆开看。

核心 idea:用一套可程序化合成、难度可控、且能提供逐步中间可视化的空间任务集,把"序列化视觉模拟"这一被现有基准忽略的能力单独拎出来量化,并对照人类表现暴露 MLLM 的差距。

方法详解

整体框架

STARE(Spatial Transformations and Reasoning Evaluation)是一个评测基准而非模型,核心是"任务设计 + 评测协议"。它把空间认知按复杂度组织成三层:基础几何变换(2D / 3D 的旋转、平移、缩放、反射、剪切)、集成空间推理(立方体折叠、七巧板拼图)、真实世界空间推理(时序帧补全、视角推理)。每道题都包装成选择题或是/否判断,配以精心设计的图文 prompt,全集约 4000 题。

关键的评测维度是一根"视觉模拟"轴:对那些每一步都能被可视化的合成任务(前两层),同时构造不给中间视觉步骤(只给初始图 + 可选文字指令,逼模型纯靠脑内模拟)和给中间视觉步骤(把除最后一步外的所有中间可视化以图文交错形式喂入)两种设置;真实世界任务则在单图设置下评测。所有数据都用程序化方式生成(Matplotlib 画 2D / 折叠图,Blender 渲染 3D,Objectron 取时序帧,HM3D + Habitat 模拟器生成视角图),并通过干扰项相似度与模拟步数显式控制难度。最后用准确率(选择题)和 F1(是/否任务)汇总成宏平均总分,并请 5 名本科生在同样任务上作答、记录准确率与作答时间作为人类基线。

关键设计

1. 三层难度递进的任务体系:把"空间认知"铺成连续可控的难度谱

针对"现有基准要么纯静态识别、要么可改写成语言推理"这个痛点,STARE 刻意把任务按"对视觉模拟的依赖程度"排成三层。第一层基础几何变换是地基:2D 任务有"视觉类比"(看 A→A′ 的变换,把同样变换序列套到 B 上选答案)和"指令式"(给文字描述如"顺时针转 90 度再放大",选出正确结果)两种,3D 任务把它扩展到三维(绕任意轴旋转、3D 平移、缩放、剪切,因镜面在 3D 中人眼难辨而去掉反射)。第二层集成推理把多个基础操作串起来:立方体折叠要判断一张带标号面的 2D 网格能否折成立方体,七巧板要判断给定碎片能否恰好填满目标网格。第三层真实世界任务则模拟日常场景:时序帧推理要从视频四帧中补出被遮的一帧,视角推理要根据俯视图里 agent 的位置朝向选出其第一人称视角。

这层设计的价值在于:前两层的中间步骤"能被显式画出来",因此可以同时评测有/无视觉模拟;第三层没有清晰中间视觉线索,逼的是更抽象的隐式心理模拟。三层一起就能看出模型能力随"需要模拟的步数/抽象度"上升如何衰减——实验也确实显示模型在 2D 上接近人类、到折叠和七巧板就掉到接近随机。

2. 显式/隐式视觉模拟的双轴评测协议:把"会不会脑补"和"会不会用图"拆开

这是 STARE 区别于以往基准的最关键设计。它不只问"模型答对没有",而是在每个合成任务上同时跑不给中间视觉模拟(只有问题,或问题 + 纯文字步骤)与给中间视觉模拟(把每一步变换的可视化以图文交错喂入,但故意扣掉最后一步)两套设置,二者之差直接度量"模型能否利用中间视觉信息"。作者特意没把多步可视化拼成一张大图,而是用 interleaved 图文序列,更贴近真实使用。

这个对照设计揭示了一个反直觉现象:视觉模拟对人类几乎稳定有益(且大幅缩短作答时间),但对模型的收益忽正忽负——GPT-4o 在 2D 上 +11.5%、Claude 在七巧板上 +8.6%,可 Gemini-2.0 Flash 在折叠上反而 −2.1%、InternVL2.5-78B 在七巧板上掉 12.5%。换言之,模型并不能像人一样把中间视觉步骤"接力"进自己的推理,这正是单看准确率看不到、必须靠双轴协议才能暴露的缺口。

3. 程序化合成 + 可控难度旋钮:让"模拟步数"和"干扰项相似度"成为可调实验变量

针对"标注中间状态成本高、难度不可控"的老问题,STARE 全程用程序化生成。2D/3D 形状用 Matplotlib/Blender 生成并渲染,立方体折叠用一套逐步算法(指定一个静止底面、依次折叠相连面,在每步检测并标注重叠/断裂错误)自动产出带面边界的可视化,七巧板通过随机切分 3×3/4×4 网格再随机旋转生成有效解、靠加减碎片或改尺寸构造无效解,时序帧取自 Objectron(选相机单向移动的最长连续片段切四等份),视角图用 Habitat 在 HM3D 室内场景里放置 agent、取俯视图并指定四个 90 度朝向之一。

可控性体现在两个旋钮上:难度三档由干扰项相似度定义——easy(三个干扰项里两个外观明显不同)、medium(只有一个明显干扰项)、hard(所有干扰项都视觉相似,逼模型真正关注变换本身);模拟步数则合成 1/2/3 步变换样本,用来观察性能随步数的变化。正是这两个旋钮让作者能做出"准确率随难度单调下降""无视觉模拟时 N=2 反常出现峰值"这类细粒度分析。

4. 感知 vs 推理的误差归因探针:证明瓶颈是多步模拟而非低层感知

光知道"模型做不对"不够,作者设计了一组探针把失败原因归因到"看不清"还是"想不出"。核心做法是直接给模型完全模拟好的最终结果,把任务退化成"把最终态匹配到正确选项":在 2D/3D 变换上准确率只小涨 4.2%/2.8%,但在立方体折叠和七巧板上分别飙到 100% 和 91.6%,说明一旦把感知复杂度降到最低,模型其实能解——失败主要不在最后一步的识别。进一步针对折叠任务拆出 2D 感知(颜色识别、面连通性)和 3D 感知(某面是否已被折叠)的子探针:颜色 100%、连通性 94.1%,但"判断面有没有被折叠"只有 57.4%,定位出 3D 感知是薄弱环节。

此外还做了三组对照实验来锁定"多步模拟"这一瓶颈:把每个视觉任务翻译成纯文字描述(如"位于 (3,4)、尺寸为 2 的红色方块"),发现文字能去掉感知负担、在 2D 上从 75% 升到 87%,但 3D 折叠仍只有约 57%,说明文字替代不了 3D 视觉感知;只给文字推理步骤(Question+Steps)在折叠上几乎无提升(50.2%→50.4%)、在七巧板上反而暴跌(62.4%→34.7%),暴露模型会走"加碎片面积"之类捷径而非真做空间模拟;以及对比喂入完整/部分/仅最后一帧中间态,发现复杂任务里片面信息会误导模型。这套探针让"核心瓶颈是多步空间模拟而非低层感知"这个结论站得住。

实验关键数据

主实验

在 STARE 上评测 6 个闭源 + 5 个开源模型 + 5 名人类。总分(宏平均,部分任务报 F1)与代表性子任务如下(↑/↓ 为加入视觉模拟 VSim 后的变化):

模型 2D 变换 (✗/✓VSim) 3D 变换 (✗/✓) 立方体折叠 (✗/✓) 七巧板 (✗/✓) 视角 总分
Random 25.0 / 25.0 25.0 / 25.0 50.0 / 50.0 50.0 / 50.0 25.0 34.8
GPT-4o 71.2 / 82.7 (↑11.5) 65.5 / 68.4 50.3 / 52.2 52.5 / 51.5 (↓1.0) 38.7 53.9
Claude-3.5 Sonnet 65.9 / 71.4 51.5 / 57.8 52.3 / 51.6 (↓0.7) 59.0 / 67.6 (↑8.6) 26.1 53.1
o1 81.8 / 87.7 67.9 / 71.6 51.3 / 53.4 55.3 / 53.2 (↓2.1) 36.8 57.2
o3 87.5 / 89.3 75.2 / 78.4 68.4 / 79.4 (↑11.0) 68.6 / 82.1 (↑13.5) 42.8 68.1
Qwen2.5-VL-72B 45.2 / 48.5 43.0 / 49.1 35.2 / 53.4 (↑18.2) 61.2 / 56.9 26.0 42.3
人类 (准确率) 96.8 / 98.6 94.6 / 96.9 98.3 / 98.9 91.5 / 95.8 98.1 97.1
人类 (作答秒数) 14.2 / 11.0 17.1 / 12.5 13.7 / 5.2 28.0 / 10.1 18.4

最强模型 o3 总分 68.1,仍远低于人类 97.1;非推理模型里 GPT-4o(53.9)最好但在折叠/七巧板上仅略高于随机。人类几乎满分,但七巧板无视觉模拟时要花 28.0 秒,给中间步骤后骤降到 10.1 秒——说明任务确实是多步、费认知的,且视觉模拟对人是稳定的"加速器"。

消融与分析实验

探针/设置 2D 变换 3D 变换 立方体折叠 七巧板 说明
直接给最终态 (GPT-4o) 86.9 (↑4.2) 71.2 (↑2.8) 100.0 91.6 降到纯匹配后折叠/七巧板几乎全对,证明失败不在最后识别
纯文字表示 (Text-only) 87.5 64.7 57.0 72.6 文字救得了 2D,救不了 3D 折叠
仅图像 (Image-only) 75.1 67.7 56.0 62.5 对照纯文字
Question-only → +Steps 50.2→50.4 62.4→34.7 纯文字步骤几乎无益,七巧板暴跌(走面积捷径)
折叠 3D 感知(面是否已折) 57.4 颜色 100%、连通性 94.1%,3D 折叠感知最弱

关键发现

  • 核心瓶颈是多步视觉模拟,不是低层感知:把感知复杂度压到最低后折叠/七巧板能到 100%/91.6%,但正常设置下接近随机,说明模型"看得清却想不出"。
  • 模型无法稳定利用中间视觉步骤:视觉模拟对人类几乎总有益且大幅省时,对模型却忽正忽负(GPT-4o 在 2D +11.5%,但 Gemini-2.0 Flash 在折叠 −2.1%、InternVL2.5-78B 在七巧板 −12.5%)。
  • 3D 感知与折叠判断是具体短板:连通性 94.1% 尚可,但"判断面是否已被折叠"只有 57.4%,直接解释了折叠任务里视觉模拟收益有限。
  • 合成任务能预测真实任务:11 个模型在合成任务均分与真实世界任务均分的 Pearson 相关高达 r≈0.88(加入人类升到 0.97),说明这套抽象空间能力确实迁移到日常场景。
  • 无视觉模拟时 N=2 出现反常峰值:两步变换常把一个简单操作(缩放)和一个难操作(剪切)组合,模型可借简单操作"蒙对",到 N=3 复杂度叠加后才真正掉下来。

亮点与洞察

  • "双轴评测"是这篇最聪明的设计:在每个任务上对照"给/不给中间视觉模拟",把"模型会不会自己脑补模拟"与"会不会接力使用现成可视化"拆成两个可测量的量,这是单看准确率永远看不到的,也是它能下"模型不能有效做视觉模拟"这一结论的方法论支点。
  • 用"喂最终态"反推瓶颈位置:把任务退化成纯视觉匹配、看准确率跳到多高,是一种干净利落的归因 trick——它一次性排除了"是不是模型连最后一步都看不清"的解释,可迁移到任何"感知 vs 推理"难分的评测中。
  • 人类作答时间也是数据:记录人类秒数(七巧板 28s→10.1s)而非只记准确率,把"任务有多需要多步模拟"量化了出来,给"这不是看一眼就能答的识别题"提供了硬证据。
  • 合成→真实的相关性分析:r≈0.88 的强相关让"在程序化合成题上测出来的空间能力"获得了真实世界效度,缓解了"合成基准是否过于人造"的质疑。

局限与展望

  • 只评测、不给方法:STARE 诊断出 MLLM 的视觉模拟缺口,但没有提出如何让模型获得这种能力(如生成中间视觉步骤、引入显式模拟器),改进留给后续工作。
  • 任务以选择/是否题为主:多选与二分类便于自动评测,却也给了模型"蒙"和走捷径的空间(七巧板靠加面积就能到约 75%),开放式生成式空间推理尚未覆盖。
  • 真实世界层任务量偏小且单图:时序帧 471 例、视角 250 例,且未提供中间视觉步骤,对"隐式心理模拟"的刻画相对粗,难度旋钮也不如合成任务可控。
  • 人类基线规模有限:仅 5 名本科生,虽接近满分但样本小,跨人群(如空间能力差异)的稳健性未充分讨论。
  • 改进思路:可在此基准上探索"让模型显式画出/预测中间帧再推理"的训练或推理范式,并把 3D 折叠感知(57.4%)作为定向提升的抓手。

相关工作与启发

  • vs 传统视觉推理基准(CLEVR / Raven 类):它们多为静态识别或可改写成语言推理的题,STARE 专攻"必须多步视觉模拟"的非语言任务,并显式提供中间可视化,填补了模拟过程长期缺测的空白。
  • vs VSI-Bench:VSI-Bench 同样强调心理意象,但聚焦从视频做空间记忆与估计;STARE 提供可程序化合成、难度可控、带逐步中间态的显式模拟任务,把"逐步模拟"本身作为评测对象。
  • vs 认知科学的心理旋转/心理动画研究:本文把 Shepard-Metzler 心理旋转、Hegarty 心理动画等经典范式工程化为可大规模评测 MLLM 的基准,并用人类作答时间复刻了"难度越高耗时越长"的经典现象。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个把"多步视觉模拟"作为独立评测维度、并用双轴协议拆解模拟能力的空间认知基准。
  • 实验充分度: ⭐⭐⭐⭐⭐ 11 模型 + 人类基线,6 个归因探针(Q1–Q6)层层定位瓶颈,分析扎实。
  • 写作质量: ⭐⭐⭐⭐ 任务分层与评测设置讲得清楚,认知科学动机交代到位;表格略密。
  • 价值: ⭐⭐⭐⭐⭐ 暴露当前 MLLM 在空间模拟上的硬伤,为后续"会脑补的多模态模型"立了标尺。