Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models¶

会议: ICLR 2026
arXiv: 2601.20354
代码: 有 (GitHub)
领域: 图像生成
关键词: 空间智能, 文本到图像生成, 基准评测, 信息密集提示, 数据中心范式

一句话总结¶

提出 SpatialGenEval 基准，通过 1,230 条长且信息密集的提示覆盖 10 个空间子领域，系统评估 23 个 SOTA T2I 模型的空间智能，揭示空间推理是主要瓶颈；同时构建 SpatialT2I 数据集实现数据中心的空间智能提升。

研究背景与动机¶

当前 T2I 模型在生成高保真图像方面表现优异，能够准确渲染场景中"是什么"（what），但在精确描绘物体"在哪里"（where）、"如何排列"（how）和"为什么交互"（why）等空间关系方面频繁失败。即使是 GPT-Image-1、Qwen-Image 等 SOTA 模型也会出现物体错位、方向错误、数值比较失败或因果交互渲染失败等问题。

现有基准的不足：

提示信息稀疏：T2I-CompBench、GenEval 等使用简短提示，仅能验证物体存在和简单属性

评估粒度粗糙：多采用分类或 Yes/No 问答，无法捕捉高阶空间能力

缺少系统的空间智能分层：未区分感知、推理和交互等不同层次的空间能力

方法详解¶

整体框架¶

SpatialGenEval 想回答一个被现有 T2I 基准忽略的问题：模型不仅要画对"是什么"，还要画对物体"在哪里、怎么排、为什么交互"。整套基准先用一个分层体系把空间智能拆成 4 层 10 个子领域，再围绕它跑一条评估流水线——给定 25 个真实世界场景之一加上 10 个子领域的定义，让 Gemini 2.5 Pro 把全部 10 个空间约束无缝塞进一条约 60 词的信息密集提示里，经人在回路审核后，每条提示再自动派生 10 道覆盖全部子领域的多选题（生成图像所用的提示绝不透露给评估器，杜绝答案泄露；每题再补一个 "E: None" 拒答项）；23 个 T2I 模型据此生成图像，交给 Qwen2.5-VL-72B 做 5 轮投票打分，最后按 10 个子领域汇总正确率，得到 SpatialGenEval 排行榜。这条流水线产出的高质量文图对又被回收成 SpatialT2I 数据集，反过来微调模型，形成"评估→数据→模型"的闭环。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    TAX["空间智能分层体系<br/>4 层 10 子领域（S1-S10）"] --> P["信息密集提示<br/>Gemini 把 10 约束塞进 ≈60 词 + 人在回路审核"]
    P --> QA["无泄露 QA<br/>派生 10 道多选 + 查问题不含答案 + 补 E:None"]
    QA --> GEN["23 个 T2I 模型生成图像"]
    GEN --> VOTE["多轮投票评分<br/>Qwen2.5-VL-72B 5 轮投票，≥4/5 判对"]
    VOTE --> AGG["按 10 子领域汇总正确率<br/>→ SpatialGenEval 排行榜"]
    AGG -->|暴露弱项| SP["SpatialT2I 数据集<br/>15,400 文本-图像对"]
    SP -->|微调反哺| GEN

关键设计¶

1. 空间智能分层体系：把笼统的"空间能力"拆成可逐项测量的 4 层 10 子领域

针对现有基准"评估粒度粗糙、缺少系统空间智能分层"的痛点，SpatialGenEval 自下而上把空间智能分成 4 个层级、10 个子领域：从最基础的物体是否齐全、属性是否绑定对，到感知层的位置/方向/布局，再到推理层的比较/邻近/遮挡，最后是交互层的运动与因果。这种递进结构是整套基准的骨架——提示要按它塞约束、QA 要按它出题、最终也按它汇总；它让每个模型的失败能精确定位到某一层，而不是只得到一个笼统总分，后面实验也正是靠它发现"推理层是普遍瓶颈"。

空间基础（S1/S2）：

子领域	评测内容
S1 物体类别	组合完整性——是否生成了所有提到的物体
S2 物体属性	属性绑定——颜色/形状/材质是否正确关联

空间感知（S3/S4/S5）：

子领域	评测内容
S3 空间位置	绝对/相对位置定位
S4 空间方向	旋转对齐（如面朝左、倒置）
S5 空间布局	多物体排列（线性序列、圆形等）

空间推理（S6/S7/S8）：

子领域	评测内容
S6 空间比较	相对定量属性（如大三倍）
S7 空间邻近	精细物理距离（接触、最近、远离）
S8 空间遮挡	3D 深度和物体层叠

空间交互（S9/S10）：

子领域	评测内容
S9 运动交互	动态状态或运动中的时刻
S10 因果交互	因果物理关系

2. 信息密集提示与人在回路审核：让简单提示测不出的能力差异显现

现有基准用简短稀疏的提示，只能验证"物体存不存在"，区分不出高阶空间能力。SpatialGenEval 让 Gemini 2.5 Pro 在给定一个真实场景和 10 个子领域定义后，把全部 10 个空间约束无缝融进一条约 60 词的长提示——60 词是刻意拿捏的：既要塞满信息密度，又不超出 CLIP 编码器约 77 token 的有效长度。但纯机器生成的提示往往别扭，于是引入人在回路审核：把割裂的短句合并（如 "There is a robot. It is rusty." 改成 "A rusty robot"）、修掉逻辑自相矛盾的约束（如无法成立的循环布局）、把生僻词换成通俗表述（如 vermilion → bright red），最终得到 1,230 条既密集又自然的提示。

3. 无泄露 QA 与多轮投票评分：把评估器自身的不可靠压到最低

有了图像还要可靠地判分。每条提示自动派生 10 道多选题（每题正对一个子领域，共 12,300 题），并做两道把关：人工逐题检查问题文本里不含显式答案，防止评估器"看题就会"；程序化给每题统一补上 "E: None" 拒答项，让评估器在四个选项都不符图像时可以拒绝硬选，而不是被迫贡献一个错误正确率。评分环节主评估器选用开源的 Qwen2.5-VL-72B（保证长期可复现、不依赖闭源 API），且不靠单次判断，而是 5 轮投票——只有 MLLM 在 5 轮里至少 4 轮选中正确答案才算这道题答对，以此压低评估器自身的随机波动；最终每个模型在每个子领域上报一个正确率作为能力分数。

4. SpatialT2I 数据集：把评估的副产品变成能反过来改进模型的训练数据

发现弱项后若束手无策，基准的价值就止于"诊断"。本文额外按同样原则构造 1,100 条提示（从初始 1,230 条里滤掉低质量场景后保留），交给 14 个在 SpatialGenEval 上准确率 >50% 的顶尖开源模型各自生成图像，用 Qwen2.5-VL-72B 评分筛选、再用 Gemini 2.5 Pro 重写提示使图文一致，最终得到 15,400 个高质量文本-图像对。用这批数据微调 SDXL、UniWorld-V1、OmniGen2，就把"评估暴露出的弱项"直接喂回训练，形成评估→数据→模型的闭环。

实验关键数据¶

主实验¶

表2：SpatialGenEval 排行榜（23 个模型）

模型	规模	Overall	基础 (S1/S2)	感知 (S3-S5)	推理 (S6-S8)	交互 (S9/S10)
SD-1.5	0.86B	28.5	8.5/33.7	19.5/29.2/38.2	12.8/37.7/15.6	42.0/47.6
FLUX.1-dev	12B	56.5	51.7/73.8	50.0/55.5/66.7	28.2/62.9/28.9	73.1/73.8
Qwen-Image	20B	60.6	61.0/77.2	55.6/56.7/69.7	28.6/67.7/30.8	78.1/80.2
GPT-Image-1	-	60.5	56.3/74.1	53.3/58.9/70.4	31.4/66.8/30.2	80.9/82.2
Seed Dream 4.0	-	62.7	59.9/80.2	57.2/58.9/70.1	32.1/68.3/33.8	83.0/83.8

表6：SpatialT2I 微调效果

模型	微调前 Overall	微调后 Overall	提升
SD-XL	41.2	45.4	+4.2%
UniWorld-V1	54.2	59.9	+5.7%
OmniGen2	56.4	60.8	+4.4%

消融实验¶

评估器一致性：GPT-4o 和 Qwen2.5-VL-72B 的模型排名完全一致，验证评估鲁棒性。

人类对齐研究：Gemini-2.5-Pro 达到 84.2% 平衡准确率，Qwen2.5-VL-72B 为 80.4%。

关键发现¶

空间推理是主要瓶颈：比较（Comparison）和遮挡（Occlusion）子任务得分常低于 30%，接近随机选择的 20%
开源模型正在追赶闭源：Qwen-Image (60.6%) vs Seed Dream 4.0 (62.7%)
文本编码器是关键：使用 LLM 编码器的模型（如 Qwen-Image）显著优于仅用 CLIP 的模型
统一架构更参数高效：7B 的 Bagel (57.0%) 接近 12B 的 FLUX.1-krea (58.5%)
数据中心范式有效：SpatialT2I 微调一致提升 4-6 个百分点

亮点与洞察¶

信息密集提示设计：将 10 个空间约束融合到单条 60 词提示中，避免了简单提示无法区分能力的问题
分层式空间智能定义：从基础→感知→推理→交互的递进结构清晰且可扩展
"E: None" 选项的工程设计：避免强制选择，提高评估准确性
SpatialT2I 的数据飞轮：评估基准的副产品可直接用于模型改进，形成闭环

局限与展望¶

最高分仅 ~63%，面向及格线水平——说明任务仍然极具挑战性
提示约 60 词可能超出某些 CLIP 编码器的有效处理长度（77 tokens）
场景覆盖25类，可进一步扩展到更多复杂交互场景
评估依赖 MLLM 判断，可能引入评估模型自身偏差
SpatialT2I 数据集质量受限于生成模型的当前能力

评分¶

新颖性：⭐⭐⭐⭐ — 首个系统性空间智能 T2I 评测基准
技术贡献：⭐⭐⭐⭐⭐ — 基准设计 + 数据集构建 + 大规模评测三位一体
实验充分度：⭐⭐⭐⭐⭐ — 23 个模型、多评估器验证、人类对齐
写作质量：⭐⭐⭐⭐ — 结构清晰，但表格较多
总体推荐：⭐⭐⭐⭐⭐ — 对 T2I 空间能力的全面透视，高影响力工作