InternSpatial: A Comprehensive Dataset for Spatial Reasoning in Vision-Language Models¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=L6bEitSMeu
论文: OpenReview
代码: https://github.com/dengnianchen/intern-spatial
领域: VLM空间推理 / 多模态评测 / 数据集构建
关键词: 空间推理, 视觉语言模型, 指令格式, 多视角理解, 数据集

一句话总结¶

InternSpatial 构建了一个面向 VLM 空间推理的大规模开放数据集与诊断评测集，用统一的数据引擎把单视角、多视角、多场景和多种视觉/文本指令格式组织成 1200 万级 QA，使模型在空间推理基准上显著提升，同时基本不损害通用多模态能力。

研究背景与动机¶

领域现状：视觉语言模型已经在图像问答、图像描述、OCR、图表理解和区域指代理解上取得很强表现，但“看懂图像里物体在哪里、谁更大、谁更靠前、跨视角旋转了多少”仍然是短板。对机器人、具身导航、AR/VR 或自动驾驶这类应用来说，空间关系不是附加技能，而是模型能否把视觉输入转化为行动判断的基础能力。

现有痛点：已有空间推理数据集往往各自解决一个窄问题。有些数据只覆盖单张图像，有些只来自室内或野外单一场景，有些要求额外输入深度图、mask 或专用区域标注，导致普通 VLM 很难直接使用。更关键的是，很多数据只用自然语言一种提问方式，而真实用户可能用框、mask、编号、坐标、文字描述或这些形式的组合来指代物体。

核心矛盾：空间推理训练需要同时满足三个条件：场景要广、关系要准、指令形式要丰富。只扩大规模但缺少 3D 几何对齐，QA 可能变成噪声；只追求精准标注但场景窄，模型学到的是数据集习惯；只用单一自然语言问题，又无法覆盖 VLM 在真实交互中遇到的多种对象引用方式。

本文目标：作者希望构建一个开放、可复现、能直接用于监督微调的空间推理资源。这个资源既要包含单视角里的左右、上下、前后、大小、存在和计数，也要包含多视角里的旋转估计、距离、房间大小、路线规划和出现顺序等问题；同时还要配套一个高质量 benchmark，用来诊断模型在不同任务和不同指令格式下到底哪里强、哪里弱。

切入角度：InternSpatial 的关键观察是，VLM 的空间推理瓶颈不只是模型架构问题，也很大程度上是训练数据覆盖不够系统。与其为某个任务设计专用模型，不如先把多源图像、3D 标注、深度估计、相机估计、区域引用和 QA 模板统一到一个数据引擎里，让同一个 VLM 在足够丰富的空间监督中学习。

核心 idea：用模块化数据引擎把多源视觉数据统一到相机视角坐标系中，再以 19 种文本/图像指令格式生成空间 QA，从而系统提升 VLM 对单视角和多视角空间关系的理解能力。

方法详解¶

整体框架¶

InternSpatial 不是一个新模型结构，而是一套“空间推理数据生产线 + 评测集 + SFT 验证”的完整资源。输入端来自 COCO、AS-1B、Visual Genome、ScanNet、3RScan、MultiScan、Cityscapes、Objaverse、R2R 等多类数据源；中间通过图像级标注生成、视角空间对齐、模板化 QA 生成和指令格式扩展，把不同来源的数据转成可训练的空间问答；输出端是 12,035,415 个训练 QA 和 6,008 个 benchmark QA。

这条 pipeline 的重点是把“看起来很杂”的数据源压到统一的空间表示里。对于本来有 3D 标注的数据，作者把全局 3D 信息投影或变换到相机视角；对于只有图像的数据，则用相机参数估计、深度估计和分割模型把 2D 标注 lift 到 3D 视角空间。这样一来，左右、上下、前后、大小、距离和旋转等关系不再只靠语言猜测，而是可以由几何信息自动推导。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多源视觉数据<br/>图像/3D/视频"] --> B["图像级标注生成<br/>检测/描述/分割"]
    B --> C["视角空间对齐<br/>相机/深度/3D变换"]
    C --> D["模板化空间QA<br/>任务与答案自动实例化"]
    D --> E["19种指令格式<br/>文本+框+mask+编号"]
    E --> F["InternSpatial训练集<br/>1200万级QA"]
    E --> G["InternSpatial-Bench<br/>人工校验诊断集"]
    F --> H["SFT空间模型<br/>InternVL/Qwen Spatial"]
    G --> H

关键设计¶

1. 统一视角空间：让不同来源的标注能回答同一类空间问题

空间关系最容易出错的地方，是图像平面坐标和真实 3D 关系之间并不等价。一个物体在图像里更高，不一定在真实空间里更高；一个框更大，也可能只是更靠近相机。InternSpatial 因此采用 canonical view space：坐标系以相机光心为中心，\(y\) 轴沿观察方向，\(z\) 轴垂直于场景水平面向上。所有对象的位置和尺寸都尽量被转到这个相机视角空间中，再判断关系。

对 3D 数据集，作者利用已有的全局 3D 标注和每个视角的相机参数，直接把对象标注变换到视角空间；对 image-only 数据集，则先用 VLM 生成对象框和描述，用 SAM2 生成 mask，再借助 WildCamera 估计内参、PerspectiveFields 估计外参、Metric3Dv2 预测稠密深度，把 2D 区域 lift 到 3D。这个设计的意义在于：数据集可以吸收大量普通图像资源，同时又不完全退化成 2D 平面关系问答。

2. 多格式指令扩展：把“指哪个物体”变成训练目标的一部分

很多空间推理 benchmark 默认用户会用自然语言清楚描述目标物体，比如“红色外套的人”和“右侧女士”。但真实交互中，用户也可能画框、给区域编号、用 mask 标记、提供 bbox 坐标，或者把文本描述和坐标混在一起。InternSpatial 把每个基础 QA 扩展成多种文本格式和图像格式：文本侧包括自然语言、<ref>{caption}</ref>、<ref>region</ref><box>{bbox}</box>、caption+bbox 组合，以及根据图像内容生成的表达；图像侧包括原图、带框图、带 mask 图和带编号图。

组合之后，一个 QA 最多可以产生 19 种训练样本。作者没有简单把所有组合都无脑保留，而是筛掉不适合当前样本的格式，并在训练时对不同格式做均匀采样。这样模型学到的不只是“哪个物体在左边”，还包括如何在不同引用协议下找到被问到的对象。实验中的格式消融也说明，这不是装饰性增强：没有格式扩展的模型虽然也受益于空间数据，但面对 <box>、mask 或编号这类少见指令时仍然更不稳。

3. 单视角与多视角任务并行覆盖：避免空间能力停留在静态图像层面

单视角任务覆盖位置比较、大小比较、存在判断和计数，能训练模型回答“谁更靠左”“谁更高”“是否有满足某种关系的对象”等静态空间问题。但机器人和导航场景里，空间理解还涉及跨帧或跨视角：同一个物体从另一个角度看旋转了多少、房间有多大、对象第一次出现的顺序是什么、从当前位置到目标该怎么走。

InternSpatial 因此加入来自 ScanNet、MultiScan、R2R 和 Objaverse 的多视角数据，并构造旋转估计、绝对距离、房间大小、对象大小、路线规划和出现顺序等任务。其中旋转估计是论文特别强调的新任务，训练集中有 2,464,500 个 QA，占多视角数据的大头。作者还用 Alpha Shape 从点云估计房间尺寸，用 Open3D 的 OrientedBoundingBox 标准化对象框，并为多选题构造来自其他样本的 distractor，降低语言模型靠答案偏置走捷径的可能。

4. 高质量诊断 benchmark：把训练资源和评测资源分开设计

InternSpatial-Bench 不是从训练集里简单抽样。作者认为训练集可以靠自动化扩大规模，但 benchmark 更需要高质量和可诊断性。因此他们扩展 SpatialRGPT-Bench 和 SpatialBench，补充 COCO、Flickr30K、Objaverse、ScanNet、Cityscapes 等来源，并手工校验生成的问题和答案。最终 benchmark 包含 6,008 个 QA，覆盖位置比较、大小比较、旋转估计、计数和存在判断五类任务。

这个 benchmark 的一个细节很重要：作者排除了 reachability prediction 和部分定量空间范围估计，因为在只有单张图像、没有深度或相机参数时，这些任务对通用 VLM 甚至对人类都可能欠约束。换句话说，InternSpatial-Bench 不是为了“难而难”，而是尽量把评测集中在模型应该可以从图文输入中判断、且能稳定标注的空间问题上。

损失函数 / 训练策略¶

论文没有引入专门的空间损失函数，而是把 InternSpatial 作为监督微调数据加入现有 VLM 训练流程。作者以 InternVL2.5-8B 为主基线，并在 InternVL2.5-1B、Qwen2.5-VL-8B 上验证迁移性；使用 InternVL2.5 原训练设置中的通用数据下采样版本，再混入 InternSpatial 进行 fine-tuning。训练后的模型分别称为 InternVL-Spatial-8B、InternVL-Spatial-1B 和 Qwen-Spatial-8B。

评测时，InternSpatial-Bench 对不同任务采用不同指标：多选题用 accuracy，quiz-style 问题用 GPT-4o 评分，计数任务报告相对误差。作者还提到计数任务中部分 VLM 不严格按格式回答，因此从回答中抽取最后一个数字作为预测计数，再计算误差；这个处理让评测更关注空间判断本身，而不是完全被输出格式干扰。

实验关键数据¶

主实验¶

InternSpatial-Bench 的结果显示，InternSpatial 对空间推理的提升非常直接。以 InternVL2.5-8B 为例，平均分从 58.9 提升到 71.0，提升 12.1 分；位置比较提升 25.0 分，大小比较提升 20.9 分。Qwen2.5-VL-8B 和 InternVL2.5-1B 也有类似提升，说明收益不是绑死在 InternVL 架构上。

模型	Position	Size	Rotation	Counting	Existence	Average
GPT-4o-2024-11-20	71.2	71.5	26.7	63.5	74.9	61.6
LLaVA-OneVision-72B	77.8	77.0	25.8	64.5	77.6	64.5
Qwen2.5-VL-8B	57.1	60.8	26.9	58.0	66.7	53.9
Qwen-Spatial-8B	79.9	78.7	34.4	68.3	80.0	68.3
InternVL2.5-1B	42.9	43.3	23.8	21.3	59.9	38.2
InternVL-Spatial-1B	65.4	58.5	26.3	59.4	74.4	56.8
InternVL2.5-8B	62.8	57.7	28.5	67.8	77.9	58.9
InternVL-Spatial-8B	87.8	78.6	33.6	71.3	83.9	71.0

在 VSI-Bench 上，InternVL-Spatial-8B 的平均分从 41.6 提升到 52.3，提升 10.7 分。这个结果重要在于 VSI-Bench 是外部多视角空间推理基准，不是作者自建 benchmark；如果模型只是在 InternSpatial-Bench 的格式上过拟合，外部 benchmark 不应有这么稳定的提升。

模型	Obj.Count	Abs.Dist.	Obj.Size	Room Size	Rel.Dist.	Route Plan	Appr.Order	Average
GPT-4o	46.2	5.3	43.8	38.2	37.0	31.5	28.5	32.9
Gemini-1.5 Pro	56.2	30.9	64.1	43.6	51.3	36.0	34.6	45.3
Qwen2.5-VL-8B	41.5	21.2	50.7	36.6	37.9	30.4	34.0	36.0
Qwen-Spatial-8B	60.8	35.0	53.4	45.0	40.0	36.6	34.5	43.6
InternVL2.5-8B	51.7	32.9	45.1	42.3	40.8	27.8	50.5	41.6
InternVL-Spatial-8B	68.7	40.9	63.1	54.3	47.7	29.9	60.5	52.3

消融实验¶

论文的核心消融不是去掉某个网络模块，而是比较不同训练数据设置和不同指令格式。InternVL-Spatial-Raw-8B 使用没有指令格式扩展的 InternSpatial-Bench 形式训练；InternVL-Spatial-8B 则使用完整的多格式 InternSpatial。结论是：只加入空间 QA 已经能提升所有格式表现，但加入格式扩展后，不同图像/文本指令形式之间的性能差距明显缩小，并且自然语言和原图格式也没有被牺牲。

配置	训练数据特征	关键现象	说明
InternVL2.5-8B	通用 VLM 数据	原图 + 自然语言最好，遇到 box/mask/编号格式明显变弱	通用数据对空间引用格式覆盖不足
InternVL-Spatial-Raw-8B	空间 QA，但不做格式扩展	各格式均优于 baseline	空间监督本身能带来跨格式迁移
InternVL-Spatial-8B	空间 QA + 19 种指令格式	所有格式上整体最佳，格式间差距缩小	多格式训练提升鲁棒性和整体空间能力

通用能力评测也给出了一个必要的负面检查：空间训练没有明显破坏模型原有能力。InternVL-Spatial-8B 在 MathVision 上从 19.0 到 20.8，TextVQA 从 79.0 到 79.9，MMStar 从 62.9 到 63.1；OCRBench 几乎不变，ChartQA 从 83.0 降到 81.4。整体看，空间数据更像是补足能力缺口，而不是用通用能力换空间能力。

模型	MathVision	OCRBench	TextVQA	ChartQA	MMStar
InternVL2.5-8B	19.0	82.3	79.0	83.0	62.9
InternVL-Spatial-8B	20.8	82.2	79.9	81.4	63.1

关键发现¶

InternSpatial 对位置和大小比较的提升最明显，说明统一视角空间和对象级几何标注确实命中了 VLM 的空间关系短板。
小模型收益非常大，InternVL-Spatial-1B 在 InternSpatial-Bench 上平均提升 18.6 分，在 VSI-Bench 上平均提升 14.5 分，暗示数据质量对参数较小的模型尤其关键。
旋转估计仍然偏难，即使 InternVL-Spatial-8B 也只有 33.6，距离人类水平很远；这说明跨视角几何仍不是简单 SFT 就能完全解决的问题。
多格式训练不是只提升“花哨格式”的鲁棒性，也提升自然语言和原图输入下的空间推理表现，可能因为模型被迫更稳定地绑定对象引用和几何关系。
外部 VSI-Bench 的提升支持论文主张：InternSpatial 学到的不是单一 benchmark 技巧，而是能迁移到多视角空间理解的监督信号。

亮点与洞察¶

InternSpatial 把空间推理数据集的三个常见维度同时拉起来：规模、场景多样性和指令格式多样性。很多工作只补其中一个维度，这篇论文的价值在于把它们统一成可训练的开放资源。
统一视角空间是这篇论文最实用的工程核心。它承认普通图像没有 3D 标注的现实，但通过相机估计、深度估计和 mask lifting，把大量 2D 资源纳入近似 3D 推理框架。
19 种指令格式看似是数据增强，实际上是在训练“对象引用协议”。这对 VLM 很重要，因为空间关系判断的第一步不是推理，而是先确定用户到底指的是哪个区域。
Benchmark 设计比较克制：作者没有把单图无法可靠判断的 reachability 或定量空间范围硬塞进去，而是主动排除欠约束任务。这让评测更像诊断空间能力，而不是诊断数据歧义。
旋转估计任务值得关注。它把 Objaverse 等多视角对象数据变成跨视角几何问题，为 VLM 是否理解 3D 姿态变化提供了一个更直接的测量入口。

局限与展望¶

数据生成高度依赖上游自动标注模型，包括 VLM 检测/描述、SAM2 分割、相机估计和深度估计。人工抽样验证显示 QA 准确率超过 95%，但剩余噪声在 1200 万规模下仍然可能影响细粒度任务。
模板化 QA 的可控性强、成本低，但自然语言表达丰富度有限。论文也承认未来需要更开放、更表达性的 QA 生成方式，尤其是交互式环境里的多轮空间推理。
旋转估计和部分多视角任务仍然离人类水平很远。数据扩张能显著提升模型，但可能还需要显式几何建模、记忆机制或跨帧一致性约束。
InternSpatial 主要验证了监督微调的收益，没有深入分析不同数据源、不同任务比例、不同格式采样策略对最终性能的边际贡献。后续可以做更细的数据配方研究。
Benchmark 虽然比已有资源更丰富，但 6,008 个 QA 相比训练集仍然较小。若未来模型开始针对 InternSpatial-Bench 调参，可能需要持续扩展隐藏测试集或更开放的评测形式。

评分¶

新颖性: ⭐⭐⭐⭐ 数据集工作本身不是新模型，但把 1200 万级开放空间 QA、19 种指令格式和多视角旋转任务组合起来很有辨识度。
实验充分度: ⭐⭐⭐⭐ 覆盖自建 benchmark、外部 VSI-Bench、格式消融和通用能力检查，不过数据源/任务配比的细粒度消融还可以更深入。
写作质量: ⭐⭐⭐⭐ 论文结构清楚，pipeline 和实验结论明确；附录给出任务统计和模板，但主文对某些数据清洗细节仍偏概括。
价值: ⭐⭐⭐⭐⭐ 对 VLM 空间推理、具身智能和机器人场景非常实用，尤其是开放数据与代码能让后续模型直接复用和比较。