Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning¶

会议: CVPR 2026
arXiv: 2510.27606
代码: GitHub
领域: 图像生成
关键词: 空间理解, 自监督学习, 强化学习RLVR, 大视觉语言模型, 深度感知

一句话总结¶

本文提出Spatial-SSRL，一种自监督强化学习范式，通过从普通RGB/RGB-D图像自动构造五种pretext任务（patch重排、翻转识别、裁剪修补、深度排序、相对3D位置预测），利用GRPO优化LVLM的空间理解能力，在七个空间benchmark上平均提升3.89%-4.63%，且无需人工标注或外部工具。

研究背景与动机¶

领域现状：大视觉语言模型（LVLM）在VQA、图像描述等任务上接近饱和，但空间理解能力远低于人类水平。现有提升方法分为两类：数据驱动的SFT（构造空间QA对微调）和RLVR（用可验证奖励做强化学习）。

现有痛点：SFT方法依赖昂贵的人工标注或GPT-4生成QA对，且容易过拟合到数据集特定模式。工具型方法（如使用深度估计器、目标检测器等）pipeline复杂、计算成本高。模拟环境方法（rendering 3D场景）与真实世界存在domain gap。RLVR方法受限于特定环境（如3D扫描），数据规模和覆盖范围有限。

核心矛盾：空间理解需要大规模可验证的监督信号，但现有方法获取这类信号的代价太高——要么需要昂贵的人工标注，要么需要复杂的工具链，要么受限于特定3D数据集。

本文目标 设计一种零标注、无工具、可扩展的自监督方案来生成可验证的空间理解训练信号，并与RLVR训练范式自然结合。

切入角度：图像内部固有的结构一致性（相对深度、几何一致性、视角不变性）本身就提供了确定性可验证的监督信号。将视觉自监督学习（SSL）的pretext任务重新定位为RLVR的奖励函数，而非传统的特征预训练目标。

核心 idea：把经典的SSL任务（jigsaw、翻转检测等）改造成LVLM的QA prompt + 确定性验证函数，直接用GRPO做后训练。

方法详解¶

整体框架¶

这篇论文要解决的核心难题是：训练LVLM的空间理解需要海量"可验证"的监督信号，但人工标注、工具链和3D扫描这三条路都太贵或太窄。Spatial-SSRL的破局点在于——一张普通图像里本就藏着确定性的几何真值（哪块patch该放哪、哪个区域更近），把图像做一次可控变换，正确答案就被"程序化"地生成了，根本不需要人或检测器去标。

整套流程分两步走。第一步是数据构造：从RGB或RGB-D图像出发，自动生成五种pretext任务的QA对，攒成Spatial-SSRL-81k数据集，因为所有答案都来自确定性变换，标注准确率是100%。第二步是RL训练：先用约3600个样本做SFT冷启动，让模型先学会输出规定的答案格式（否则直接RL时生成正确格式的成功率不到5%），再上GRPO优化。五种任务里有三种只看RGB、考2D布局，两种依赖深度图、考3D空间推理，难度由浅入深地铺开。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["RGB / RGB-D 图像"] --> DC
    subgraph DC["数据构造：五种 pretext 任务（确定性变换→100% 准确标注）"]
        direction TB
        T1["图像块重排<br/>打乱 patch，预测复原逆排列"]
        T2["翻转识别<br/>找出被翻转的 patch 与方向"]
        T3["裁剪修补<br/>4 选 1 填回挖空区域"]
        T4["区域深度排序<br/>3 区域按深度从近到远排序"]
        T5["相对 3D 位置预测<br/>物体自身坐标系下的方位"]
    end
    DC --> D["Spatial-SSRL-81k 数据集"]
    D --> SFT["SFT 冷启动<br/>~3600 样本，学答案格式"]
    SFT --> GRPO["GRPO 强化学习<br/>奖励 r = 0.9·准确 + 0.1·格式"]
    GRPO --> OUT["空间理解增强的 LVLM"]

关键设计¶

1. Shuffled Patch Reordering（图像块重排）：把全局2D布局变成一道可判分的复原题

这一任务直接针对"模型缺乏全局空间感"这个痛点。做法是把图像 \(I\) 切成 \(M \times N\) 的patch网格 \(\mathcal{X} = \{x_{i,j}\}\)，施加一个随机排列 \(\pi\) 把它们打乱展示，而ground-truth答案就是能复原原图的逆排列：

\[\pi^{-1} = [\pi^{-1}(0),\ \pi^{-1}(1),\ \ldots,\ \pi^{-1}(M \times N - 1)]\]

模型要做的就是预测这串逆排列。为防止它靠拼接边缘的低级线索取巧，还会随机把一个patch涂成白色增加难度。要把打乱的网格拼回去，模型必须真正理解各块之间的相对位置和整体布局一致性——而这种能力恰好能迁移到判断真实场景里物体的空间排布。

2. Flipped Patch Recognition（翻转识别）：用一处方向违反考验对局部几何的敏感度

重排考的是全局，这一任务则把注意力收到局部细节。它随机挑一个patch \(\hat{x}_t\)，以等概率对它做垂直或水平翻转：

\[x_{\text{vert}}(r,c) = x(P_H - 1 - r,\, c), \qquad x_{\text{horz}}(r,c) = x(r,\, P_W - 1 - c)\]

模型要答出被翻转的patch索引 \(t\) 和翻转方向 \(d\)，即 \([t, d]\)。一处翻转往往很隐蔽，要发现它，模型得对局部几何、镜像对称性以及文字、人脸、阴影这类有方向性的线索足够敏感——这正是空间理解里容易被忽略的细粒度能力。

3. Cropped Patch Inpainting（裁剪修补）：靠精心设计的干扰项逼模型读懂纹理连续性

这一任务测的是纹理-上下文匹配与细粒度结构推理。它随机裁掉一块区域涂黑，再给出4个候选patch让模型选出正确的填充块。关键的巧思在干扰项：另外3个错误选项分别是正确patch的90°旋转版、它的内部子区域、以及向外扩展的区域，三者在视觉上都和正确答案高度相似。这样一来，模型没法靠颜色或大致语义蒙对，必须盯住纹理是否真的连续、结构是否真的对得上才能选准。

4. Regional Depth Ordering（区域深度排序）：把深度图变成一道确定可验证的序数题

从这里开始进入依赖深度的3D任务。做法是从depth map \(D\) 里挑出3个深度上明确分离的区域，给它们贴上数字标签、打乱顺序展示，让模型按从近到远排序。区域的挑选有两条硬约束——每个区域自身的深度跨度要小，区域之间的深度差要足够大：

\[r(R_i) < r_{\max} = 0.15 \quad(\text{区域内一致}), \qquad d(R_i, R_{i+1}) > d_{\min} = 0.05 \quad(\text{区域间可分})\]

前者保证每块区域的深度是"干净"的，后者保证排序有唯一确定的答案、不会因为深度接近而模棱两可。这道题逼着模型整合深度线索、透视关系和序数推理，是3D场景理解的入门基本功。

5. Relative 3D Position Prediction（相对3D位置预测）：让模型做一次自我中心的坐标变换

这是五种任务里最硬的一个，对应空间理解里最高阶的能力。给定一个物体的朝向 \(\theta\)（从前后左右四个基本方向均匀采样），要预测另一个点落在该物体自身坐标系里的相对方位（左/右、前/后的组合）。机制上是一次2D刚体变换：把相机坐标系下的点 \((x_2, z_2)\) 旋转到以物体朝向为基准的坐标系 \((\tilde{x}_2, \tilde{z}_2)\)，再按阈值读出方向标签 \((\tilde{p}_x, \tilde{p}_z)\)。同一个点在相机视角和物体视角里"左右前后"完全不同，要答对就得做心象旋转、切换到以物体为中心的参照系并结合深度——这正是真实空间推理（"站在桌子的角度，杯子在它的左边还是右边"）所需的核心能力。

损失函数 / 训练策略¶

冷启动SFT：先在~3600样本上做5 epoch的SFT（lr=\(1 \times 10^{-5}\)），让模型熟悉任务格式
GRPO优化：KL正则权重0.01，每样本rollout 5次，temperature 1.0，batch size 128，lr=\(1 \times 10^{-6}\)，360步
奖励设计：\(r = 0.9 \cdot r_{\text{acc}} + 0.1 \cdot r_{\text{fmt}}\)，准确率权重远高于格式权重
使用think标签引导推理链输出

实验关键数据¶

主实验（7个空间理解benchmark）¶

模型	Spatial457	3DSRBench	SpatialEval	QSpatial+	What'sUp	ViewSpatial	VSI-Bench	Avg
Qwen2.5-VL-3B	33.70	50.30	54.65	33.66	85.85	35.38	27.84	45.91
Spatial-SSRL-3B	46.07	51.72	59.59	39.60	86.71	36.62	33.49	50.54
Δ	+12.37	+1.42	+4.94	+5.95	+0.86	+1.24	+5.65	+4.63
Qwen2.5-VL-7B	44.67	53.39	62.37	46.53	86.95	36.83	38.08	52.69
Spatial-SSRL-7B	53.34	56.53	64.03	54.46	90.61	37.81	39.29	56.58
Δ	+8.67	+3.14	+1.66	+7.93	+3.66	+0.98	+1.21	+3.89

所有7个benchmark上均有提升，Spatial457上最大提升+12.37%。

推理能力验证¶

配置	Avg准确率	说明
Qwen2.5-VL-7B (无推理)	52.69	baseline
Qwen2.5-VL-7B (有推理)	49.58	推理反而降低！(-3.11)
Spatial-SSRL-7B (有推理)	56.58	推理链真正有效(+3.89)

baseline开启推理反而掉点（What'sUp: 86.95→70.61），说明基础模型缺乏有效的空间推理能力。Spatial-SSRL通过RL训练成功教会了模型生成有效推理链。

关键发现¶

3D推理类benchmark获益最多（Spatial457 +12.37%, QSpatial+ +7.93%），验证depth-based任务的贡献
基础模型开启CoT推理反而掉点是重要发现——说明空间推理能力需要专门训练而非简单的prompt engineering
Qwen3-VL-4B上也有+1.29%空间提升且通用VQA也涨+1.18%，说明方法不损害通用能力
Spatial-SSRL-81k数据集实现100%标注准确率（因为所有答案来自确定性变换），这是依赖noisy检测器的方法无法达到的
冷启动SFT很必要——直接RL训练导致生成正确格式的成功率<5%

亮点与洞察¶

SSL + RLVR的结合范式是最大创新点。SSL pretext任务天然提供确定性可验证答案，与RLVR要求的verifiable reward完美契合——这个insight可能催生大量follow-up工作将其他SSL任务引入LVLM后训练
五种任务的互补设计覆盖了从2D布局到3D空间关系的完整层次：patch reordering（全局布局）→ flip recognition（局部方向）→ inpainting（纹理一致性）→ depth ordering（3D深度）→ 3D position（自我中心坐标变换）
干扰项设计的巧妙之处：inpainting任务中用旋转版、内部子区域、外部扩展区域作为干扰项，防止模型靠低级特征取巧

局限与展望¶

依赖depth map的两个任务需要RGB-D数据，限制了数据源（虽然depth可以用单目估计但会引入噪声）
五种任务的相对权重未做细致调优，当前是等比例混合
仅在Qwen2.5-VL和Qwen3-VL上测试，对其他LVLM架构（如LLaVA、InternVL）的泛化性未知
81k的数据规模相比SFT方法已经较小但RL训练效率还有提升空间
可以探索更多SSL任务——如颜色通道重排、频域变换预测、多视角一致性验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ SSL pretext任务作为RLVR reward的范式具有开创性，五种任务设计全面
实验充分度: ⭐⭐⭐⭐ 7个benchmark + 3个base model + 通用能力验证，但消融可以更详细
写作质量: ⭐⭐⭐⭐⭐ 方法动机清晰，任务设计的数学形式化严谨，图示优秀
价值: ⭐⭐⭐⭐⭐ 零标注、可扩展、与RLVR天然兼容，为LVLM空间理解提升开辟了新路径