Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching¶

会议: CVPR 2026
arXiv: 2606.03577
代码: 无（论文未提供）
领域: 多模态VLM / 空间推理
关键词: 宽基线匹配, 跨视角对应, 可验证奖励强化学习, 课程学习, 空间推理 benchmark

一句话总结¶

把"宽基线匹配"(wide-baseline matching, WBM) 当作探测和训练 MLLM 空间推理的试金石：先造出按视角差和匹配粒度分层的 ReasonMatch-Bench（发现最强基线只有 37.2 F1，人类 84.0），再用一条从视频-3D 语料自动抽取可验证对应关系的数据流水线 + DCRL（双层动态课程的可验证奖励 RL），把 Qwen3-VL-8B 在该 benchmark 上从 27.5 拉到 70.5 F1，并迁移到多个空间智能 benchmark 而不损害通用视觉能力。

研究背景与动机¶

领域现状：要把 MLLM 部署到物理世界，光会识别物体、描述图像不够，关键是跨"差异很大的视角"做空间推理——几何理解、视角想象、细粒度感知、遮挡与拓扑推理、尺度/深度估计。现有 benchmark（OmniSpatial、VSI-Bench）大多每个样本只考一种孤立能力（相对位置、视角预测），训练侧方法（SAT、RoboSpatial、RoboRefer）也偏视觉 grounding 或简单关系推理，停留在文字推理 + 选择题。

现有痛点：真正"逼出"空间推理的监督数据既贵又脆。人工标注很难在一个样本里同时覆盖几何、语义、上下文；合成数据又难以兼顾真实多样性和可大规模验证。已有探索跨视角对应的工作（Multi-SpatialMLLM）局限于小视角变化、受限任务格式（多选）、且只用 SFT，激不出更深的推理。

核心矛盾：经典特征匹配 pipeline（SIFT/SURF/ORB + RANSAC + 对极几何）在小视角、密集采帧下有效，但在"极端宽基线"（大基线、强透视/外观变化、重复结构、光照变化、语义遮挡）下频繁失败；而人类却能靠几何规律 + 语义知识 + 上下文线索综合判断。MLLM 到底处在哪一档、用什么数据和训练范式能可靠提升，仍是空白。

本文目标：(1) 系统评测 MLLM 在 WBM 上的能力；(2) 找到能大规模、可验证、低人工的训练范式来提升这种跨视角空间推理。

切入角度：WBM 任务本身"天然可验证"——两点是否对应同一个 3D 点，可以用几何重投影/SfM landmark 严格校验。这意味着可以绕开 CoT 监督，直接用 RLVR（可验证奖励强化学习）让模型自己探索推理策略。

核心 idea：把 WBM 重写成"MLLM 在两组预标点之间做离散符号关联（部分二部图匹配）"的语言任务，用从视频-3D 语料自动抽取的可验证对应做奖励，再用按"视角差 + 点配置"双层递进的动态课程稳住训练。

方法详解¶

整体框架¶

方法要解决的是"让 MLLM 学会在极端视角差下判断两张图里哪些标注点对应同一个 3D 物体点"。整体分三块：先把匹配任务改写成 MLLM 能做的离散语言任务（输出从点索引到点索引的映射），再用一条数据流水线从 RGB-D 视频和 SfM 重建里自动挖出带 ground-truth 的对应点对并按视角难度分层，最后用 DCRL 这套带双层动态课程的可验证奖励 RL 训练模型，从简单配置逐步逼到极端场景。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["两张宽基线视图<br/>+ 预标点集 X, Y"] --> B["任务改写为<br/>离散二部图匹配<br/>输出 f: 点→点 / ∅"]
    B --> C["数据流水线<br/>视频-3D→可验证对应池 P<br/>按 Δv=1-ω 分层"]
    C --> D["全局匹配奖励<br/>含未匹配点(∅)"]
    D --> E["图像级视角递进<br/>按 overlap 分 bin 顺序训"]
    E --> F["点级对应课程<br/>基数+空间分布动态调难"]
    F --> G["训练后模型<br/>ReasonMatch + 迁移到<br/>OmniSpatial/MindCube/SAT"]

关键设计¶

1. 把宽基线匹配改写成"语言中介的离散二部图匹配"

经典匹配器输出连续相似度矩阵 $S\in\mathbb{R}^{n\times m}$，MLLM 没法直接产出这种稠密分数，硬套会让任务和模型能力错位。本文换一种问法：给两张图各预标一组带索引的点 $\mathcal{X}=\{\mathbf{x}_i\}_{i=1}^n$、$\mathcal{Y}=\{\mathbf{y}_j\}_{j=1}^m$，模型读入 $(I_1,\mathcal{X};I_2,\mathcal{Y})$（视觉提示标出点编号），输出一个文字映射 $\hat f:\{1,\dots,n\}\to\{1,\dots,m\}\cup\{\varnothing\}$，$\hat f(i)=j$ 表示 $\mathbf{x}_i$ 对应 $\mathbf{y}_j$，$\hat f(i)=\varnothing$ 表示因遮挡/无重叠而无可信匹配。这本质是两点集之间的"部分二部图匹配"——每个点至多对应一个、也可不对应。这样做把 MLLM 当成"在视觉实体间做符号关联的推理引擎"而不是连续特征比对器，从而能把几何、语义、上下文线索一起卷进复杂空间推理；同时离散输出天然便于和 ground-truth 逐点比对、做可验证奖励

2. 视频-3D 自动数据流水线：可验证、可分层、可重采的对应池

监督数据贵且脆是最大瓶颈，本文用现成大规模视频-3D 语料自动造监督。来源分两类：RGB-D 数据（CO3D、uCO3D、ScanNet）用几何重投影——$I_1$ 中有效深度像素反投影到 3D 再投到 $I_2$，用深度一致性 + 光度一致性校验；SfM 数据（RealEstate10K、DL3DV）直接取 COLMAP 重建里已过几何验证的共享 3D landmark。这样每对图能得到上千条稠密匹配 $\mathcal{M}$。难度量化上，定义 overlap 分数 $\omega\in[0,1]$（RGB-D 看成功匹配像素比例，SfM 看共享 landmark 比例），视角变化幅度 $\Delta_v=1-\omega$ 随基线和遮挡增大而增大，用于按来源做难度分层。但稠密匹配直接标到图上会严重视觉重叠、且超出 MLLM 输入上限，于是做基于聚类的空间过滤，在联合图像坐标空间聚类、每簇留一个代表，得到 $N_p\in[10,50]$ 个空间分散良好的验证对应池 $\mathcal{P}$。$\mathcal{P}$ 是关键中间产物：matchable 点和 distractor 点都从它灵活采样，支撑后面动态课程的各种任务构造

3. 全局匹配奖励：把"未匹配点"也纳入评分，逼模型推理可见性

传统部分二部图匹配只评已匹配对、忽略未匹配点，模型容易只挑显眼好配的点、回避遮挡/出框区域。本文显式给未匹配点指派 dummy 目标 $\varnothing$，并对正确预测"无匹配"也给奖励。匹配正确率定义为对全部 $n$ 个查询区域取 $$r_{\text{match}}=\frac{1}{n}\sum_{i=1}^{n}\mathbb{1}\big[\hat f(i)=f^*(i)\big],$$ 再加上格式合规项，最终奖励 $r=w_f\cdot r_{\text{format}}+w_m\cdot r_{\text{match}}$（实现取 $w_f=w_m=1.0$）。这个 $r_{\text{match}}$ 一身两职：既是策略优化的训练信号，又是下面课程动态调难的控制信号。把 $\varnothing$ 纳入评分消除了目标歧义，强迫模型对全场景的视角相关可见性和几何约束做"刻意推理"，而不是只对易匹配的显著特征下注

4. 双层动态课程：视角递进为外环、点配置课程为内环

直接在极端匹配场景上训会探索低效、收敛差。DCRL 沿两个互补维度拆解难度。外环是图像级视角递进：把数据按 $\omega$ 分成 $S=10$ 个 overlap bin，bin 1 是高重叠小视角、bin $S$ 是极端视角差；顺序训，当某 bin 上滑动窗口（20 步）平均准确率奖励超过 0.8 就升到下一 bin，并永久剔除已掌握的简单 bin——早期快速建立几何基础、后期用更难场景获取更大信息增益，同时靠"过滤已掌握配置"维持效率。内环是点级对应课程：点集 $\mathcal{X},\mathcal{Y}=g(\mathcal{P})$ 在线从池子采样，采样策略 $g$ 动态调难，又分两个子维度——(a) 基数自适应，按三档难度递进 L1 无歧义匹配（无 distractor、一一对应）→ L2 选择性匹配（$\mathcal{Y}$ 侧有 distractor，模拟非对称覆盖）→ L3 部分匹配（两侧都有 distractor，模拟双向遮挡/不完全重叠），表现好就升级、退步就降级；(b) 空间分布精炼，通过聚类半径从"最稀疏（每簇一点、全局分布、需物体级推理）→ 中等聚类 → 稠密随机采样"递进，逐步抹掉能"无脑对齐"的空间线索，逼模型学细粒度几何。两层一外一内对齐难度与模型当前能力，实现样本高效探索

损失函数 / 训练策略¶

用 GRPO 在 Qwen3-VL-8B-Instruct 上做 RLVR：group size $G=32$，有效 batch $16\times32$ 条轨迹/更新，KL 系数 $\beta=0.005$，每条预测上限 5120 token，rollout 温度 $T=1.0$，AdamW + 前 10 步线性 warmup、恒定学习率 $10^{-6}$。奖励即上面的 $r=w_f r_{\text{format}}+w_m r_{\text{match}}$（权重各 1.0），无显式 CoT/推理过程监督——模型靠可验证奖励自主探索推理策略。

实验关键数据¶

主实验¶

ReasonMatch-Bench 测试集 2,810 对图（取自 220k 对语料），来源/任务级/场景三维度均衡（如 ScanNet 27.7%、uCO3D 28.0%、DL3DV 27.0%、RE10K 17.2%；L1 32.5% / L2 36.8% / L3 30.7%；室内 55.1% / 物体 28.0% / 室外 16.9%）。

模型	ReasonMatch F1	Precision	Recall
GPT-5-mini	57.9	56.9	59.4
GPT-5-Chat	51.5	50.6	52.8
Gemini-2.5-Pro	42.8	42.4	43.4
Claude-4.5-Sonnet	41.7	43.7	41.1
Qwen3-VL-235B	49.2	50.7	48.7
Qwen3-VL-8B-Instruct (base)	27.5	27.1	29.1
Qwen3-VL-8B + DCRL	70.5	70.3	71.1
Δ vs. base	+43.0	+43.2	+42.0

8B 的 DCRL（70.5）反超所有开源/闭源基线，包括 GPT-5-mini（57.9）和 235B 的 Qwen3-VL（49.2）。难度上：室外 L1 最易，室内中等，物体级（object-centric）最难——孤立物体缺环境上下文，基线在 L3 上崩得厉害（如多数 < 30 F1），DCRL 相对稳。

人类对照（90 个最大视角差子集，只报 F1）：

方法	Overall	DL3DV	RE10K	uCO3D
GPT-5-mini	37.2	35.9	49.7	25.8
Gemini-2.5-Pro	29.5	26.5	44.1	18.0
Qwen3-VL-235B	29.9	25.3	45.7	18.7
DCRL	52.0	57.7	70.6	27.8
Human	84.0	93.5	94.7	62.1

DCRL 把最强基线 37.2 提到 52.0，但离人类 84.0 仍差很多，尤其物体级 uCO3D（27.8 vs 62.1），说明极端宽基线匹配远未解决。

迁移到空间智能 benchmark：OmniSpatial Overall 43.60→48.87（+5.27）、MindCube 40.01→43.52（+3.51）、SAT Real 70.0→75.3（+5.3）。通用视觉能力不退反微涨：MME-RealWorld 62.8→63.8、MMStar 59.8→62.5、RealWorldQA 69.5→70.5、V*Bench 84.8→85.9。

消融实验¶

配置	OmniSpatial	MindCube	SAT	ReasonMatch
Base (Qwen3-VL-8B)	43.6	40.0	70.0	27.5
SFT (CoT 标注 WBM 数据)	42.6	45.1	41.3	51.0
DCRL (RLVR)	48.9	43.5	75.3	70.5

课程配置	ReasonMatch 相对	说明
easy-only / hard-only	较低	只用易/难子集训练
均匀采样 RL	中等	已优于 easy/hard-only
动态课程 (DCRL)	+5.2	优于均匀采样 +5.2 点

关键发现¶

RL 比 SFT 更可迁移：SFT 用 CoT 标注把 in-domain ReasonMatch 提到 51.0，但 SAT 反掉到 41.3（比 base 70.0 还差），说明 teacher-forcing 模仿会过拟合对应模式；DCRL 在 ReasonMatch 上比 SFT 高 +19.5、SAT 上高 +34.0，可验证奖励学到的空间推理更通用。
动态课程确实有用：均匀采样已优于单一难度子集，动态课程再 +5.2 点，训练曲线收敛稳定。
迁移是异质的：OmniSpatial 子类中 Dynamic Reasoning（+9.6%）和 Complex Logic（+8.38%）涨最多，Perspective Taking 几乎不变；作者归因于训练数据多为含相机旋转/自我运动的室内导航视频，与 3D 心理旋转、运动预测类任务更对口；MindCube 的 Rotation 子任务也涨最多（+6.0%），互相印证。
失败模式：Gemini-2.5-Pro 能给准确的局部点描述（"白墙区域""木质表面"）但缺全局判别力、退化成模糊局部特征匹配；Qwen3-VL 系列对视角变化有几何直觉，但常出"视觉标签误识别 + 推理-答案不一致"（CoT 推对了、最终格式化输出却自相矛盾）。

亮点与洞察¶

任务即奖励：选 WBM 不只是"又一个难任务"，而是看中它"几何可验证"——两点是否同源能被重投影/SfM 严格判定，于是无需 CoT 监督就能造出干净奖励信号，这是整套 RLVR 能跑起来的根。把"找一个天然可验证的代理任务来逼出某种推理"这一思路可迁移到别的空间/几何能力训练。
把 ∅ 写进奖励：显式奖励"正确说出无匹配"是个小而关键的设计——它堵住了模型只挑好配点的捷径，逼它推理可见性和遮挡，这种"对 abstain/拒答也评分"的奖励工程值得借鉴到检索、grounding、幻觉抑制等任务。
数据池 $\mathcal{P}$ 在线重采 + 双层课程：点集不离线固定、而是从验证池在线采样，使得"同一对图"能动态生成 L1/L2/L3、稀疏/稠密等任意难度配置，课程才能真正"动态调难"。这种"中间产物可重采 → 课程可自由编排"的设计模式很巧。
8B 反超 235B 和 GPT-5-mini：说明在这类需要专门训练的细分空间能力上，对的训练范式比单纯堆参数更有效。

局限与展望¶

离人类差距仍大（52.0 vs 84.0），物体级场景尤其差（27.8 vs 62.1），极端宽基线匹配远未解决——作者自己承认还有大量 headroom。
难度量化 $\omega$ 只用于"同源内分层"、明确不可跨来源直接比较（RGB-D 与 SfM 的 $\omega$ 口径不同），所以 benchmark 内的绝对难度刻度在不同数据源间不完全可比，横向解读要小心。
数据完全依赖现成视频-3D 语料的几何/SfM 校验质量，深度噪声、COLMAP 重建误差会污染 ground-truth；且场景分布偏室内导航视频，可能正是 Perspective Taking 迁移最弱的原因，泛化到更多样物理场景待验证。
任务设定是"预标点 + 选索引"，回避了"自己从零检测可匹配点"的更难环节；真实下游（重定位、3D 重建）还需要稠密、自发现的对应，离实用 pipeline 还有距离。
论文未放代码，部分细节（聚类半径、基数课程具体阈值、$\omega$ 计算公式）在正文缺失、留在 supplement，复现需补充材料 ⚠️ 以原文为准。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把宽基线匹配重写成可验证的语言匹配任务并配双层动态课程 RLVR，视角独到、串起 benchmark + 数据 + 训练一整套。
实验充分度: ⭐⭐⭐⭐ 覆盖 3 场景 × 3 难度的主表 + 人类对照 + 3 个迁移 benchmark + 4 个通用 benchmark + SFT/课程消融，较扎实；但部分关键超参/公式留在 supplement、无代码。
写作质量: ⭐⭐⭐⭐ 动机链条清晰、任务形式化到位；课程的"基数/空间分布"两子维度若有更直观的图示会更好读。
价值: ⭐⭐⭐⭐⭐ 给"如何评测与训练 MLLM 跨视角空间推理"提供了可验证、可扩展、低人工的范式，且证明对的训练比堆参更有效，对具身/机器人方向有直接参考价值。