G\(^2\)VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning¶

会议: CVPR 2026
论文: CVF Open Access
代码: 有（项目页 + GitHub，链接见 CVF 论文页；具体地址 ⚠️ 以原文为准）
领域: 多模态VLM / 3D视觉
关键词: 几何接地VLM, 统一3D重建, 空间推理, 混合Transformer专家, 交错推理

一句话总结¶

G2VLM 用一个「混合 Transformer 专家（MoT）」架构，把前馈式 3D 重建专家和语义理解专家塞进同一个 VLM 里、靠共享自注意力互相增益，让一个 2B 的模型既能像 VGGT 那样直接预测深度/点云/相机位姿，又能在空间推理任务上反超 GPT-4o（SPAR-Bench 上高 18.5 分）。

研究背景与动机¶

领域现状：当下的 VLM 在很多多模态任务上是强力的基础模型，但在「空间智能」上普遍翻车——空间理解、空间推理这类需要把 2D 观测「抬升」成 3D 世界表征的任务上表现很差。主流空间 VLM（SpatialVLM、SpaceQwen 等）沿用标准 VLM 设计，把多张图/视频帧当成「拍扁的」2D token 序列，靠 next-token prediction 训练，再用人工构造的空间数据集硬调。

现有痛点：这种做法缺了关键一环——没有显式的视觉几何学习。模型从没真正学会怎么从 2D 图重建出连贯的 3D 空间，所谓空间理解只是从海量 2D 图文里隐式蹭来的语言/2D 先验。另一类工作（VLM-3R、Spatial-MLLM）意识到这点，便外挂一个冻结的几何编码器（如 VGGT）当额外特征喂给 VLM，但几何模块和语义模块是「拼接」而非「共生」，对齐不自然，几何能力也无法反过来被语义任务的数据规模带动。

核心矛盾：3D 重建模型（DUSt3R/VGGT/π³ 一脉）几何精度高但只会重建、不懂语义；语义强的 VLM 懂语义但缺几何。两者各自为政，而把它们拼起来又面临一个尺度难题：纯几何学习依赖难采集的 3D 标注（深度图、相机位姿），无法像 2D 图文那样规模化。

本文目标：在同一个 VLM 内同时拥有 spatial 3D reconstruction 和 spatial understanding 两种能力，并且让几何能力的进步能直接转化为空间推理的进步。

切入角度：作者借用人类认知的「双流假说」——腹侧流（ventral / "what"）负责物体识别（对应多模态理解），背侧流（dorsal / "where"）负责空间定位（对应视觉几何学习）。把这两条「通路」做成两个专家，让它们在共享注意力里互通有无。

核心 idea：用一个 Mixture-of-Transformer-Experts 架构，让「几何感知专家」和「语义感知专家」共享自注意力相互增益，从而用纯 2D 图像就能学会 3D 几何、并把学到的几何特征通过 in-context learning 与交错推理喂给空间推理，摆脱对 3D 标注的规模依赖。

方法详解¶

整体框架¶

G2VLM 的输入是 \(N\) 张 RGB 图像序列 \((I_i)_{i=1}^N\)，\(I_i \in \mathbb{R}^{3\times H\times W}\)。整个模型是一个双专家的 MoT：两个 Transformer 专家各自有独立的 QKV 投影和 FFN，但在每个 Transformer block 里所有 token 做共享的多模态自注意力——这就是两条通路互相「看到对方」的地方。

几何感知专家（"where" 通路）：前面接 DINOv2 编码器注入低层视觉信息，经全局注意力推出 3D-aware 隐状态 \(h_i \in \mathbb{R}^{C\times d}\)，再由轻量的 3D 几何头解码出相机位姿、点云等几何属性。
语义感知专家（"what" 通路）：直接复用预训练 VLM（Qwen2-VL-2B），保留其 Qwen2 视觉编码器（支持原生动态分辨率）和多模态旋转位置编码 M-RoPE，负责多模态理解与空间推理，并能输出交错的文本/几何推理。

训练分两阶段：先冻结语义专家、从零训几何专家学几何表征；再解冻语义专家、与几何专家联合训练空间理解数据，让它学会消费几何特征。推理时对空间推理问题，模型可先预测 3D 几何（深度/位姿/点云），再用交错推理（interleaved reasoning）把几何结果织进文本回答里。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：N 张 RGB 图像 + 指令"] --> B["双专家 MoT 架构<br/>where 专家 + what 专家"]
    B --> C["几何感知专家<br/>DINOv2 + 几何头出深度/点云/位姿"]
    B --> D["语义感知专家<br/>Qwen2-VL 出多模态理解"]
    C -->|"共享自注意力<br/>逐层互通"| D
    C --> E["两阶段训练<br/>先单训几何·再联合训推理"]
    D --> E
    E --> F["交错推理<br/>几何预测织进文本回答"]
    F --> G["输出：3D 重建 + 空间推理答案"]

关键设计¶

1. 双专家 MoT + 共享自注意力：让 where 通路和 what 通路逐层互通

针对「几何模块与语义模块拼接式对齐不自然」的痛点，G2VLM 不外挂冻结编码器，而是把几何感知专家和语义感知专家做成 MoT 的两个对等专家：每个专家有自己的 QKV 投影矩阵和 FFN（保留各自的归纳偏置），但在每个 block 内所有 token 一起做共享多模态自注意力。这样几何 token 和语义 token 在每一层都能彼此读取——几何特征能被语义专家用于空间推理，反过来语义上下文也参与几何 token 的注意力。作者强调这与 Bagel 等「理解 + 生成」的 MoT 本质不同：两个专家被训练去做差异极大的视觉几何学习和空间推理，因而需要各自独立的架构细节、预训练目标和联合训练策略。消融（Table 2）证实这种「共生」带来正向互补——几何专家越强，空间推理也越强。

2. 几何感知专家 + 几何头：纯 2D 输入前馈预测 3D 几何，摆脱 3D 标注规模瓶颈

针对「纯几何学习依赖难采集 3D 标注、无法规模化」的痛点，几何专家用 DINOv2 编码器（自监督、擅长低层视觉）把每张图映射成 LLM 隐状态 \(h_i\)，再交给一组轻量 Transformer 解码器几何头：包含 local point head、camera head 和用于稳定训练的 global point head。几何头是一个把几何隐状态映射到 3D 标注的函数：

\[f\big((h_i)_{i=1}^N\big) = (T_i, X_i)_{i=1}^N\]

其中 \(T_i \in SE(3) \subset \mathbb{R}^{4\times4}\) 是相机位姿，\(X_i \in \mathbb{R}^{H\times W\times 3}\) 是每张图在自身相机坐标系下的像素对齐点图。这套设计沿用 VGGT/π³ 的前馈思路，但关键差异是：为了缩小与 LLM 的表征鸿沟、便于在 VLM 内学几何，作者做了几处简化——不用 register token、只用全局注意力层、并移除 VGGT 那种 camera token（去掉强相机先验），改用 π³ 的置换等变（permutation-equivariant）设计。代价是相机位姿等任务上略弱于带 camera token 的 VGGT，但换来了可直接吃在野多视角图/视频、可规模化扩展的好处。

3. 视觉几何（VG）损失：点云 + 相机 + 法向三项联合监督几何专家

几何专家第一阶段从零训练，目标是学出几何丰富的表征。VG 损失是三项加权和：

\[\mathcal{L}_{VG} = \mathcal{L}_{points} + \lambda_{cam}\mathcal{L}_{cam} + \lambda_{normal}\mathcal{L}_{normal}\]

点云重建损失先求一个最优尺度因子 \(s^*\) 再算 L1 误差，逐像素按真实深度 \(z_{i,j}\) 归一化：\(\mathcal{L}_{points} = \frac{1}{3NHW}\sum_i\sum_j \frac{1}{z_{i,j}}\lVert s^*\hat{x}_{i,j} - x_{i,j}\rVert_1\)，其中 \(s^*\) 由 MoGe 的 ROE solver 求解。相机损失对所有有序视图对 \((i\neq j)\) 求平均，旋转项用测地距离（预测相对旋转与真值旋转夹角）\(\mathcal{L}_{rot}(i,j)=\arccos\!\big(\frac{\mathrm{Tr}((R_{i\leftarrow j})^\top \hat{R}_{i\leftarrow j})-1}{2}\big)\)，平移项用 Huber 损失比较尺度对齐后的预测平移。法向损失则鼓励重建出局部光滑表面：\(\mathcal{L}_{normal}=\sum_i\sum_j \arccos(\hat{n}_{i,j}\cdot n_{i,j})\)。三项合力让几何专家既准（点云/位姿）又稳（表面法向）。

4. 空间推理联合训练：CE-Only 在「几何能力保全」与「规模化」间取最优权衡

几何专家预训练好后，第二阶段联合训练让语义专家学会用几何特征做空间理解，主损失是标准语言建模交叉熵（CE）。这里有个关键设计抉择——几何专家在联合训练时怎么处理？作者比了三种策略：① CE-Only：冻结几何专家，只更新语义专家，逼模型靠 in-context learning 用现成几何特征，且几何能力原封不动；② CE+CE：几何专家也用 CE 损失微调，把几何特征显式调向空间理解；③ VG+CE：几何专家同时吃 CE 和 VG 损失，既适配推理又保留几何能力。实验（Figure 4）显示 VG+CE 几何与推理双赢、效果最好，但它需要大规模 3D 标注数据做联合训练，规模化受限。权衡之下主模型选 CE-Only：冻结几何专家保住其强几何性能，同时靠丰富视频数据扩展推理能力——这是规模与能力的最佳折中。而 CE+CE 对「专门优化空间推理」最有效，作者将这个变体单列为 G2VLM-SR（Spatial Reasoning 特化版）。

实验关键数据¶

主实验¶

视觉几何任务上，2B 的 G2VLM 与 VGGT、π³ 等 SOTA 前馈重建模型打成平手，部分指标更优（如单目深度的 Abs Rel 反超 VGGT）：

任务 / 数据集·指标	Fast3R	CUT3R	VGGT	π³	G2VLM(本文)
深度 Sintel Abs Rel↓	0.544	0.418	0.335	0.277	0.297
深度 NYU-v2 Abs Rel↓	0.093	0.081	0.056	0.054	0.062
点图 ETH3D Acc.↓	0.832	0.617	0.28	0.194	0.414
点图 ETH3D Comp.↓	0.978	0.747	0.305	0.210	0.309
相机 Co3Dv2 AUC@30↑	73.43	75.82	88.59	88.41	74.81

可见 G2VLM 在深度/点图完成度上接近 SOTA，相机位姿因去掉 camera token 略弱，但作者强调它没用相机先验、也没从预训练权重微调，仍属可比。

空间理解与推理上，G2VLM-SR（2B）在多个 benchmark 上拿下开源/专家模型最佳，并反超大得多的专有模型：

模型	规模	SPAR-Bench Avg.↑	MindCube↑	OmniSpatial Avg.↑
GPT-4o	-	36.39	38.81	46.16
Qwen2.5-VL-72B	72B	39.40	37.25	43.03
VLM3R-7B	7B	43.21	42.09	44.21
Qwen2-VL-2B（基座）	2B	24.60	37.83	41.18
G2VLM-SR-2B（本文）	2B	54.87	48.33	49.20

G2VLM-SR 在 SPAR-Bench 上比 GPT-4o 高 18.48 分，且对 2B 基座 Qwen2-VL 全面大幅提升；仅在 OST-Bench（在线时空理解）上不及 72B 大模型，作者认为这类任务偏向「需要存大量知识」、更利好大架构。

消融实验¶

配置	SPAR-Bench Avg.↑	说明
Qwen2-VL-2B（基座）	24.60	未学几何
Qwen2-VL-2B（仅空间数据微调）	48.93	无几何专家，仅靠数据微调
G2VLM-SR（几何专家用 Frame-Att.）	52.34	帧内注意力
G2VLM-SR（几何专家用 Mixed-Att.）	53.64	混合注意力
G2VLM-SR（全局注意力，本文）	54.87	几何最强→推理最强

关键发现¶

几何与推理正向互补：几何专家在「全局注意力」下几何性能最好，对应的空间推理也最强（54.87 > 53.64 > 52.34）；几何越准、推理越强，这是全文最核心的实证结论。
几何预训练不可或缺：去掉几何专家、只在空间数据上微调（48.93）远低于完整模型（54.87），证明学到的视觉几何表征是性能关键，而非单纯靠数据。
双编码器优于单编码器：用 DINO（几何）+ CLIP（语义）的双编码器在两类任务上都最好；有趣的是 DINO 不仅利于低层重建，还显著提升空间理解——说明它带来了语义编码器互补的视觉信息。
全局注意力最适配 LLM：VGGT/π³ 用的交替注意力与 LLM「每层统一掩码」框架不兼容；在 frame / global / mixed 三种掩码注意力里，global 全局注意力训练损失和下游都最优。

亮点与洞察¶

用认知科学的双流假说做架构隐喻并落到实处：where/what 两个专家不是噱头，而是真的用共享自注意力让几何与语义逐层互通，把「外挂冻结编码器」升级成「共生双专家」，这是相对 VLM-3R/Spatial-MLLM 的本质区别。
「纯 2D 学 3D」破解标注规模瓶颈：几何专家从在野多视角图/视频里学几何，不依赖深度图/相机位姿这类难采集标注，让几何能力可以蹭上视频数据的规模红利——这是 unified 设计最值钱的副产品。
几何越强、推理越强的实证闭环：把「改进低层视觉」和「改进高层推理」用一条可测的曲线串起来，给「3D 感知是空间智能基座」提供了直接证据，这个结论可迁移到任何想做空间推理的具身/机器人 VLM。
2B 反超 72B/GPT-4o：在 SPAR-Bench 上以 2B 体量碾压专有大模型，说明「对的归纳偏置（几何接地）」比单纯堆参数更高效。

局限与展望¶

作者承认：大规模模型训练存在训练不稳定问题，需要更先进的优化、数据筛选和大量算力；模型 scaling 留作未来工作。
相机位姿估计上明显弱于带 camera token 的 VGGT（AUC@30 74.81 vs 88.59），去掉相机先验换来可规模化，但牺牲了位姿精度——下游需要精确位姿的应用要留意。
OST-Bench（在线时空理解）上不及 72B 模型，说明当前 2B 规模在「需要记忆大量知识」的任务上仍有天花板。
⚠️ 最优策略 VG+CE 效果最好却因依赖大规模 3D 标注被放弃、改用 CE-Only，意味着「几何 + 推理双赢」的上限其实没被主模型吃满，若能解决 3D 数据规模问题，性能或可进一步提升。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把 3D 重建与高层空间理解统一进单个 VLM 的工作，双流假说落到对等双专家 + 共享注意力，思路扎实。
实验充分度: ⭐⭐⭐⭐⭐ 几何（深度/点图/位姿）与推理（4 个 benchmark）双线覆盖，消融把编码器/注意力/损失策略都拆开验证，结论清晰。
写作质量: ⭐⭐⭐⭐ 动机—架构—训练—实验链路清楚，公式给全；个别简化设计的取舍可再展开。
价值: ⭐⭐⭐⭐⭐ 2B 反超 GPT-4o 且证明「几何越强推理越强」，为空间智能/具身 VLM 提供了强基线与可迁移结论。