GGPT: Geometry-Grounded Point Transformer¶
会议: CVPR 2026
arXiv: 2603.11174
代码: 有
领域: 3D视觉 / 3D重建
关键词: sparse-view 3D重建, Point Transformer, SfM, feed-forward, multi-view geometry
一句话总结¶
提出GGPT框架:通过改进的轻量SfM管线(密集匹配+稀疏BA+DLT三角化)获取几何一致稀疏点云,再用3D Point Transformer V3在三维空间直接融合稀疏几何引导与前馈稠密预测进行residual refinement,仅在ScanNet++上训练即可跨架构、跨数据集显著提升多种前馈3D重建模型。
研究背景与动机¶
领域现状:前馈3D重建网络(DUSt3R→MASt3R→VGGT)可一次前传预测稠密点图和相机参数,速度快且视觉效果好,但缺乏显式多视约束导致几何不一致,尤其在分布外场景(医学/手术/人体)中偏差严重。
现有痛点:(1) SfM几何一致但在宽基线/稀疏视角下脆弱且只恢复稀疏点;(2) 此前融合几何引导的方法依赖伪GT的SfM点或密集视频序列,真实稀疏场景中不可用;(3) 已有refinement方法在2D图像空间(深度补全/图像Transformer)操作,无法实现真正的跨视一致性。
核心矛盾:前馈预测稠密但不一致,SfM一致但稀疏——现有方法要么依赖不切实际的GT引导,要么在2D空间refinement无法保证3D一致性。
本文目标 在3D空间中将SfM的几何精度与前馈网络的稠密完整性有机结合,实现无需微调就能跨架构泛化的稀疏视角3D重建refinement。
切入角度:两阶段——先用改进SfM从输入RGB获取真实稀疏几何,再用3D Point Transformer在点云空间直接做注意力和残差修正。
核心 idea:在3D空间而非2D图像空间做几何融合refinement是跨域泛化的关键。
方法详解¶
整体框架¶
两阶段设计:(1) 改进SfM:前馈模型初始化 → 密集匹配器(RoMa+UFM)获取全局对应 → 循环一致性过滤 → 高置信匹配做稀疏BA(仅2048点/视图) → 较低阈值匹配做DLT三角化获取 \(\mathbf{X}_s\)。(2) GGPT:Point Transformer V3(53M参数)在全局3D坐标系中联合处理稠密预测 \(\mathbf{X}_d\) 和稀疏引导 \(\mathbf{X}_s\),预测残差位移 \(\boldsymbol{\delta}\) 和置信度 \(c\),输出精炼后的稠密重建 \(\hat{\mathbf{X}}_d\)。
关键设计¶
-
改进SfM管线:用前馈模型(VGGT)初始化相机和点 → 密集特征匹配(RoMa+UFM)获取全对应张量 \(\mathbf{T} \in \mathbb{R}^{N \times N \times W \times H \times 2}\) → 循环一致性过滤(Eq.3) → 按两级置信度阈值 \(\epsilon_{BA} > \epsilon_{DLT}\) 分别获取BA和DLT的匹配子集 → 稀疏BA(高置信少量点)仅优化相机 → DLT三角化(较低阈值更密匹配)线性重建大量3D点。核心设计:将非线性优化(BA)和线性三角化(DLT)分离,BA只需极少高置信点即可精确估计相机,DLT利用更密匹配高效三角化。
-
几何引导编码:稠密点 \(\mathbf{x}_d\) 的嵌入包含:自身位置编码 \(\text{PE}(\mathbf{x}_d)\)、类型标记 \(\mathbf{e}_{type(d)}\)、对应稀疏引导点的位置编码 \(\text{PE}(\mathbf{x}_{d \to s})\) 和偏移量 \(\Delta_{d \to s} = \mathbf{x}_{d \to s} - \mathbf{x}_s\)。这个编码让网络显式感知稠密预测与几何先验之间的差异——\(\Delta_{d \to s}\) 直接编码了"需要修正多少"的信号。
-
3D空间直接注意力(PTv3):用Point Transformer V3(8层, 53M参数, 远小于2D ViT的~300M)在3D近邻上做patch-wise自注意力。空间邻近性而非像素坐标定义感受野,天然保证多视一致性。Patch-based处理:将场景分为重叠立方体块(半径=0.2×场景半径),每块独立处理(至多40万点),重叠区取平均。
损失函数 / 训练策略¶
- 置信度加权回归:\(\mathcal{L}_{conf} = \sum c \|\hat{\mathbf{x}} - \mathbf{x}_{GT}\| - \alpha \log c\),异方差形式让模型在不确定区域自动降低权重
- 恒等一致性:\(\mathcal{L}_{id} = \sum \|\hat{\mathbf{x}} - \mathbf{x}_{d \to s}\|\),鼓励有对应的稠密点向几何引导对齐
- 总损失 \(\mathcal{L} = \mathcal{L}_{conf} + \lambda_{id} \mathcal{L}_{id}\),\(\lambda_{id}=1, \alpha=0.2\)
- 训练:ScanNet++ 上20k序列,8×GH200训练一天
实验关键数据¶
主实验 (AUC@5/10 cm ↑, 8视角)¶
| 方法 | ScanNet++ | ETH3D | T&T |
|---|---|---|---|
| VGGT | 19/32 | 23/36 | 25/39 |
| VGGT + Ours | 45/60 | 47/61 | 42/57 |
| Pi3 | 56/71 | 25/41 | 26/42 |
| Pi3 + Ours | 56/72 | 36/53 | 32/50 |
| MapAnything | 38/57 | 7/15 | 9/20 |
| MapAnything + Ours | 48/64 | 33/45 | 40/55 |
消融实验¶
| 消融项 | ScanNet++ 4v | ETH3D 4v | 备注 |
|---|---|---|---|
| 完整GGPT | 38/53 | 41/55 | Baseline |
| 去掉 \(\mathbf{X}_s\) 引导 | 可学但域外崩溃 | 大幅下降 | 引导不可或缺 |
| 去掉对应编码 \(\Delta_{d \to s}\) | 下降显著 | 下降显著 | 最关键组件 |
| 2D Transformer替代PTv3 | 域内差距小 | 域外差距大 | 3D空间注意力泛化优势 |
| Patch r=0.1 vs 0.2 vs 0.5 | r=0.2最优 | — | 小patch增强泛化 |
关键发现¶
- 域外泛化极强:仅在ScanNet++训练,提升5种方法在5个数据集上的表现,无需任何微调
- VGGT改进最大:AUC@5从19→45(+137%)在ScanNet++,从23→47(+104%)在ETH3D
- 域外数据惊艳:4D-DRESS上VGGT AUC@1/5cm 10/45→+Ours 66/77;MV-dVRK 8/33→45/61
- 3D vs 2D refinement:PTv3在跨域数据上显著优于2D Transformer方案,这是本质性提升
- SfM消融:密集匹配器 >> 稀疏匹配器(MASt3R);DLT比RANSAC三角化快数百倍精度相当;稀疏BA 512点即够用
亮点与洞察¶
- 在3D空间而非2D图像空间做几何融合是本质性提升——跨域泛化优势巨大
- "仅训练一个配置,无需微调即可改进多种前馈方法"的通用性设计理念极有价值
- 稀疏BA+DLT的分离策略简洁高效:非线性优化只用于高置信稀疏点,三角化用线性方法
- 几何引导编码的设计巧妙:\(\Delta_{d \to s}\)直接编码"修正量",给网络提供最直接的supervisory signal
局限与展望¶
- SfM错误传播:SfM与GGPT顺序执行,SfM如果失败(如极少纹理场景)refinement也无法挽救
- Patch拼接伪影:分块处理可能产生边界不连续,虽然重叠区取平均可缓解但无法完全消除
- 仅室内场景训练:大规模室外场景和多于16视角场景未验证
- 计算开销:需要额外运行密集匹配器和BA,总推理时间增加
相关工作与启发¶
- vs DUSt3R/VGGT:前馈预测快但不一致;GGPT作为通用后处理模块补齐几何一致性
- vs COLMAP:传统增量SfM在稀疏视角下脆弱;本文的全局SfM+密集匹配更鲁棒高效
- vs 2D深度补全方法:在图像空间refinement固有的view-dependent局限;3D空间注意力根本性解决跨视一致性
- 启发:3D空间处理 > 2D图像处理的范式值得在更多任务中验证(如语义分割、物体检测的多视融合)
评分¶
⭐⭐⭐⭐⭐ (5/5)
理由:方法设计优雅且有充分的动机(3D空间 vs 2D空间refinement),实验极其全面(5种前馈方法×5个数据集,含域外医学/人体数据),泛化能力惊人(仅训练一个配置即可通用提升),消融实验详尽且结论清晰。改进SfM管线和3D Point Transformer的设计都有独立价值。是sparse-view 3D重建领域的高质量工作。