GGPT: Geometry-Grounded Point Transformer¶
会议: CVPR 2026
arXiv: 2603.11174
代码: 有
领域: 3D视觉 / 3D重建
关键词: sparse-view 3D重建, Point Transformer, SfM, feed-forward, multi-view geometry
一句话总结¶
提出GGPT框架:通过改进的轻量SfM管线(密集匹配+稀疏BA+DLT三角化)获取几何一致稀疏点云,再用3D Point Transformer V3在三维空间直接融合稀疏几何引导与前馈稠密预测进行residual refinement,仅在ScanNet++上训练即可跨架构、跨数据集显著提升多种前馈3D重建模型。
研究背景与动机¶
领域现状:前馈3D重建网络(DUSt3R→MASt3R→VGGT)可一次前传预测稠密点图和相机参数,速度快且视觉效果好,但缺乏显式多视约束导致几何不一致,尤其在分布外场景(医学/手术/人体)中偏差严重。
现有痛点:(1) SfM几何一致但在宽基线/稀疏视角下脆弱且只恢复稀疏点;(2) 此前融合几何引导的方法依赖伪GT的SfM点或密集视频序列,真实稀疏场景中不可用;(3) 已有refinement方法在2D图像空间(深度补全/图像Transformer)操作,无法实现真正的跨视一致性。
核心矛盾:前馈预测稠密但不一致,SfM一致但稀疏——现有方法要么依赖不切实际的GT引导,要么在2D空间refinement无法保证3D一致性。
本文目标 在3D空间中将SfM的几何精度与前馈网络的稠密完整性有机结合,实现无需微调就能跨架构泛化的稀疏视角3D重建refinement。
切入角度:两阶段——先用改进SfM从输入RGB获取真实稀疏几何,再用3D Point Transformer在点云空间直接做注意力和残差修正。
核心 idea:在3D空间而非2D图像空间做几何融合refinement是跨域泛化的关键。
方法详解¶
整体框架¶
GGPT 想弥合的是一对矛盾:前馈网络(DUSt3R→MASt3R→VGGT)一次前传就能给出稠密点图、但缺多视约束所以几何不一致;传统 SfM 几何一致、却只在稀疏视角下脆弱地恢复少量点。它的解法是两阶段流水线。第一阶段是改进的轻量 SfM:先用前馈模型初始化相机和点,经密集匹配器(RoMa+UFM)拿到全局对应、做循环一致性过滤,再按两级阈值分别用高置信少量点做稀疏 BA(仅 2048 点/视图)估相机、用较低阈值的更密匹配做 DLT 三角化得到几何一致的稀疏点云 \(\mathbf{X}_s\)。第二阶段才是 GGPT:先把前馈稠密预测 \(\mathbf{X}_d\) 与对应稀疏引导点之间的偏移做几何引导编码,再用 Point Transformer V3(53M 参数)在全局 3D 坐标系里联合处理稠密预测 \(\mathbf{X}_d\) 和稀疏引导 \(\mathbf{X}_s\),预测残差位移 \(\boldsymbol{\delta}\) 和置信度 \(c\),输出精炼后的稠密重建 \(\hat{\mathbf{X}}_d\)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
IN["稀疏视角 RGB"] --> FF["前馈网络 (VGGT 等)<br/>稠密预测 X_d"]
subgraph SFM["改进 SfM 管线"]
direction TB
A["VGGT 初始化相机/点"] --> B["密集匹配 RoMa+UFM<br/>+ 循环一致性过滤"]
B -->|"高阈值 ε_BA 少量点"| C["稀疏 BA 估相机"]
B -->|"低阈值 ε_DLT 较密匹配"| D["DLT 三角化"]
C --> D
D --> XS["几何一致稀疏点云 X_s"]
end
IN --> SFM
subgraph GGPT["GGPT 精炼 (PTv3)"]
direction TB
ENC["几何引导编码<br/>PE + 类型标记 + 偏移 Δ"]
ATT["PTv3 3D 注意力<br/>三维近邻 patch 自注意力"]
ENC --> ATT
end
FF --> ENC
XS --> ENC
ATT --> OUT["残差 δ + 置信度 c<br/>→ 精炼稠密重建 X̂_d"]
关键设计¶
1. 改进 SfM 管线:从稀疏视角 RGB 拿到几何一致的真实稀疏点云
稀疏视角下传统 SfM 脆弱、而此前融合几何引导的方法又依赖伪 GT 的 SfM 点或密集视频序列,真实稀疏场景里不可用。GGPT 用前馈模型(VGGT)初始化相机和点,经密集特征匹配(RoMa+UFM)得到全对应张量 \(\mathbf{T} \in \mathbb{R}^{N \times N \times W \times H \times 2}\)、循环一致性过滤(Eq.3),再按两级置信度阈值 \(\epsilon_{BA} > \epsilon_{DLT}\) 切出 BA 和 DLT 各自的匹配子集。关键巧思是把非线性优化和线性三角化分离:稀疏 BA 只拿极少量高置信点就能精确估相机,DLT 三角化则用较低阈值的更密匹配高效线性重建出大量 3D 点,两者各取所长。
2. 几何引导编码:把"稠密预测和几何先验差多少"直接喂给网络
光把稀疏点云丢进网络还不够,得让它知道该往哪修。稠密点 \(\mathbf{x}_d\) 的嵌入因此包含四样东西:自身位置编码 \(\text{PE}(\mathbf{x}_d)\)、类型标记 \(\mathbf{e}_{type(d)}\)、对应稀疏引导点的位置编码 \(\text{PE}(\mathbf{x}_{d \to s})\),以及偏移量 \(\Delta_{d \to s} = \mathbf{x}_{d \to s} - \mathbf{x}_s\)。其中 \(\Delta_{d \to s}\) 直接编码了"这个点需要修正多少"的信号,让网络显式感知稠密预测与几何先验之间的差异——消融里它是最关键的组件。
3. 3D 空间直接注意力 PTv3:在三维近邻而非像素上做注意力,天然保证跨视一致
此前的 refinement 都在 2D 图像空间(深度补全/图像 Transformer)操作,view-dependent、做不到真正的跨视一致。GGPT 改用 Point Transformer V3(8 层、53M 参数,远小于 2D ViT 的 ~300M)在 3D 近邻上做 patch-wise 自注意力,感受野由空间邻近性而非像素坐标定义,因此天然保证多视一致。为应对大场景,它把场景切成重叠立方体块(半径 = 0.2×场景半径),每块至多 40 万点独立处理、重叠区取平均。
损失函数 / 训练策略¶
- 置信度加权回归:\(\mathcal{L}_{conf} = \sum c \|\hat{\mathbf{x}} - \mathbf{x}_{GT}\| - \alpha \log c\),异方差形式让模型在不确定区域自动降低权重
- 恒等一致性:\(\mathcal{L}_{id} = \sum \|\hat{\mathbf{x}} - \mathbf{x}_{d \to s}\|\),鼓励有对应的稠密点向几何引导对齐
- 总损失 \(\mathcal{L} = \mathcal{L}_{conf} + \lambda_{id} \mathcal{L}_{id}\),\(\lambda_{id}=1, \alpha=0.2\)
- 训练:ScanNet++ 上 20k 序列,8×GH200 训练一天
实验关键数据¶
主实验 (AUC@5/10 cm ↑, 8视角)¶
| 方法 | ScanNet++ | ETH3D | T&T |
|---|---|---|---|
| VGGT | 19/32 | 23/36 | 25/39 |
| VGGT + Ours | 45/60 | 47/61 | 42/57 |
| Pi3 | 56/71 | 25/41 | 26/42 |
| Pi3 + Ours | 56/72 | 36/53 | 32/50 |
| MapAnything | 38/57 | 7/15 | 9/20 |
| MapAnything + Ours | 48/64 | 33/45 | 40/55 |
消融实验¶
| 消融项 | ScanNet++ 4v | ETH3D 4v | 备注 |
|---|---|---|---|
| 完整GGPT | 38/53 | 41/55 | Baseline |
| 去掉 \(\mathbf{X}_s\) 引导 | 可学但域外崩溃 | 大幅下降 | 引导不可或缺 |
| 去掉对应编码 \(\Delta_{d \to s}\) | 下降显著 | 下降显著 | 最关键组件 |
| 2D Transformer替代PTv3 | 域内差距小 | 域外差距大 | 3D空间注意力泛化优势 |
| Patch r=0.1 vs 0.2 vs 0.5 | r=0.2最优 | — | 小patch增强泛化 |
关键发现¶
- 域外泛化极强:仅在ScanNet++训练,提升5种方法在5个数据集上的表现,无需任何微调
- VGGT改进最大:AUC@5从19→45(+137%)在ScanNet++,从23→47(+104%)在ETH3D
- 域外数据惊艳:4D-DRESS上VGGT AUC@1/5cm 10/45→+Ours 66/77;MV-dVRK 8/33→45/61
- 3D vs 2D refinement:PTv3在跨域数据上显著优于2D Transformer方案,这是本质性提升
- SfM消融:密集匹配器 >> 稀疏匹配器(MASt3R);DLT比RANSAC三角化快数百倍精度相当;稀疏BA 512点即够用
亮点与洞察¶
- 在3D空间而非2D图像空间做几何融合是本质性提升——跨域泛化优势巨大
- "仅训练一个配置,无需微调即可改进多种前馈方法"的通用性设计理念极有价值
- 稀疏BA+DLT的分离策略简洁高效:非线性优化只用于高置信稀疏点,三角化用线性方法
- 几何引导编码的设计巧妙:\(\Delta_{d \to s}\)直接编码"修正量",给网络提供最直接的supervisory signal
局限与展望¶
- SfM错误传播:SfM与GGPT顺序执行,SfM如果失败(如极少纹理场景)refinement也无法挽救
- Patch拼接伪影:分块处理可能产生边界不连续,虽然重叠区取平均可缓解但无法完全消除
- 仅室内场景训练:大规模室外场景和多于16视角场景未验证
- 计算开销:需要额外运行密集匹配器和BA,总推理时间增加
相关工作与启发¶
- vs DUSt3R/VGGT:前馈预测快但不一致;GGPT作为通用后处理模块补齐几何一致性
- vs COLMAP:传统增量SfM在稀疏视角下脆弱;本文的全局SfM+密集匹配更鲁棒高效
- vs 2D深度补全方法:在图像空间refinement固有的view-dependent局限;3D空间注意力根本性解决跨视一致性
- 启发:3D空间处理 > 2D图像处理的范式值得在更多任务中验证(如语义分割、物体检测的多视融合)
评分¶
⭐⭐⭐⭐⭐ (5/5)
理由:方法设计优雅且有充分的动机(3D空间 vs 2D空间refinement),实验极其全面(5种前馈方法×5个数据集,含域外医学/人体数据),泛化能力惊人(仅训练一个配置即可通用提升),消融实验详尽且结论清晰。改进SfM管线和3D Point Transformer的设计都有独立价值。是sparse-view 3D重建领域的高质量工作。