Plana3R: Zero-shot Metric Planar 3D Reconstruction via Feed-Forward Planar Splatting¶
会议: NeurIPS 2025
arXiv: 2510.18714
代码: 项目页面
领域: 3D视觉
关键词: 平面3D重建, 度量重建, 平面splatting, 室内场景, 前馈模型
一句话总结¶
提出Plana3R,一个无需位姿和平面标注的前馈框架,从未配对的双视角图像中预测稀疏3D平面基元和度量尺度相对位姿,实现室内场景的零样本度量平面3D重建。
研究背景与动机¶
室内环境是人类生活的主要场所,创建其数字孪生对很多应用至关重要。室内场景天然富含平面结构(地板、墙壁、桌面等),因此平面基元是一种非常适合室内3D重建的紧凑表示。
现有方法的两个关键限制:
标注依赖:前馈平面重建方法(如SparsePlanes、NOPE-SAC)需要精确的平面掩码和3D平面标注进行训练,这种密集标注稀缺且制备复杂,严重限制了可用数据量和模型泛化能力。
位姿依赖:逐场景优化方法(如PlanarSplatting)需要精确配准的多视角稠密图像,在稀疏无位姿场景下无法使用。
本文的核心insight:室内环境的尺寸遵循人体尺度分布,平面3D表示天然具备预测度量3D几何的潜力。通过利用PlanarSplatting的可微平面渲染技术,可以仅用深度图和法线图作为监督(远比平面标注易获取),训练Transformer前馈模型直接预测稀疏平面基元和度量位姿。
方法详解¶
整体框架¶
输入为同一场景的两张无位姿图像 \(I^1, I^2\) 及其内参 \(\mathbf{K}^1, \mathbf{K}^2\)。网络 \(\mathcal{F}\) 输出一组3D平面基元(深度 \(d_\pi\)、半径 \(\mathbf{r}_\pi\)、四元数 \(\mathbf{q}_\pi\))和6-DoF度量相对位姿 \(P_{\text{rel}}\)。通过PlanarSplatting的CUDA可微渲染器将平面基元渲染为深度图和法线图,与GT进行比较实现梯度反传。
关键设计¶
-
基于ViT的编码-解码架构:采用Siamese ViT编码器提取特征 \(F^i \in \mathbb{R}^{\frac{H}{16} \times \frac{W}{16} \times D_{\text{enc}}}\),然后通过带交叉注意力的Transformer解码器生成低分辨率嵌入 \(G_{\text{low}}^i\)。位姿头从拼接的双视角特征回归相对位姿。编码器和解码器用DUSt3R的预训练权重初始化。
-
层次化基元预测架构(HPPA):从 \(G_{\text{low}}\) 用三个回归头预测低分辨率(\(\frac{H}{16} \times \frac{W}{16}\))平面基元。通过反卷积网络上采样得到 \(G_{\text{high}}\),用同一组回归头预测高分辨率(\(\frac{H}{8} \times \frac{W}{8}\))基元。关键问题是哪些区域用低分辨率、哪些用高分辨率。本文用一个简单启发式:计算低分辨率法线图 \(\mathbf{N}_{\text{low}}^{\text{patch}}\) 的梯度幅值,梯度超过阈值 \(g_{\text{th}}=0.5\) 的区域切换为高分辨率基元。法线变化大的区域需要更多小平面拟合,变化小的区域用少量大平面即可。
-
无需平面标注的监督:利用PlanarSplatting的CUDA可微渲染器将平面基元渲染为全分辨率深度图和法线图,直接与GT深度/法线图比较。法线图GT用Metric3Dv2生成伪标签。这使得模型可在只有深度和法线标注的大规模双视角数据集上训练,无需任何平面级标注。
-
平面合并:预测的平面基元通过法线和距离的阈值合并为语义一致的大平面,实现平面级实例分割——这是一种自然涌现的能力,无需额外训练。
损失函数 / 训练策略¶
三类损失:
-
Patch损失(热身阶段):直接在patch分辨率监督深度和法线:\(\mathcal{L}_*^{\text{patch}} = \alpha_1\|1 - (\mathbf{N}_*^{\text{patch}})^\top\mathbf{N}_*^{\text{r.gt}}\|_1 + \alpha_1\|\mathbf{N}_*^{\text{patch}} - \mathbf{N}_*^{\text{r.gt}}\|_1 + \alpha_2\|\mathbf{D}_*^{\text{patch}} - \mathbf{D}_*^{\text{r.gt}}\|_1\)
-
渲染损失:通过可微渲染在全分辨率上监督:\(\mathcal{L}_*^{\text{render}} = \beta_1\|1 - (\mathbf{N}_*^{\text{render}})^\top\mathbf{N}^{\text{gt}}\|_1 + \beta_1\|\mathbf{N}_*^{\text{render}} - \mathbf{N}^{\text{gt}}\|_1 + \beta_2\|\mathbf{D}_*^{\text{render}} - \mathbf{D}^{\text{gt}}\|_1\)
-
位姿损失:\(\mathcal{L}^{\text{pose}} = \gamma_1\|\mathbf{t}^{\text{gt}} - \mathbf{t}\|_1 + \gamma_2\|\mathbf{q}^{\text{gt}} - \frac{\mathbf{q}}{\|\mathbf{q}\|}\|_1 + \gamma_3(1 - \frac{\mathbf{t} \cdot \mathbf{t}^{\text{gt}}}{\|\mathbf{t}\|\|\mathbf{t}^{\text{gt}}\|})\)
训练配置:用4个数据集约400万图像对训练,先1 epoch热身仅用patch和位姿损失,再10 epoch用全部三种损失。输入分辨率 \(512 \times 384\)。总训练量256 GPU-days(H20 GPU)。
实验关键数据¶
主实验(双视角重建与位姿估计)¶
| 方法 | ScanNetV2 Chamfer↓ | ScanNetV2 F-score↑ | ScanNetV2 Trans Med(m)↓ | ScanNetV2 Rot Med(°)↓ |
|---|---|---|---|---|
| SparsePlanes | - | - | 0.56 | 15.46 |
| NOPE-SAC | 0.26 | 61.86 | 0.41 | 8.27 |
| MASt3R | 0.21 | 74.92 | 0.11 | 2.17 |
| Plana3R | 0.11 | 92.52 | 0.07 | 2.01 |
在Matterport3D上(零样本,未见过训练数据),Plana3R的F-score达56.63,超过在该数据集上训练的NOPE-SAC(54.96)。
消融实验(单目深度估计 NYUv2)¶
| 方法 | Rel↓ | RMSE↓ | δ₁↑ |
|---|---|---|---|
| PlaneRecTR | 0.157 | 0.547 | 74.2 |
| MASt3R | 0.152 | 0.51 | 83.0 |
| Plana3R | 0.132 | 0.463 | 86.4 |
Plana3R在从未见过的NYUv2上实现零样本度量深度估计,超越MASt3R。
关键发现¶
- 稀疏平面基元表示在结构化室内环境中比稠密点云更紧凑高效,同时保持高精度
- 平面合并后自然涌现的平面分割能力在Replica数据集上优于需要平面标注训练的PlaneRecTR
- 层次化基元预测通过梯度阈值自适应选择分辨率,实现768-3072之间的基元数量灵活调节
- 多视角重建通过逐对推理即可扩展到8帧以上输入
亮点与洞察¶
- 用可微平面渲染替代显式平面标注的监督方式非常优雅,大幅降低了数据需求
- 层次化基元预测的启发式(法线梯度阈值)简单有效,避免了额外学习开销
- 度量尺度的直接预测受益于室内场景的人体尺度先验,这一观察很有见地
- 平面分割作为紧凑表示的副产品自然涌现,体现了好表示自带上游能力的理念
局限与展望¶
- 当前仅支持双视角逐对推理,多视角需要多次前向传播
- 平面表示对非平面区域(曲面、复杂物体)建模能力有限
- 对法线伪标签(Metric3Dv2)的质量敏感
- 梯度阈值 \(g_{\text{th}}\) 需要手动设置,未自适应学习
相关工作与启发¶
- DUSt3R / MASt3R:前馈双视角3D重建基础模型,但用稠密点云表示
- PlanarSplatting:本文核心依赖的可微平面渲染组件,提供CUDA加速的平面基元渲染
- SparsePlanes / NOPE-SAC:此前的双视角平面重建方法,需要平面标注
- 启发:利用领域结构先验(如室内平面性)选择更紧凑的表示,可在少量基元上超越稠密方法
评分¶
- 新颖性: ⭐⭐⭐⭐ 无标注平面重建+层次化基元预测+度量尺度预测的组合创新
- 实验充分度: ⭐⭐⭐⭐⭐ 跨4个数据集、5个任务的全面评估,零样本泛化令人印象深刻
- 写作质量: ⭐⭐⭐⭐ 模块化描述清晰,公式规范
- 价值: ⭐⭐⭐⭐ 为室内3D重建提供了一种更紧凑、更有语义的替代方案