SurfSplat: Conquering Feedforward 2D Gaussian Splatting with Surface Continuity Priors¶
会议: ICLR 2026
arXiv: 2602.02000
代码: https://hebing-sjtu.github.io/SurfSplat-website/
领域: 3D视觉
关键词: 2D高斯溅射, 前馈3D重建, 表面连续性, 高分辨率渲染一致性, 稀疏视角
一句话总结¶
SurfSplat 提出基于2DGS的前馈3D重建框架,通过表面连续性先验将高斯的旋转和尺度与邻域位置绑定、以及强制透明度混合策略解决颜色偏差,并引入HRRC指标揭示高分辨率下的重建质量差异。
研究背景与动机¶
现有前馈3DGS方法在标准分辨率下的NVS指标看似出色,但存在一个被忽视的严重问题:
退化的3D场景:重建结果实际是离散的、颜色偏差的点云而非连续表面,近距离或偏轴视角下暴露严重伪影(空洞、颜色偏差、表面断裂)
各向异性利用不足:可学习的高斯体难以仅通过梯度监督解耦几何和纹理,导致高斯退化为近球形
评估指标失效:标准PSNR/SSIM/LPIPS在原始分辨率下无法捕获几何不准确性,掩盖了真实的重建质量
作者观察到:直接训练2DGS比3DGS更具挑战——2D高斯的面片特性使得微小几何扰动造成渲染输出的大幅偏差,在有限监督下问题加剧。
方法详解¶
整体框架¶
SurfSplat 采用双路径编码器(单视角Depth Anything V2 + 多视角交叉注意力),融合特征后通过U-Net回归中间属性(深度、尺度乘子、外观分量),最终通过表面连续性先验和强制透明度混合转换为标准2DGS属性。
关键设计¶
- 表面连续性先验 (Surface Continuity Prior)
核心假设:真实场景中可见几何主要由平滑连续表面组成,空间相邻的表面元对应图像中的相邻像素。基于此约束高斯的旋转和尺度:
旋转:对像素 \((h,w)\) 的3D位置 \(\mathbf{p}_0\) 及其邻域,用Sobel滤波器计算两个切向量 \(\mathbf{t}_1, \mathbf{t}_2\),通过叉积得到局部法线 \(\mathbf{n}\),再用Rodrigues公式计算旋转矩阵:
$\mathbf{R} = \mathbf{I} + [\mathbf{v}]_\times + \frac{1-c}{\|\mathbf{v}\|^2}[\mathbf{v}]_\times^2$
其中 \(\mathbf{v} = \mathbf{n}_0 \times \mathbf{n}\),\(c = \mathbf{n}_0^\top \mathbf{n}\)。
尺度:基于图像空间邻域距离的粗估计 \(\bar{\sigma}_u, \bar{\sigma}_v\),网络预测 \([1/3, 3]\) 范围内的尺度乘子 \(\hat{\sigma}_u, \hat{\sigma}_v\),最终尺度 \(\sigma_u = \bar{\sigma}_u \hat{\sigma}_u\)。2DGS的深度轴尺度 \(\sigma_w\) 固定为零。
这样,高斯属性不是独立回归,而是从预测的3D位置推导,确保空间一致性。
- 强制透明度混合 (Forced Alpha Blending)
表面连续性先验下模型倾向学习高不透明度高斯,导致遮挡的高斯在alpha混合中贡献极小,无法学习3D结构。解决方案:
- 用上界 $\tau_{\text{opa}} < 1$(设为0.6)裁剪不透明度,确保所有高斯参与渲染
- 将RGB颜色初始化到球谐基的DC分量
- 对渲染输出做透明度归一化补偿:$C = C/\alpha$ 当 $\alpha \geq \tau_\alpha$
- HRRC 高分辨率渲染一致性指标
在\(2\times\)和\(4\times\)分辨率下渲染重建场景,与双三次上采样的GT比较: \(\text{HRRC}_{\text{metric}} = \text{metric}(\hat{I}^{HR}, \hat{I}^{GT\uparrow})\)
能有效暴露稀疏性空洞、退化高斯形状和不连续性,区分真正恢复3D几何的模型与仅记忆稀疏视角的模型。
损失函数 / 训练策略¶
\(\lambda = 0.05\),在256×256分辨率下训练。Depth Anything V2骨干学习率 \(2 \times 10^{-6}\),其他层 \(2 \times 10^{-4}\)。
实验关键数据¶
主实验¶
| 方法 | RE10K 256 PSNR↑ | RE10K 512 PSNR↑ | RE10K 1024 PSNR↑ | RE10K Avg PSNR↑ |
|---|---|---|---|---|
| DepthSplat | 27.504 | 20.031 | 16.385 | 21.307 |
| MVSplat | 26.359 | 20.408 | 17.966 | 21.578 |
| Ours-L | 27.537 | 26.331 | 24.897 | 26.255 |
消融实验¶
| 配置 | 标准PSNR | HRRC 2× PSNR | HRRC 4× PSNR | 说明 |
|---|---|---|---|---|
| 3DGS基线 (DepthSplat) | 27.504 | 20.031 | 16.385 | HRRC严重退化 |
| 2DGS (SurfSplat-L) | 27.537 | 26.331 | 24.897 | HRRC保持稳定 |
| w/o 表面先验 | 降低 | 大幅降低 | 大幅降低 | 表面不连续 |
| w/o 强制混合 | 降低 | 降低 | 降低 | 颜色偏差 |
关键发现¶
- HRRC揭示真相:DepthSplat在标准分辨率(27.5)表现最佳,但1024分辨率猛降到16.4;SurfSplat从27.5仅降到24.9,证明真正重建了3D结构
- MVSplat、TranSplat在HRRC下同样大幅退化(1024下仅18左右),说明3DGS前馈方法普遍存在表面退化问题
- 跨数据集(DL3DV、ScanNet)评估验证了泛化能力
- pixelSplat(多高斯/像素)在HRRC上反而较好(24.9),因为冗余高斯部分弥补了表面空洞
亮点与洞察¶
- 问题揭示价值高:指出了前馈3DGS领域被广泛忽视的表面退化问题,HRRC指标具有推广意义
- 几何驱动属性预测:用Sobel滤波+Rodrigues公式从位置推导旋转这一设计简洁优雅,物理直觉清晰
- 2DGS在前馈场景的首次成功:证明2DGS(面片)比3DGS(椭球)在前馈重建中更适合,提供更强的各向异性和几何精度
- 强制混合的巧妙设计:通过限制不透明度上界解决局部最优问题,保证多层表现力
局限与展望¶
- 在标准分辨率下仅勉强超过DepthSplat,优势主要体现在HRRC
- 每像素单高斯的设定,对复杂场景的覆盖可能不够
- HRRC指标依赖双三次上采样GT,并非真正的高分辨率GT
- 仅评估静态场景,动态场景扩展是未来方向
相关工作与启发¶
- Huang et al. (2024) 提出2DGS用于逐场景优化,SurfSplat首次将其引入前馈框架
- DepthSplat (Xu et al., 2024b) 的深度交互设计被部分继承,但SurfSplat用表面先验替代了独立属性回归
- HRRC指标的设计思路可推广到其他3D生成任务的评估
评分¶
- 新颖性: ⭐⭐⭐⭐ 表面连续性先验和HRRC指标有新意,但组件设计属于成熟技术的组合应用
- 实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、HRRC多分辨率、多骨干变体、跨数据集评估,非常全面
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,可视化对比有说服力,数学推导完整
- 价值: ⭐⭐⭐⭐ HRRC指标和表面退化问题的揭示对社区有重要参考价值