CoMapGS: Covisibility Map-based Gaussian Splatting for Sparse Novel View Synthesis¶
会议: CVPR 2025
arXiv: 2503.20998
代码: youngkyoonjang.github.io/projects/comapgs
领域: 3D视觉
关键词: 稀疏视角合成, 3D高斯溅射, 共视性图, 点云增强, 不确定性感知
一句话总结¶
提出CoMapGS,利用像素级共视性图(covisibility map)来指导稀疏视角3DGS中初始点云增强和自适应加权监督,首次显式关注并恢复高不确定性的单视角区域。
研究背景与动机¶
稀疏视角新视角合成面临三个核心挑战:
- 区域不平衡监督:高共视区域因多视角存在被过度优化,单视角区域(仅在一个训练视角可见)缺乏多视角约束而被忽视
- 稀疏点云初始化:COLMAP在少量训练图像下的特征匹配点云非常稀疏,缺乏几何细节
- 高不确定性区域:单视角区域无多视角几何约束,现有方法要么忽略要么惩罚这些区域,而非利用其中的信息
现有方法(如FSGS、CoR-GS)主要关注高共视区域的优化,对单视角区域缺乏有效的恢复策略。本文核心创新是:利用共视性图量化每个像素的不确定性水平,并据此进行差异化的点云增强和监督加权。
方法详解¶
整体框架¶
CoMapGS基于CoR-GS等3DGS稀疏视角方法,增加三个关键步骤:(1) 使用MASt3R密集对应预测生成像素级共视性图;(2) 通过密集对应三角化和单目深度估计对齐,增强低/高不确定性区域的初始点云;(3) 训练proximity MLP分类器并结合共视性图进行自适应加权的proximity loss监督。
关键设计¶
-
共视性图生成与初始点云增强:
- 功能:量化每个像素的多视角共视次数,并据此分区域增强稀疏点云
- 核心思路:对每对训练图像使用MASt3R预测密集对应,累计每个像素的匹配次数\(M_i(x,y)\)得到共视性图。低不确定性区域(\(M_i \geq 1\))通过三角化密集对应点\(P_T\)补充COLMAP稀疏点云\(P_C\),保留距离\(P_C\)超过阈值\(\epsilon\)的新点。高不确定性区域(\(M_i = 0\)的单视角区域)通过单目深度估计反投影生成\(P_d^{high}\),学习一个各向异性缩放变换\(f_{scale}\)将其对齐到三角化点云的坐标系
- 设计动机:COLMAP的关键点匹配在少量图像下极度稀疏,而MASt3R的密集对应可大幅增加点云密度;单目深度虽然尺度任意但可通过已知区域学习对齐
-
共视性图加权的Proximity Loss:
- 功能:根据区域不确定性水平自适应调整监督强度
- 核心思路:训练3层MLP分类器\(f_p\)区分增强点云\(P_{final}\)(正样本)和随机远离点(负样本),输出proximity score \(s \in [0,1]\)。对视锥内高斯,权重\(w_{in} = 1/(M_i(\pi(g,\mathbf{H}_i)) + 1)\)与共视次数成反比——单视角区域权重最大(=1),高共视区域权重小。对视锥外高斯,当场景平均共视分数\(S > 0.7\)时启用基于\(S\)的线性衰减权重\(w_{out}\)
- 设计动机:高共视区域已被标准重建损失充分监督,proximity loss应更多关注欠约束的单视角区域;高共视场景中视锥外的高斯也应被适度约束
-
增强点云的分区域策略:
- 功能:将增强点云按共视性分为不同置信度区域分别处理
- 核心思路:最终点云\(P_{final} = P_u^{low} \cup P_s^{high}\),其中\(P_u^{low}\)来自三角化(高置信度),\(P_s^{high}\)来自对齐后的单目深度反投影(低置信度)。分类器和加权监督自然区分不同来源点的可靠性
- 设计动机:三角化点有多视角验证更可靠,深度反投影点虽精度较低但对填补空白区域至关重要
损失函数 / 训练策略¶
总损失添加proximity loss项:
\[\mathcal{L} = (1-\lambda)\mathcal{L}_1(I, I^*) + \lambda\mathcal{L}_{D\text{-}SSIM}(I, I^*) + \mathcal{L}_p\]
其中proximity loss \(\mathcal{L}_p = \frac{1}{|G|}\sum_{g \in G}(\chi(g)w_{in} + (1-\chi(g))w_{out}) \cdot (1-s)\),\(\chi(g)\)指示高斯是否在视锥内。该方法可无缝集成到FSGS和CoR-GS等现有方法中。
实验关键数据¶
主实验¶
| 数据集/视角 | 指标 | CoR-GS | CoR-GS + CoMapGS | 提升 |
|---|---|---|---|---|
| LLFF 3-view | PSNR/SSIM/LPIPS | 20.47/0.717/0.199 | 21.11/0.747/0.182 | +0.64/+0.030/-0.017 |
| LLFF 6-view | PSNR/SSIM/LPIPS | 24.78/0.844/0.116 | 25.20/0.854/0.108 | +0.42/+0.010/-0.008 |
| LLFF 9-view | PSNR/SSIM/LPIPS | 26.48/0.881/0.086 | 26.73/0.886/0.082 | +0.25/+0.005/-0.004 |
| Mip-NeRF 360 12-view | PSNR/SSIM/LPIPS | 19.16/0.574/0.414 | 19.68/0.591/0.394 | +0.52/+0.017/-0.020 |
| Mip-NeRF 360 24-view | PSNR/SSIM/LPIPS | 23.32/0.729/0.271 | 23.46/0.734/0.264 | +0.14/+0.005/-0.007 |
消融实验(LLFF 6-view)¶
| 配置 | PSNR↑ | SSIM↑ | LPIPS↓ | 说明 |
|---|---|---|---|---|
| CoR-GS baseline | 24.777 | 0.844 | 0.116 | 基线 |
| + Proximity loss only | 24.787 | 0.845 | 0.116 | 无点云增强时提升有限 |
| + 低不确定性点云增强△ | 24.90 | 0.849 | 0.112 | 密集共视区域点云 |
| + △ + Proximity loss | 25.153 | 0.854 | 0.109 | 协同效应明显 |
| + 完整点云增强 | 25.076 | 0.852 | 0.109 | 加入单视角区域点 |
| 完整CoMapGS | 25.204 | 0.854 | 0.108 | 所有组件 |
关键发现¶
- 初始点云增强和加权监督有协同效应:单独使用proximity loss仅提升0.01 PSNR,但配合增强点云后提升0.25+
- 视角越少提升越大(3-view提升0.64 PSNR vs 9-view提升0.25),说明该方法对极稀疏场景尤其有效
- 即使仅增强低不确定性区域的点云(△)也有显著提升(PSNR +0.12,LPIPS -0.004),说明点云密度是关键瓶颈
- Mip-NeRF 360的LPIPS提升特别明显(-0.020),因为室外场景有更多高不确定性区域
亮点与洞察¶
- 首次显式关注单视角区域:以往方法忽略或惩罚高不确定性区域,本文反其道行之,通过proximity loss更强力地约束这些区域
- 共视性图的概念简洁有力,将复杂的多视角几何关系压缩为每个像素一个整数计数
- 即插即用设计:CoMapGS可直接集成到FSGS和CoR-GS中,不改变原有策略
局限与展望¶
- 依赖MASt3R进行密集对应预测,增加了预处理计算成本
- Proximity MLP分类器是离线训练的,不参与3DGS的在线优化,可能无法充分利用训练过程中几何的变化
- 单目深度对齐使用简单的线性回归(各向异性缩放),可能不足以处理复杂的非线性深度尺度变化
- 在3-view的PSNR上略低于ReconFusion(扩散模型方法),但SSIM/LPIPS更优
相关工作与启发¶
- 与DyCheck提出的共视性概念不同,本文将covisibility从评估工具扩展为训练信号
- 点云增强策略(密集对应三角化+深度对齐)可独立使用,对所有3DGS方法有增益
- Proximity classifier的思路类似于SDF场的占用预测,但更轻量化,值得在其他场景重建任务中尝试
评分¶
- 新颖性: ⭐⭐⭐⭐ 共视性图指导的自适应监督思路新颖,首次关注单视角区域恢复
- 实验充分度: ⭐⭐⭐⭐ LLFF和Mip-NeRF 360多设置评估,消融完整,与多个baseline对比
- 写作质量: ⭐⭐⭐⭐ 符号定义严谨,方法描述系统化,图例清晰
- 价值: ⭐⭐⭐⭐ 实用的即插即用模块,对稀疏视角合成有持续性的贡献