ResGS: Residual Densification of 3D Gaussian for Efficient Detail Recovery¶
元信息¶
- 会议: ICCV 2025
- arXiv: 2412.07494
- 代码: 项目页面
- 领域: 3D视觉 · 新视角合成
- 关键词: 3D高斯溅射, 残差稠密化, 渐进式训练, 新视角合成, 细节恢复
一句话总结¶
提出残差分裂(residual split)操作替代3D-GS中split/clone的二元选择机制,配合图像金字塔渐进监督和可变梯度阈值选择策略,自适应地同时解决过重建和欠重建问题,在减少高斯数量的同时实现SOTA渲染质量。
研究背景与动机¶
3D高斯溅射(3D-GS)在新视角合成中取得了高保真度和实时渲染速度,但其稠密化机制存在根本性缺陷:
split/clone二选一困境:当前方法使用固定阈值 \(\tau_s\) 决定稠密化操作——尺度 \(s > \tau_s\) 执行split(拆分大高斯),\(s < \tau_s\) 执行clone(克隆小高斯)。但两种操作分别针对过重建和欠重建,无法同时解决
阈值选择矛盾: - 高阈值 → split不足 → 细节模糊(过重建未解决) - 低阈值 → clone被抑制 → 几何缺失(欠重建未补偿)
冗余问题:3D-GS倾向于先split再clone,导致场景中高斯尺度趋同,无纹理区域被大量小高斯冗余覆盖
核心目标:设计一种自适应的稠密化操作,消除split/clone的二元选择困境。
方法详解¶
残差分裂(Residual Split)¶
核心思想是对任何需要稠密化的高斯 \(G_i\),生成一个缩小版副本作为残差补充,同时降低原始高斯的不透明度:
第一步:生成缩小副本 \(G_j\)
新高斯继承原始高斯的旋转、球谐系数和不透明度,尺度缩小 \(\lambda_s\) 倍,位置从原始高斯的分布中随机采样。
第二步:降低原始高斯不透明度
其中 \(\beta\) 为预定义因子(默认0.3),防止两个高斯重叠区域密度过高。
自适应性分析: - 欠重建区域:原始高斯尺度不变,新增小高斯扩展了覆盖范围→补充缺失几何 - 过重建区域:小高斯提供更精细粒度的拟合→恢复细节 - 无纹理区域:少量大高斯即可覆盖,避免大量同尺度小高斯的冗余
图像金字塔渐进监督¶
将训练过程分为 \(L\) 个阶段,构建 \(L\) 层图像金字塔 \(\{\mathcal{I}_i\}_{i=1}^L\):
- 第 \(i\) 阶段使用第 \(i\) 层分辨率的图像进行监督
- 早期阶段关注整体结构(低频),后期关注精细细节(高频)
- 解耦了覆盖优化和细节优化,降低优化难度
可变梯度阈值选择策略¶
为每个高斯 \(G_i\) 分配细度等级 \(l_i\)(初始高斯 \(l_i=0\),被稠密化产生的新高斯 \(l_j = l_i + 1\))。
每个阶段分为 \(K\) 个子阶段,总共 \(L \times K\) 个子阶段。在第 \(k\) 个子阶段:
其中 \(\alpha > 1\)。效果:随训练推进,粗粒度高斯(\(l_i\) 小)的稠密化阈值逐渐降低,鼓励它们进一步细化,从而在后期引入更精细的结构。
实现细节¶
- \(L=3\), \(K=3\)(共9个子阶段)
- 第一阶段2500步,第二阶段3500步,剩余步数为第三阶段
- \(\alpha=2^{1/3}\), \(\lambda_s=1.6\), \(\beta=0.3\)
- 总训练30K步,稠密化在12000步停止
- 损失函数:\(\mathcal{L}_1\) + D-SSIM(与原始3D-GS一致)
实验¶
主实验:三个数据集定量对比¶
| 方法 | Mip-NeRF360 PSNR↑ | SSIM↑ | LPIPS↓ | 内存 | T&T PSNR↑ | SSIM↑ | LPIPS↓ | DB PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|---|---|---|---|---|---|
| 3D-GS | 27.21 | 0.815 | 0.214 | 734MB | 23.14 | 0.841 | 0.183 | 29.41 | 0.903 | 0.243 |
| Scaffold-GS | 27.69 | 0.812 | 0.225 | 176MB | 23.96 | 0.853 | 0.177 | 30.21 | 0.906 | 0.254 |
| AbsGS | 27.49 | 0.820 | 0.191 | 728MB | 23.73 | 0.853 | 0.162 | 29.67 | 0.902 | 0.236 |
| FreGS | 27.85 | 0.826 | 0.209 | - | 23.96 | 0.849 | 0.178 | 29.93 | 0.904 | 0.240 |
| Mini-Splatting-D | 27.51 | 0.831 | 0.176 | 1.11GB | 23.23 | 0.853 | 0.140 | 29.88 | 0.906 | 0.211 |
| Ours (AbsGS) | 28.00 | 0.833 | 0.174 | 698MB | 24.38 | 0.867 | 0.132 | 29.91 | 0.902 | 0.227 |
| Ours-Small | 27.94 | 0.830 | 0.191 | 342MB | 24.33 | 0.862 | 0.150 | 30.01 | 0.906 | 0.234 |
在Mip-NeRF360上全指标SOTA;在Tanks&Temples上SSIM和LPIPS最优;小模型版本在显著降低内存的同时保持高质量。
消融实验¶
| 配置 | Mip-NeRF360 PSNR↑ | SSIM↑ | LPIPS↓ | Deep Blending PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|---|---|---|
| Base | 27.41 | 0.817 | 0.189 | 29.60 | 0.899 | 0.240 |
| Base + RS | 27.66 | 0.825 | 0.183 | 29.68 | 0.900 | 0.233 |
| Base + IP | 27.54 | 0.823 | 0.182 | 29.05 | 0.896 | 0.245 |
| Base + RS + IP | 27.88 | 0.831 | 0.178 | 29.82 | 0.902 | 0.230 |
| Base + RS + IP + VT (full) | 28.00 | 0.833 | 0.174 | 29.91 | 0.902 | 0.227 |
(RS=残差分裂,IP=图像金字塔,VT=可变梯度阈值)
残差分裂的跨方法兼容性¶
| 方法 | PSNR↑ (MipNeRF360) | 内存 | 改进 |
|---|---|---|---|
| 3D-GS | 27.21 | 734MB | — |
| 3D-GS + residual split | 27.44 | 586MB | +0.23, -20%内存 |
| AbsGS | 27.49 | 728MB | — |
| AbsGS + residual split | 27.71 | 712MB | +0.22 |
| Pixel-GS | 27.52 | 1.32GB | — |
| Pixel-GS + residual split | 27.62 | 1.00GB | +0.10, -24%内存 |
| Mini-Splatting-D | 27.51 | 1.11GB | — |
| Mini-Splatting-D + residual split | 27.64 | 1.04GB | +0.13 |
在所有4种3D-GS变体上,residual split均带来PSNR提升和内存减少。
关键发现¶
- RS与IP互补:单独使用图像金字塔在弱纹理区域(Deep Blending)反而降性能(小高斯过拟合),但结合RS后反而受益
- 超参鲁棒性:\(\beta \in [0.05, 0.4)\)、\(\lambda_s \in [1.55, 2.0]\) 范围内LPIPS仅差0.006
- 效率优势:小模型版本FPS最快(141-206)、训练时间最短(11-20分钟),同时保持接近SOTA的质量
亮点与洞察¶
- 问题诊断精准:准确识别出split/clone二元选择是3D-GS的根本瓶颈,而非梯度计算或学习率等技术细节
- 设计简洁优雅:残差分裂的核心操作——缩小复制+降低不透明度——极其简单,却同时解决过重建和欠重建
- 即插即用:可直接替换任意3D-GS变体的split/clone操作,无需修改其他组件即获得提升
- 粗到细的协同设计:金字塔监督、可变阈值、残差分裂三者形成有机配合——任何单一组件的效果都不如组合
局限性¶
- 在Deep Blending等弱纹理数据集上未达到所有指标最优,缺乏对弱纹理区域的显式正则化
- 可变梯度阈值引入了额外超参(\(\alpha\), \(K\)),增加了调参复杂度
- 仅在静态场景上验证,未扩展到动态场景或SLAM等下游任务
- 渐进式训练的多阶段划分比例(2500/3500/剩余)依赖手动设置
相关工作与启发¶
- 3D-GS改进:AbsGS(绝对梯度累积), Pixel-GS(像素级分析), Mini-Splatting(重组空间位置), GaussianPro(渐进传播)
- 渐进式训练:FreGS(频域渐进正则化), Octree-GS(八叉树深度渐进), Pyramid NeRF(图像金字塔+隐式场细分)
- 高效3D-GS:Scaffold-GS(锚点+MLP), Mip-Splatting(抗锯齿滤波)
启发:稠密化策略是3D-GS质量的核心瓶颈,而非网络架构或损失函数。"残差"思想在3D高斯中的成功应用,暗示ResNet的理念可能在更多显式表示中发挥作用。
评分¶
- 新颖性:★★★★☆ — 残差分裂概念新颖且直觉清晰,但整体框架仍在3D-GS改良范畴
- 技术深度:★★★★☆ — 三个组件的协同设计精巧,消融实验充分揭示了各自作用
- 实用性:★★★★★ — 即插即用、提升显著、训练高效,实用价值极高