ResGS: Residual Densification of 3D Gaussian for Efficient Detail Recovery¶

元信息¶

会议: ICCV 2025
arXiv: 2412.07494
代码: 项目页面
领域: 3D视觉 · 新视角合成
关键词: 3D高斯溅射, 残差稠密化, 渐进式训练, 新视角合成, 细节恢复

一句话总结¶

提出残差分裂（residual split）操作替代3D-GS中split/clone的二元选择机制，配合图像金字塔渐进监督和可变梯度阈值选择策略，自适应地同时解决过重建和欠重建问题，在减少高斯数量的同时实现SOTA渲染质量。

研究背景与动机¶

3D高斯溅射（3D-GS）在新视角合成中取得了高保真度和实时渲染速度，但其稠密化机制存在根本性缺陷：

split/clone二选一困境：当前方法使用固定阈值 \(\tau_s\) 决定稠密化操作——尺度 \(s > \tau_s\) 执行split（拆分大高斯），\(s < \tau_s\) 执行clone（克隆小高斯）。但两种操作分别针对过重建和欠重建，无法同时解决

阈值选择矛盾： - 高阈值 → split不足 → 细节模糊（过重建未解决） - 低阈值 → clone被抑制 → 几何缺失（欠重建未补偿）

冗余问题：3D-GS倾向于先split再clone，导致场景中高斯尺度趋同，无纹理区域被大量小高斯冗余覆盖

核心目标：设计一种自适应的稠密化操作，消除split/clone的二元选择困境。

方法详解¶

残差分裂（Residual Split）¶

核心思想是对任何需要稠密化的高斯 \(G_i\)，生成一个缩小版副本作为残差补充，同时降低原始高斯的不透明度：

第一步：生成缩小副本 \(G_j\)

\[\mathbf{S}_j = \frac{1}{\lambda_s} \mathbf{S}_i\]

\[\mathbf{R}_j = \mathbf{R}_i, \quad SH_j = SH_i, \quad o_j = o_i\]

\[\boldsymbol{\mu}_j \sim \mathcal{N}(\boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i)\]

新高斯继承原始高斯的旋转、球谐系数和不透明度，尺度缩小 \(\lambda_s\) 倍，位置从原始高斯的分布中随机采样。

第二步：降低原始高斯不透明度

\[o'_i = \beta \cdot o_i\]

其中 \(\beta\) 为预定义因子（默认0.3），防止两个高斯重叠区域密度过高。

自适应性分析： - 欠重建区域：原始高斯尺度不变，新增小高斯扩展了覆盖范围→补充缺失几何 - 过重建区域：小高斯提供更精细粒度的拟合→恢复细节 - 无纹理区域：少量大高斯即可覆盖，避免大量同尺度小高斯的冗余

图像金字塔渐进监督¶

将训练过程分为 \(L\) 个阶段，构建 \(L\) 层图像金字塔 \(\{\mathcal{I}_i\}_{i=1}^L\)：

\[(H_i^v, W_i^v) = (H_L^v / 2^{L-i}, W_L^v / 2^{L-i})\]

第 \(i\) 阶段使用第 \(i\) 层分辨率的图像进行监督
早期阶段关注整体结构（低频），后期关注精细细节（高频）
解耦了覆盖优化和细节优化，降低优化难度

可变梯度阈值选择策略¶

为每个高斯 \(G_i\) 分配细度等级 \(l_i\)（初始高斯 \(l_i=0\)，被稠密化产生的新高斯 \(l_j = l_i + 1\)）。

每个阶段分为 \(K\) 个子阶段，总共 \(L \times K\) 个子阶段。在第 \(k\) 个子阶段：

\[\tau_{k,i} = \begin{cases} \tau, & l_i \geq k \\ \frac{\tau}{\alpha^{k-l_i}}, & l_i < k \end{cases}\]

其中 \(\alpha > 1\)。效果：随训练推进，粗粒度高斯（\(l_i\) 小）的稠密化阈值逐渐降低，鼓励它们进一步细化，从而在后期引入更精细的结构。

实现细节¶

\(L=3\), \(K=3\)（共9个子阶段）
第一阶段2500步，第二阶段3500步，剩余步数为第三阶段
\(\alpha=2^{1/3}\), \(\lambda_s=1.6\), \(\beta=0.3\)
总训练30K步，稠密化在12000步停止
损失函数：\(\mathcal{L}_1\) + D-SSIM（与原始3D-GS一致）

实验¶

主实验：三个数据集定量对比¶

方法	Mip-NeRF360 PSNR↑	SSIM↑	LPIPS↓	内存	T&T PSNR↑	SSIM↑	LPIPS↓	DB PSNR↑	SSIM↑	LPIPS↓
3D-GS	27.21	0.815	0.214	734MB	23.14	0.841	0.183	29.41	0.903	0.243
Scaffold-GS	27.69	0.812	0.225	176MB	23.96	0.853	0.177	30.21	0.906	0.254
AbsGS	27.49	0.820	0.191	728MB	23.73	0.853	0.162	29.67	0.902	0.236
FreGS	27.85	0.826	0.209	-	23.96	0.849	0.178	29.93	0.904	0.240
Mini-Splatting-D	27.51	0.831	0.176	1.11GB	23.23	0.853	0.140	29.88	0.906	0.211
Ours (AbsGS)	28.00	0.833	0.174	698MB	24.38	0.867	0.132	29.91	0.902	0.227
Ours-Small	27.94	0.830	0.191	342MB	24.33	0.862	0.150	30.01	0.906	0.234

在Mip-NeRF360上全指标SOTA；在Tanks&Temples上SSIM和LPIPS最优；小模型版本在显著降低内存的同时保持高质量。

消融实验¶

配置	Mip-NeRF360 PSNR↑	SSIM↑	LPIPS↓	Deep Blending PSNR↑	SSIM↑	LPIPS↓
Base	27.41	0.817	0.189	29.60	0.899	0.240
Base + RS	27.66	0.825	0.183	29.68	0.900	0.233
Base + IP	27.54	0.823	0.182	29.05	0.896	0.245
Base + RS + IP	27.88	0.831	0.178	29.82	0.902	0.230
Base + RS + IP + VT (full)	28.00	0.833	0.174	29.91	0.902	0.227

（RS=残差分裂，IP=图像金字塔，VT=可变梯度阈值）

残差分裂的跨方法兼容性¶

方法	PSNR↑ (MipNeRF360)	内存	改进
3D-GS	27.21	734MB	—
3D-GS + residual split	27.44	586MB	+0.23, -20%内存
AbsGS	27.49	728MB	—
AbsGS + residual split	27.71	712MB	+0.22
Pixel-GS	27.52	1.32GB	—
Pixel-GS + residual split	27.62	1.00GB	+0.10, -24%内存
Mini-Splatting-D	27.51	1.11GB	—
Mini-Splatting-D + residual split	27.64	1.04GB	+0.13

在所有4种3D-GS变体上，residual split均带来PSNR提升和内存减少。

关键发现¶

RS与IP互补：单独使用图像金字塔在弱纹理区域（Deep Blending）反而降性能（小高斯过拟合），但结合RS后反而受益
超参鲁棒性：\(\beta \in [0.05, 0.4)\)、\(\lambda_s \in [1.55, 2.0]\) 范围内LPIPS仅差0.006
效率优势：小模型版本FPS最快（141-206）、训练时间最短（11-20分钟），同时保持接近SOTA的质量

亮点与洞察¶

问题诊断精准：准确识别出split/clone二元选择是3D-GS的根本瓶颈，而非梯度计算或学习率等技术细节
设计简洁优雅：残差分裂的核心操作——缩小复制+降低不透明度——极其简单，却同时解决过重建和欠重建
即插即用：可直接替换任意3D-GS变体的split/clone操作，无需修改其他组件即获得提升
粗到细的协同设计：金字塔监督、可变阈值、残差分裂三者形成有机配合——任何单一组件的效果都不如组合

局限性¶

在Deep Blending等弱纹理数据集上未达到所有指标最优，缺乏对弱纹理区域的显式正则化
可变梯度阈值引入了额外超参（\(\alpha\), \(K\)），增加了调参复杂度
仅在静态场景上验证，未扩展到动态场景或SLAM等下游任务
渐进式训练的多阶段划分比例（2500/3500/剩余）依赖手动设置

评分¶

新颖性：★★★★☆ — 残差分裂概念新颖且直觉清晰，但整体框架仍在3D-GS改良范畴
技术深度：★★★★☆ — 三个组件的协同设计精巧，消融实验充分揭示了各自作用
实用性：★★★★★ — 即插即用、提升显著、训练高效，实用价值极高