Opt3DGS: Optimizing 3D Gaussian Splatting with Adaptive Exploration and Curvature-Aware Exploitation¶

会议: AAAI 2026
arXiv: 2511.13571
代码: 无
领域: 3D视觉
关键词: 3D高斯泼溅, 非凸优化, 随机梯度朗日万动力学, 拟牛顿法, 新视角合成

一句话总结¶

提出 Opt3DGS 框架，将 3DGS 训练分为探索和利用两阶段：探索阶段用自适应加权 SGLD 逃离局部最优，利用阶段用局部拟牛顿 Adam 优化器实现精确收敛，在不修改高斯表示的前提下达到 SOTA 渲染质量。

研究背景与动机¶

3D 高斯泼溅（3DGS）通过显式高斯基元建模场景，在新视角合成中取得了卓越表现。然而，优化高斯基元以重建辐射场本质上是一个高度非凸的优化问题，面临两个核心挑战：

挑战一：局部最优陷阱¶

原始 3DGS 使用启发式规则（自适应密度控制 ADC）进行高斯的克隆、分裂和剪枝，但这些规则缺乏鲁棒性。后续工作 3DGSMCMC 将优化建模为 SGLD（随机梯度朗日万动力学）过程，引入随机噪声促进探索。但 3DGSMCMC 存在聚类效应：

新增高斯的位置从基于不透明度的概率分布 $\pi(x)$ 中 i.i.d. 采样
早期发现的主导结构变得高不透明度后，后续采样严重偏向这些区域
导致已重建好的区域过度积累高斯，而几何复杂/探索不足的区域得不到覆盖
从 MCMC 角度看，这种偏差将采样链局限在单一后验模式中

挑战二：收敛质量不足¶

现有 3DGS 方法普遍使用一阶优化器（Adam），缺乏曲率信息，在训练后期难以精确收敛到最优点。虽然有工作尝试使用牛顿法或 LM 算法，但计算量大（需 Hessian 矩阵或其近似）。

核心思路：将训练过程分为探索（Exploration）和利用（Exploitation）两阶段，分别解决上述两个问题。

方法详解¶

整体框架¶

探索阶段（前 29,000 次迭代）：使用自适应加权 SGLD（AW-SGLD）增强全局搜索，逃离局部最优
利用阶段（最后 1,000 次迭代）：使用局部拟牛顿 Adam（LQNAdam）进行精确的曲率感知收敛

总训练 30,000 次迭代，高斯基元增长率 5%。

关键设计¶

自适应加权 SGLD（AW-SGLD）

核心思路：受"平直方图"（flat histogram）原理启发，通过展平后验分布来降低模式间的能量壁垒，使模型更容易跨越局部最优。

将高斯基元的配置视为概率分布： $P(g) \propto \exp\left(-\frac{\mathcal{L}_{total}(g)}{\tau}\right)$

将样本空间按能量水平划分为 $m$ 个子区域 $\mathcal{G}_n = \{g: u_{n-1} < \mathcal{L}_{total}(g) < u_n\}$。

构造展平分布 $\rho(g)$： $\rho(g) \propto \frac{P(g)}{\Psi^\zeta(\Theta, \mathcal{L}_{total}(g))}$ 其中 $\zeta > 0$ 控制展平程度，$\Psi$ 是基于能量的分段指数插值加权函数，权重向量 $\Theta$ 通过随机近似在线更新。

展平分布引入额外的梯度乘子 $\nu$： $\nu = 1 + \zeta\tau \frac{\log\theta(J(g)) - \log(\theta(J(g)-1) \vee 1)}{\Delta u}$

将梯度乘子融入 SGLD 更新： $g_k \leftarrow g_{k-1} - \lambda_{lr} \cdot \nu \cdot \nabla_g \mathbb{E}[\mathcal{L}_{total}(g_{k-1})] + \lambda_{noise} \cdot \epsilon$

权重向量 $\Theta$ 的更新使用随机近似： $\theta_k(i) = \theta_{k-1}(i) + \lambda_\theta \theta_{k-1}^\zeta(J(g_k)) \cdot (1_{i=J(g_k)} - \theta_{k-1}(i))$

设计动机：直接增大噪声 $\lambda_{noise}$ 不鲁棒（场景复杂度不同），自适应加权方法根据能量分布自动调整探索强度，通过展平后验实现更均匀的模式探索。高能量区域（重建差的区域）获得更大的探索促进。

局部拟牛顿 Adam 优化器（LQNAdam）

核心思路：在利用阶段，对每个高斯基元独立应用 L-BFGS 估计拟牛顿方向，作为 Adam 的伪梯度输入，获得曲率感知的更新方向。

具体步骤： - 对每个高斯基元的位置 $\mu$ 独立执行 L-BFGS（历史长度 $K=5$），估计拟牛顿方向 $\mathbb{D}$ - 将 $\mathbb{D}$ 作为伪梯度输入 Adam，计算最终更新方向 $\text{Adam}(\mathbb{D})$ - 在 MCMC 框架下的更新规则： $\mu_{t+1} = \mu_t - \lambda_{lr} \cdot \text{Adam}(\mathbb{D}) + \lambda_{noise} \cdot \epsilon_\mu$

关键设计选择： - "局部"：每个高斯基元独立处理，可在 CUDA 上并行 - 无需线搜索：用 Adam 代替传统拟牛顿方法的线搜索，保持鲁棒性 - L-BFGS 不需要计算 Hessian 矩阵，与各种损失函数兼容 - 利用阶段将 L1 损失替换为 L2 损失，禁用梯度乘子 $\nu$

设计动机：基于 3DGS² 的观察，位置属性对渲染质量影响最大，且高斯基元间弱耦合，因此适合对位置做独立的拟牛顿优化。

探索→利用的切换策略
- 在第 29,000 次迭代切换
- 探索阶段使用 AW-SGLD，前 2,500 次迭代作为 warm-up 稳定能量估计
- 利用阶段禁用梯度乘子，切换到 L2 损失和 LQNAdam
- 展平系数 $\zeta = 0.75$ 在所有数据集上通用

损失函数 / 训练策略¶

与 3DGSMCMC 相同的损失函数： $$L_{total} = (1-\lambda_{ssim}) \times L_1 + \lambda_{ssim} \times L_{ssim} + \lambda_o \sum_i |o_i|_1 + \lambda_\Sigma \sum_{ij} |\sqrt{\text{eig}_j(\Sigma_i)}|_1$$

后两项分别是不透明度稀疏正则化和协方差矩阵尺度约束。利用阶段将 L1 替换为 L2。

能量区间：大多数场景 [0.0, 0.2]，特殊场景（Train）[0.0, 0.3]，划分为 200 个均匀 bin。

实验关键数据¶

主实验¶

标准设置（SfM 初始化）：

方法	MipNeRF360 PSNR/SSIM/LPIPS	T&T PSNR/SSIM/LPIPS	DeepBlending PSNR/SSIM/LPIPS
3DGS	28.69/0.870/0.182	23.14/0.841/0.183	29.41/0.903/0.243
3DGSMCMC	29.89/0.900/0.190	24.29/0.860/0.190	29.67/0.900/0.320
SSS	29.90/0.893/0.145	24.87/0.873/0.138	30.07/0.907/0.247
Opt3DGS	29.96/0.897/0.143	24.80/0.875/0.139	30.09/0.911/0.229

9 个指标中最优 5 个，次优 4 个。相比 3DGSMCMC，在 T&T 上 LPIPS 改善 26.84%。

随机初始化（无 SfM）：

方法	MipNeRF360 PSNR/SSIM/LPIPS	T&T PSNR/SSIM/LPIPS	DeepBlending PSNR/SSIM/LPIPS
3DGS	27.89/0.840/0.260	21.93/0.800/0.270	29.55/0.900/0.330
3DGSMCMC	29.72/0.890/0.190	24.21/0.860/0.190	29.71/0.900/0.320
Opt3DGS	29.78/0.893/0.149	24.39/0.865/0.151	29.90/0.905/0.236

在所有 9 个指标上均为最优，证明了即使初始状态很差，优化框架仍能引导模型找到高质量解。

消融实验¶

配置	Train PSNR	Truck PSNR	Train 时间	Truck 时间
Baseline (3DGSMCMC)	22.47	26.11	11min	22min
+ AW-SGLD	22.74 (+0.27)	26.49 (+0.38)	12min	22min
+ AW-SGLD + LQNAdam	23.01 (+0.54)	26.61 (+0.50)	12min	23min

两个组件均有贡献，AW-SGLD 贡献更大，LQNAdam 进一步精细化。额外计算开销 < 1 分钟。

展平系数 $\zeta$ 的影响：$\zeta = 0.75-0.8$ 为最佳范围，过小探索不足，过大可能导致训练不稳定。

关键发现¶

纯优化改进（不修改高斯表示）可达到甚至超过修改表示的方法（SSS）
随机初始化条件下优势更明显，证明增强探索能力在困难条件下尤为重要
高分辨率输入下（更复杂的后验地形），Opt3DGS 的优势持续存在
有限高斯数量下，Opt3DGS 依然表现优异，说明优化效率提升可弥补表示能力不足
额外计算开销极小（约 1 分钟）

亮点与洞察¶

优化视角的纯粹性：本文完全从优化角度改进 3DGS，不修改高斯表示或引入辅助网络，证明了"优化比表示更重要"的观点
探索-利用框架的可迁移性：这种两阶段优化框架独立于表示方式，可作为即插即用模块替换其他 3DGS 系统的优化组件
平直方图原理在 3DGS 中的应用：将统计物理/MCMC 中的高级采样技术（本用于模拟蛋白质折叠等）引入三维重建，跨领域启发
拟牛顿方向 + Adam 的巧妙结合：LQNAdam 保留了 Adam 的鲁棒性，同时引入了曲率信息，避免了传统二阶方法的线搜索开销
在困难条件（随机初始化、高分辨率、少高斯）下优势更明显：说明增强的探索能力在解空间复杂时价值最大

局限与展望¶

展平系数 $\zeta$ 和能量区间仍需手动设置，不同场景可能需要微调
利用阶段仅 1,000 次迭代可能不足以充分利用曲率信息
L-BFGS 历史长度固定为 5，未探索自适应调整的可能性
仅对位置属性使用拟牛顿方向，未扩展到其他高斯参数（颜色、不透明度等）
与 SSS 在部分指标上互有胜负，可考虑将 Opt3DGS 的优化策略与更好的表示结合

评分¶

新颖性: ⭐⭐⭐⭐⭐ （将平直方图原理和拟牛顿方向引入 3DGS 优化，视角独特）
实验充分度: ⭐⭐⭐⭐⭐ （标准/随机初始化/高分辨率/少高斯，条件覆盖全面）
写作质量: ⭐⭐⭐⭐⭐ （理论推导严谨，贝叶斯视角分析清晰，图示直观）
价值: ⭐⭐⭐⭐⭐ （框架通用性强，可作为 3DGS 优化的标准组件）