Horseshoe Splatting: Handling Structural Sparsity for Uncertainty-Aware Gaussian-Splatting Radiance Field Rendering¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=NHuyk9KsG6
代码: https://github.com/HKU-MedAI/Horseshoe-Splatting
领域: 3D 视觉 / 神经渲染 / 贝叶斯不确定性
关键词: 3D Gaussian Splatting, Horseshoe 先验, 变分推断, 不确定性估计, 结构稀疏

一句话总结¶

给 3DGS 每个高斯的协方差尺度套上一个全局-局部 Horseshoe 收缩先验，用变分推断把"自动剪掉噪声方向 + 输出像素级不确定性"一并解决，既匹配 SOTA 渲染质量又给出可标定的不确定性图。

研究背景与动机¶

领域现状：NeRF 给出高保真新视角合成但慢，3DGS 用显式各向异性高斯 + 可微光栅化做到了实时高质量渲染，已成主流表示。
现有痛点：主流 3DGS 是确定性的，不提供任何置信度，而在稀疏视角、遮挡、分布外内容下置信度恰恰最关键；同时现有管线不显式编码协方差里的结构稀疏性（逐轴方差、轴间相关），导致被噪声主导的方向得不到充分正则。
核心矛盾：已有的不确定性变体（语义/后验方差、深度不确定性场、Fisher 信息等）要么开销大、要么只刻画场景层面的歧义，没有人直接对每个 splat 的协方差结构施加层次先验——既无法选择性压制虚假方差，也给不出与渲染图像一致的后验不确定性。
本文目标：把贝叶斯推断真正塞进 3DGS，用一个能同时做到"近零强收缩 + 重尾保护"的先验，统一处理协方差结构稀疏和可标定不确定性，且几乎不牺牲速度。
核心 idea：[结构稀疏先验] 在协方差的尺度参数上放全局-局部 Horseshoe 先验——其零点尖峰把无关方向激进收缩、重尾保留显著各向异性结构，恰好契合 3DGS 椭圆 footprint 的形成方式；[变分可解] 用镜像 Horseshoe 逆 Gamma 增广的因子化变分族拟合，使蒙特卡洛渲染和像素级后验不确定性成为近乎免费的副产品。

方法详解¶

整体框架¶

保留原始 3DGS 表示（位置 \(\mu_i\)、不透明度 \(\alpha_i\)、SH 颜色 \(c_i\)、协方差 \(\Sigma_i = R_i S_i S_i^\top R_i^\top\)），只把对角尺度矩阵 \(S_i=\mathrm{diag}(s_{i1},s_{i2},s_{i3})\) 上的尺度变成随机变量，并施加全局-局部 Horseshoe 先验。训练时用一个镜像逆 Gamma 增广的均场变分后验拟合，损失 = 蒙特卡洛重建负对数似然 + KL 正则；推理时祖先采样若干份尺度、各渲染一遍，逐像素求均值/方差得到渲染图和不确定性图。

flowchart LR
    A[SfM 点云初始化<br/>3D 高斯] --> B[对角尺度 s_ij<br/>套 Horseshoe 先验]
    B --> C[变分推断<br/>IG-IG 增广均场后验]
    C --> D[采样 M 份 Σ_i<br/>可微光栅化渲染]
    D --> E[L_rec 负对数似然<br/>+ L_KL 正则]
    D --> F[逐像素均值/方差<br/>渲染图 + 不确定性图]

关键设计¶

1. 协方差尺度上的全局-局部 Horseshoe 先验：让收缩"看方向行事"。 对每个 splat \(i\)、每个轴 \(j\) 的对角尺度 \(s_{ij}\)，引入轴级全局收缩 \(\theta_j\) 与局部收缩 \(\lambda_{ij}\)，建模为 \(s_{ij}\mid\lambda_{ij},\theta_j \sim \mathcal{N}(\beta_{ij},\,\sigma_{ij}^2\theta_j^2\lambda_{ij}^2)\)，其中 \(\beta_{ij}\) 是可学习均值、\(\sigma_{ij}=\mathrm{softplus}(\rho_{ij})\)。两个收缩量取半 Cauchy 先验 \(\lambda_{ij}\sim C^+(0,1)\)、\(\theta_j\sim C^+(0,b)\)，从而获得 Horseshoe 标志性的"零点尖峰 + 重尾"：尖峰把噪声主导的轴向激进压到接近零（相当于自动剪枝冗余 splat），重尾保证数据支持的强各向异性方向几乎不被收缩。这样做的好处是收缩强度由数据自适应决定，而非全局一刀切——直接呼应了 3DGS 屏幕空间椭圆 footprint 的几何，把"沿无关轴的噪声"和"沿信号轴的尖锐结构"区分对待。

2. 镜像逆 Gamma 增广的均场变分推断：让贝叶斯推断变得可训练。 半 Cauchy 先验直接推断不可行，本文借助经典的 IG-IG（逆 Gamma 套逆 Gamma）增广把它展开成 \(\lambda_{ij}^2\mid\nu_{ij}\sim\mathrm{IG}(1/2,1/\nu_{ij})\)、\(\nu_{ij}\sim\mathrm{IG}(1/2,1)\)（\(\theta_j^2\) 同理），于是整个层次都由共轭友好的逆 Gamma 因子构成。变分族刻意镜像这一增广结构，对 \(s,\lambda^2,\nu,\theta^2,\xi\) 各取独立因子 \(q(s,\dots)=\prod q_{\mathcal{N}}(s_{ij})\prod q_{\mathrm{IG}}(\lambda_{ij}^2)\cdots\)。ELBO 中高斯先验项有闭式期望（用到 \(\mathbb{E}\log X=\log\beta-\psi(\alpha)\)、\(\mathbb{E}[1/X]=\alpha/\beta\) 这些逆 Gamma 恒等式），\(s_{ij}\) 用重参数化 \(s_{ij}=\beta_{ij}+\sigma_{ij}\varepsilon\) 采样，IG 因子之间的 KL 解析、梯度低方差。整体可直接用 SGD 联合优化，无需额外辅助方差网络。

3. 与重建损失耦合 + 祖先采样的不确定性估计：让"渲染"和"测不确定"共用一条管线。 总损失把变分目标和 3DGS 重建拼起来：\(L_{\text{total}}=L_{\text{rec}}+L_{\text{KL}}\)，其中重建项是变分后验下的期望负对数似然 \(L_{\text{rec}}\approx-\frac{1}{M}\sum_m\sum_u \ln f_{\mathcal{N}}(I_u\mid \hat I_u^{(m)},\sigma_u^2)\)，\(\hat I_u^{(m)}\) 用从 \(q\) 采样的 \(\Sigma_i^{(m)}\) 渲染、\(\sigma\) 经 \(\sigma=\log(1+e^\rho)\) 重参数；KL 项的先验部分天然充当"自动缩放因子"平衡 Horseshoe 正则强度。训练完成后不依赖任何额外方差参数，而是沿 Horseshoe 层次祖先采样：抽 \(\theta_j^{2(m)},\lambda_{ij}^{2(m)},\varepsilon_{ij}^{(m)}\)，得 \(s_{ij}^{(m)}=\beta_{ij}+\sigma_{ij}\theta_j^{(m)}\lambda_{ij}^{(m)}\varepsilon_{ij}^{(m)}\)，组装 \(\Sigma_i^{(m)}\) 各渲染一遍，逐像素的预测均值/方差/可信区间就给出标定良好的不确定性图，整条流程仍保持 3DGS 的实时性。此外作者还证明了在非线性观测模型 + 局部 Lipschitz 渲染器下，尺度后验以近极小极大速率收缩并经 Lipschitz 传递到图像空间，给"误差与不确定性随数据递减"提供了理论背书。

实验关键数据¶

主实验（LF / LLFF 数据集，新视角合成 + 不确定性质量）¶

数据集	方法	PSNR↑	SSIM↑	LPIPS↓	AUSE↓	NLL↓
LF	FisherRF	29.13	0.927	0.076	0.54	7.02
LF	Variational 3DGS	27.39	0.914	0.101	0.26	-0.30
LF	Ensemble GS (×10)	27.64	0.902	0.088	0.29	-0.34
LF	Horseshoe (Ours)	30.05	0.947	0.064	0.25	-0.74
LLFF	FisherRF	25.34	0.849	0.125	0.51	7.05
LLFF	Variational 3DGS	23.97	0.806	0.172	0.32	0.23
LLFF	Horseshoe (Ours)	25.86	0.864	0.110	0.31	0.14

深度不确定性（AUSE-MAE，LF）平均 0.18 为 SOTA，basket 场景 0.10 较次优提升 23%。
推理速度：每视角 0.03s，约比 Ensemble GS 快 9×，也快于 FisherRF（0.12s）与 Variational 3DGS（0.06s）。

消融实验（先验类型对比）¶

数据集	先验	PSNR↑	SSIM↑	AUSE↓	NLL↓
LF	Laplace	30.04	0.942	0.37	10.58
LF	Gaussian	30.01	0.941	0.38	9.15
LF	Horseshoe	30.05	0.947	0.25	-0.74
LLFF	Laplace	25.74	0.860	0.42	8.22
LLFF	Horseshoe	25.86	0.864	0.31	0.14

三种先验的 PSNR/SSIM 几乎持平，但 Horseshoe 的 AUSE/NLL 大幅领先，说明重尾 + 零点尖峰才是不确定性标定的关键，渲染质量并非靠先验拉开。
主动视角选择（LLFF，从 10% 视角迭代加到 30%）：Horseshoe 取得 PSNR 26.23 / SSIM 0.87 / LPIPS 0.104，显著优于 FisherRF（23.37）等，验证标定良好的不确定性能挑出最有信息量的视角。

关键发现¶

结构稀疏先验能在不损失视觉保真的前提下显著改善不确定性标定（NLL 从正值甚至 7+ 降到负值）。
FisherRF 重建好但不确定性差，因为其基于 Hessian/深度的近似无法很好迁移到 RGB 空间，产生噪声化、无信息的不确定性图。

亮点与洞察¶

把统计学的 Horseshoe 收缩先验"搬"到 3DGS 协方差尺度上，是个干净且贴合几何的 idea：屏幕空间椭圆 footprint 天然适合逐轴稀疏建模。
不确定性是变分推断的免费副产品而非外挂模块，祖先采样复用同一渲染器，既不加辅助网络也不破坏实时性。
有理论保证（尺度后验近极小极大收缩 + 经 Lipschitz 传到图像空间），把经验方法和统计理论接上。
消融把"渲染质量"和"不确定性标定"解耦得很清楚：先验主要影响后者。

局限与展望¶

仅在 LF（8 场景）和 LLFF（8 前向场景）这类相对小规模、稀疏视角的数据集上验证，缺少大规模无界场景（如 Mip-NeRF 360）和动态场景的考察。
Horseshoe 只放在对角尺度上（文中提到可扩展到低秩成对分量但未充分展开），轴间相关的结构稀疏建模仍偏轻。
蒙特卡洛仅用 10 个样本，渲染速度虽快但不确定性精度与样本数的权衡未系统分析。
理论分析依赖局部线性化、局部 Lipschitz 等假设，与真实可微光栅化的差距值得进一步刻画。

评分¶

新颖性: ⭐⭐⭐⭐ 把 Horseshoe 全局-局部收缩先验首次系统引入 3DGS 协方差尺度，角度新颖且贴合几何，配套理论分析。
实验充分度: ⭐⭐⭐ 在新视角合成、不确定性标定、主动视角选择、推理速度多维度验证且消融清晰，但数据集规模偏小、缺无界/动态场景。
写作质量: ⭐⭐⭐⭐ 动机—方法—理论—实验逻辑顺畅，公式与框架图到位，先验消融把质量与标定解耦讲得明白。
价值: ⭐⭐⭐⭐ 在几乎不牺牲速度和保真的前提下给 3DGS 提供可标定不确定性，对主动学习、机器人建图等下游有实用价值。