IDESplat: Iterative Depth Probability Estimation for Generalizable 3D Gaussian Splatting¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/CVL-UESTC/IDESplat
领域: 3D视觉
关键词: 泛化3DGS、前馈高斯重建、深度概率估计、迭代 warp、稀疏注意力

一句话总结¶

IDESplat 把"单次 warp 估深度"换成"多次级联 warp 迭代 boost 深度概率"，让前馈式泛化 3DGS 的高斯中心（深度）预测更准，在 RE10K 上用 DepthSplat 约 1/10 的参数就反超 0.33 dB PSNR，并在跨数据集 DTU 上大涨 2.95 dB。

研究背景与动机¶

领域现状：可泛化 3D 高斯泼溅（Generalizable 3DGS）用一个前馈网络直接吐出所有高斯参数（均值 \(\mu\)、不透明度 \(\alpha\)、协方差 \(\Sigma\)、颜色 \(c\)），无需逐场景优化即可重建未见场景。其中高斯均值（球心位置）最难直接回归，因为高斯梯度只有局部支撑，所以主流做法是先估一张逐像素深度图，再反投影（unproject）得到球心。

现有痛点：现有方法（MVSplat、MonoSplat、DepthSplat）几乎都靠单次 warp 构造代价体（cost volume）来度量跨视图特征相似度，进而估深度概率。单次 warp 没法充分挖掘多视图几何线索，得到的深度图"既不可靠也粗糙"；而且要把每个深度候选的稠密 warp 特征全部存下来，候选数 \(D\) 一大就吃显存。

核心矛盾：深度精度 ↔ 单次 warp 的信息上限之间存在天花板——单次相似度度量本身有噪声、有歧义（前景背景纹理相近时分不清），却被直接拿去定高斯球心，误差一路传导到整套高斯参数优化。

本文目标：(1) 用多次 warp 渐进增强相似度度量、压低低概率候选；(2) 在不爆显存的前提下做迭代细化；(3) 顺带把"非均值"的其余高斯参数也算得更干净。

切入角度：作者借鉴光流/MVS 里"迭代由粗到细"的思路——既然单次度量不可靠，就把多次 warp 的极线注意力图以乘性方式叠起来，让"多轮都高概率"的深度候选被放大、"偶然高"的被抑制。

核心 idea：用"级联 warp 的乘性 boost + 逐轮收缩深度搜索范围、提升特征分辨率"代替"单次 warp 一锤定音"，迭代地把深度概率推到可靠，从而拿到准确的高斯均值。

方法详解¶

整体框架¶

IDESplat 是一个前馈泛化 3DGS 模型，输入若干张稀疏视图 \(\{(I_i,P_i)\}\)，输出一组 3D 高斯并渲染新视角。整条管线分三大块：① 多视图特征提取骨干（基于预训练 Depth Anything V2）；② 迭代深度概率估计过程——由 \(N\) 个 Depth Probability Boosting Unit（DPBU） 级联组成，每个 DPBU 内部又堆 \(M\) 个 Warp-Index Epipolar Attention（WIEA） 层，逐轮收缩深度候选范围并提高特征分辨率；③ Gaussian Focused Module（GFM） 负责其余高斯参数。最终深度 \(D_N\) 反投影成高斯均值，连同 GFM 算出的参数一起送进光栅化器渲染。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：稀疏多视图<br/>+ 相机位姿"] --> B["特征提取骨干<br/>(Depth Anything V2)"]
    B --> C["Warp-Index 极线注意力<br/>只存 warp 索引做稀疏矩阵乘"]
    C --> D["深度概率 boost 策略<br/>多层注意力图乘性叠加"]
    D --> E["迭代深度估计<br/>逐轮收缩搜索范围 + 提分辨率"]
    E -->|得到精修深度 D_N| F["反投影得高斯均值"]
    B --> G["Gaussian Focused Module<br/>稀疏化筛相关高斯 token"]
    F --> H["光栅化渲染<br/>新视角 + 深度图"]
    G --> H

关键设计¶

1. Warp-Index 极线注意力（WIEA）：只存索引，省掉稠密 warp 特征的显存

痛点是传统 cost volume 要对每个深度候选采样目标视图特征 \(F^{j\to i}=W(F^j,P_i,P_j,G)\) 并整张存下来，候选数 \(D\) 一大显存就爆。WIEA 的做法是只记录 warp 过程中的索引图 \(I^{j\to i}=IW(F^j,P_i,P_j,G)\)，然后用稀疏矩阵乘 \(C^i=\Psi(F^i,F^j,I^{j\to i})\) 直接按索引取 \(F^j\) 的对应位置与 \(F^i\) 做点积，避免物化稠密特征体。相关图经一个轻量 2D U-Net 精修得 \(\tilde C^i\)，再沿深度维 softmax 得到单次估计的注意力（深度概率）图 \(A^i=\mathrm{softmax}(\tilde C^i)\)。这样既保留了极线几何约束，又把显存从"存全部 warp 特征"降到"存索引"，为后面堆很多层、迭代多次腾出空间。

2. 深度概率 boost 策略（DPBS）：乘性叠加多层注意力，放大一致高概率、抑制偶发噪声

单层 WIEA 给的概率不可靠。一个 DPBU 内堆 \(M\) 个 WIEA 层得到 \(M\) 张独立概率图 \(A^i\)，DPBS 把它们乘性融合：从全 1 矩阵 \(P_0\) 出发，逐层更新 \(P_m=\mathrm{Norm}(P_{m-1}\odot A_m)\)（\(\odot\) 为逐元素积，\(\mathrm{Norm}\) 为行归一化）。直觉是——只有"多层都判为高概率"的深度候选才会在连乘里被持续放大，偶然在某一层高的会被其它层压下去。这等价于对多次 warp 的相似度证据做"软 AND"，比把它们简单相加平均更能逼出真正的表面点。消融里把"加性/无 boost"换成 DPBS 直接涨 0.46 dB，是单个增益最猛的设计之一。

3. 迭代深度估计过程（IDE）：逐轮收缩搜索范围 + 提升分辨率，做对称残差细化

把多个 DPBU 级联成 \(N\) 轮迭代，每轮在上一轮深度 \(D_{n-1}\) 附近重新采候选。首轮在初始范围 \([d_{min},d_{max}]\) 均匀采样；之后第 \(n\) 轮以 \(D_{n-1}\) 为中心、用相对偏移向量 \(\Delta G_n=[-kI_n,\dots,0,\dots,kI_n]\) 对称采样（能预测正负残差），间隔随轮次收缩 \(I_n=I_1/n\)。残差深度 \(\Delta D_n=P_{M,n}\Delta G_n\) 是概率与偏移沿深度维的加权和，深度按 \(D_n=D_{n-1}+\Delta D_n\) 累加更新。关键是特征分辨率也逐轮提高——3 轮时 warp 分别在 \(1/4\)、\(1/2\)、原始分辨率上做，最后一轮在 \(256\times256\) 原分辨率上算相似度，因此随着搜索范围"再居中"+ 特征更清晰，匹配越来越容易也越精确，由粗到细把深度图磨准。

4. Gaussian Focused Module（GFM）：稀疏筛选相关高斯 token，去掉窗口注意力里的无关噪声

非均值的其余高斯参数用窗口注意力交互时，会把一堆无关 token 也拉进来，既慢又引噪。GFM 复用上一层的高斯相关图来引导本层注意力：用三个线性层得 \(Q,K,V\)，用索引矩阵 \(I_G\)（初始全 1）记录高相似 token 位置，算相似度 \(S^l=\Psi(Q^l,K^l,I^{l-1})\)；再做稀疏注意力 \(A^l=\mathcal S(\mathrm{Norm}(A^{l-1}\odot\mathrm{Softmax}(S^l)))\)，其中 \(\mathcal S\) 只保留每行权重的前一半（top-half），保留位置记进 \(I_G^l\)；输出 \(O^l=\Psi(A^l,V^l,I^l)\)。随层数增加 \(I_G\) 越来越稀，逐渐锁定对每个 query 最重要的高斯关系，过滤掉无关高斯特征的干扰。

损失函数 / 训练策略¶

沿用 DepthSplat 的设置：8 卡 RTX 4090、总 batch 16、AdamW、30 万步、余弦学习率；预训练 Depth Anything V2 骨干用 \(2\times10^{-6}\) 小学习率，其余层用 \(2\times10^{-4}\)。监督用 MSE + LPIPS 损失（渲染新视角与真值对比），不额外依赖深度真值。

实验关键数据¶

主实验¶

两视图输入、\(256\times256\) 分辨率，在 RE10K / ACID 上估三张新视角；首位加粗、第二名下划线（此处用文字标注）。

数据集	指标	IDESplat	DepthSplat	MonoSplat	备注
RE10K	PSNR↑	27.80	27.47	26.68	+0.33 vs DepthSplat
RE10K	SSIM↑ / LPIPS↓	0.893 / 0.108	0.889 / 0.114	0.875 / 0.123	均最优
ACID	PSNR↑	28.94	-（原文无）	28.63	+0.31 vs MonoSplat
参数量	M↓	37.6	354	30.3	仅 DepthSplat 的 ~10.7%

跨数据集泛化（仅在 RE10K 训练，零样本测）：

迁移	指标	IDESplat	DepthSplat	MonoSplat
RE10K→DTU	PSNR↑ / LPIPS↓	18.33 / 0.239	15.38 / 0.442	15.25 / 0.291
RE10K→ACID	PSNR↑	28.79	28.37	28.24

DTU 上比 DepthSplat 高 2.95 dB，说明迭代深度概率估计对跨域几何更稳。效率上（表 3）IDESplat 37.6M 参数、2336M 显存、0.110s/帧——比 DepthSplat 慢一点点，但参数、显存、PSNR 全面更优。ScanNet 深度评测（表 4）Abs Rel 0.039 / RMSE 0.116，优于 UniMatch 与 DepthSplat。

消融实验¶

在 RE10K 上训 2 万步、batch 8（绝对值低于主表，仅看相对增益）。

配置	PSNR↑	说明
Baseline	26.31	单 warp 基线
+ GFM	26.63	高斯聚焦模块，+0.32
+ IDE(3)	26.88	3 轮迭代深度估计，+0.57
+ IDE(3) + GFM	27.07	两者叠加
+ IDE(3) + DPBS	27.34	加乘性 boost，相比仅 IDE 再 +0.46
Full Model	27.56	三件套全开

迭代轮数消融（表 6）：0 轮（单 warp）26.63 → 1 轮 27.08（+0.45）→ 3 轮 27.56（+0.93），4 轮 27.64 但显存/时间继续涨。

关键发现¶

DPBS（乘性 boost）性价比最高：在已有 IDE 的基础上再 +0.46 dB，印证"软 AND 式融合多次 warp"比单纯堆迭代更关键。
迭代 3 轮是甜点：1→3 轮收益明显（+0.48），3→4 轮只 +0.08 却显著增加显存(2336→2745M)与时延(0.110→0.132s)，作者选 3 轮兼顾质量与实时。
泛化增益远大于同分布增益：同分布 RE10K 仅 +0.33，跨域 DTU 却 +2.95，说明可靠深度概率主要帮的是"没见过的几何分布"。

亮点与洞察¶

"只存索引的稀疏 warp"是让迭代可行的工程基石：把 cost volume 的显存瓶颈拆掉，才敢堆多层 WIEA、迭代多轮、最后还在原始分辨率上 warp——否则迭代直接被显存劝退。
乘性融合 = 概率上的软 AND，比加性/平均更适合"多证据找同一个表面点"，这个 trick 可迁移到任何多视图相似度聚合（MVS、光流代价体）。
由粗到细的对称残差更新（\(\pm k I_n\)、间隔 \(I_1/n\)）让网络只学小残差、搜索范围逐轮收紧，是迭代深度估计稳定收敛的关键写法。

局限与展望¶

推理速度比 DepthSplat 略慢（0.110s vs 0.082s），多轮迭代的串行性限制了进一步提速；可探索轮间并行或自适应轮数。
仍依赖预训练单目深度骨干（Depth Anything V2），其先验质量会传导到最终深度，弱纹理/反光区可能受限。⚠️ 论文未给出无预训练骨干的对照，纯迭代设计本身的上限尚不清楚。
评测集中在室内/航拍/物体中心三类，对动态、强反射、极稀疏视图等更极端场景的鲁棒性未充分验证。

评分¶

新颖性: ⭐⭐⭐⭐ 把迭代+乘性 boost 引入泛化 3DGS 深度估计，思路清晰但属"已有迭代思想的精巧适配"
实验充分度: ⭐⭐⭐⭐⭐ 三主数据集 + 跨域 + 深度评测 + 效率 + 双重消融，证据链完整
写作质量: ⭐⭐⭐⭐ 方法链条交代清楚，部分符号（SMM、索引矩阵）偏简略
价值: ⭐⭐⭐⭐ 用 1/10 参数达到 SOTA 且开源，对落地泛化重建有实际意义