OceanSplat: Object-aware Gaussian Splatting with Trinocular View Consistency for Underwater Scene Reconstruction¶

会议: AAAI 2026
arXiv: 2601.04984
代码: oceansplat.github.io
领域: 3D视觉
关键词: 3D高斯泼溅, 水下场景重建, 三目立体一致性, 深度正则化, 散射介质

一句话总结¶

提出 OceanSplat，通过三目视图一致性约束、合成对极深度先验和深度感知透明度调整，实现了散射介质下的高保真水下 3D 高斯泼溅场景重建，显著减少了浮动伪影并超越现有方法。

研究背景与动机¶

水下场景重建对海底测绘、生态监测、水下基础设施检测等海洋机器人任务至关重要。然而水下环境的光学特性（波长相关衰减、散射、低照明）严重退化视觉线索，给基于视觉的场景重建带来巨大挑战。

现有方法的局限：

NeRF 方法（SeaThru-NeRF 等）：将水下物理模型嵌入体积渲染，但隐式表示阻碍精确几何理解，且渲染速度慢

3DGS 方法（SeaSplat、WaterSplatting 等）：虽然渲染快，但介质强度常被吸收进 3D 高斯中，导致大量浮动伪影（floating artifacts），3D 高斯与散射介质纠缠，重建质量下降

核心问题：在散射介质中，alpha-blending 的视点相关采样会导致多视图不一致，3D 高斯容易错误地表示水体本身（而非场景物体），产生浮动伪影。

解决思路： - 借鉴多基线立体视觉优于单基线的经验，将双目一致性扩展为三目一致性（水平+垂直虚拟视点），提供正交约束 - 利用虚拟视点间的三角测量生成自监督深度先验 - 通过深度感知透明度调整，在训练早期抑制介质区域的 3D 高斯

方法详解¶

整体框架¶

OceanSplat 基于 3DGS 框架，使用 SfM 初始化 3D 高斯，通过 MLP 建模水下介质属性（衰减、后向散射、介质颜色）。在训练过程中引入四个关键模块：三目视图一致性、合成对极深度先验、深度残差损失和深度感知透明度调整。

水下图像形成模型将观测图像分解为衰减的物体颜色和后向散射： $$C = C^{obj} \cdot e^{-\sigma^{attn} \cdot z} + C^{\infty} \cdot (1 - e^{-\sigma^{bs} \cdot z})$$

物体和介质的渲染分别按 alpha-blending 累积，支持物体-介质解耦。

关键设计¶

三目视图一致性（Trinocular View Consistency）

核心思路：从原始相机位姿 $P_c$ 生成水平和垂直两个虚拟视点 $P_h$ 和 $P_v$，强制三视图间的一致性来正则化 3D 高斯的空间位置。

虚拟视点通过平移构造： $P_h = \begin{bmatrix} \mathbb{I} & \mathbf{t}_h \\ \mathbf{0}^\top & 1 \end{bmatrix} P_c, \quad P_v = \begin{bmatrix} \mathbb{I} & \mathbf{t}_v \\ \mathbf{0}^\top & 1 \end{bmatrix} P_c$ 其中 $\mathbf{t}_h = (b_h, 0, 0)^\top$, $\mathbf{t}_v = (0, b_v, 0)^\top$。

从虚拟视点渲染图像后，利用深度图计算视差进行反向变换，将虚拟视点图像对齐到中心视图： $d_h(x,y) = \frac{f_h \cdot b_h}{D_c(x,y)}, \quad d_v(x,y) = \frac{f_v \cdot b_v}{D_c(x,y)}$

一致性损失包含三部分： - 物体立体一致性：$L_{obj\text{-}stereo}$，反向变换后的物体图像与中心视图物体图像的 R-L1 损失 - 完整立体一致性：$L_{full\text{-}stereo}$，合成完整图像与 GT 的 R-L1 损失 - 视差平滑性：$L_{smooth}$，边缘感知的视差正则化

设计动机：单基线立体仅提供一个方向的约束，水平+垂直的正交基线提供了更强的空间约束力，能更好地消除散射介质中的几何模糊性。$b_v$ 从 [-0.4, 0.4] 采样，$b_h = 1.5 b_v$，使用不等长基线增加约束多样性。

合成对极深度先验（Synthetic Epipolar Depth Prior）

核心思路：利用虚拟视点间的三角测量推导自监督深度先验 $D_{epi}$，无需外部深度监督。

具体步骤： - 选择三目视锥交集内、透明度 > $\tau_\alpha$ 的 3D 高斯 - 将选中高斯投影到 $P_h$ 和 $P_v$ 的图像平面 - 通过对极几何建立线性系统 $\mathbf{A}_i \tilde{\mathbf{X}}_i = \mathbf{0}$ - 最小二乘求解三角测量点，转到中心相机坐标系取 z 分量作为深度先验

应用边缘感知 Log-L1 损失： $L_{epi} = \frac{1}{HW}\sum_{x,y}\sum_{k}\log(1 + |D_c' - D_{epi}|) \cdot e^{-|\nabla_k I_c|}$

设计动机：水下场景几何线索有限，外部深度模型可能不准确，利用自身虚拟视点的几何关系提供自洽的深度约束，避免了外部依赖。

深度残差损失（Depth Residual Loss）

约束每个 3D 高斯的 z 分量与 alpha-blending 渲染深度一致： $L_{res} = \frac{1}{N'}\sum_{i=1}^{N'}|D_c(\mathbf{x}_i) - z_i|$

防止 3D 高斯沿光线过度分散，减少浮动伪影。

深度感知透明度调整（Depth-aware Alpha Adjustment）

在训练早期（$t < t_\alpha$），使用 MLP 根据深度和观察方向调整每个 3D 高斯的透明度： $\alpha_i' = (1-w)\alpha_i + w \cdot \phi_\alpha(\alpha_i, z_i, \vec{\mathbf{v}}_i)$

过渡步 $t_\alpha$ 之后权重 $w$ 衰减为 0，消除推理开销。

设计动机：散射介质中，被错误放置的 3D 高斯会获取介质颜色的贡献。通过在训练早期抑制这些高斯的透明度，鼓励它们被剪枝掉，从根源上防止介质诱导的伪影。

损失函数 / 训练策略¶

\[L_{total} = L_{photo} + \lambda_{tri} L_{tri} + \lambda_{epi} L_{epi} + \lambda_{res} L_{res}\]

$L_{photo}$：加权 R-L1 + R-SSIM（$\lambda_s = 0.2$）
$\lambda_{tri} = 0.1$，$\lambda_{res} = 0.01$
$\lambda_{epi}$ 从 0.4 退火到 0.2
训练步数：SeaThru-NeRF 数据 7K/3K（致密化/微调），In-the-Wild 数据 10K/5K
分辨率渐进训练：1/4 → 1/2 → 全分辨率

实验关键数据¶

主实验¶

真实水下场景（SeaThru-NeRF + In-the-Wild）：

数据集	指标	OceanSplat	WaterSplatting	SeaSplat	提升
Curaçao	PSNR	34.56	32.32	29.77	+2.24
Panama	PSNR	32.74	31.71	28.65	+1.03
J.G-Redsea	PSNR	25.35	24.77	23.07	+0.58
IUI3-Redsea	PSNR	30.17	29.84	27.23	+0.33
Coral	PSNR	29.15	28.19	28.41	+0.96
Composite	PSNR	26.39	25.47	26.22	+0.92

平均 PSNR 超过 WaterSplatting 1.05 dB，超过 SeaThru-NeRF-NS 2.88 dB。

模拟散射场景（水下+雾）：

场景	指标	OceanSplat	WaterSplatting	SeaSplat
水下-NVS	PSNR	28.80	28.12	15.62
雾-NVS	PSNR	29.12	28.45	27.52
水下-恢复	SSIM	0.768	0.748	0.719
雾-恢复	SSIM	0.791	0.770	0.744

消融实验¶

配置	PSNR	SSIM	LPIPS	说明
Full Model	34.56	0.961	0.113	完整模型
w/o $L_{res}$	34.30	0.960	0.115	深度残差损失有效
w/o $L_{epi}$	33.82	0.959	0.120	对极深度先验贡献显著
w/o $L_{tri}$	33.20	0.957	0.115	三目一致性贡献最大（-1.36dB）
w/o $\alpha^d$	33.90	0.960	0.116	深度感知透明度调整有效

效率对比：训练 19 分钟（vs SeaThru-NeRF 18h25m），推理 85.67 FPS，显存 7.6 GB。

关键发现¶

三目一致性是最重要的组件（移除后 PSNR 下降 1.36 dB）
对极深度先验的贡献排第二（-0.74 dB）
深度感知透明度调整在抑制介质伪影方面效果显著
所有以上组件为自监督设计，无需外部深度 GT 或标注

亮点与洞察¶

三目扩展的几何动机清晰：相比双目方法仅有水平约束，增加垂直虚拟视点提供了正交方向的约束，立体几何理论基础扎实
完全自监督的深度正则化：合成对极深度先验来自模型自身的虚拟视点三角测量，不依赖任何外部深度模型，实现了"自洽"的几何约束
物体-介质解耦：通过有效的几何约束促进 3D 高斯与散射介质的分离，既改善了重建质量，也支持了场景恢复（去水/去雾）
早期透明度调整的"预防式"策略：不是等伪影出现再修复，而是在训练初期就抑制可能产生问题的 3D 高斯

局限与展望¶

每次迭代需要额外的光栅化（虚拟视点渲染）和最小二乘求解，训练时间略长于 WaterSplatting（19min vs 10min）
虚拟视点基线长度 $b_h, b_v$ 为经验值，可能对不同场景尺度敏感
目前仅在静态水下场景验证，动态场景（水流、气泡）未涉及
散射模型仍为简化模型，未考虑波长相关的复杂散射效应

评分¶

新颖性: ⭐⭐⭐⭐ （三目扩展动机充分，自监督深度先验设计巧妙）
实验充分度: ⭐⭐⭐⭐⭐ （真实+模拟，NVS+恢复，消融完整，效率比较详尽）
写作质量: ⭐⭐⭐⭐⭐ （公式推导完整，图示清晰，物理动机解释充分）
价值: ⭐⭐⭐⭐ （水下场景重建的重要推进，自监督设计实用性强）