OceanSplat: Object-aware Gaussian Splatting with Trinocular View Consistency for Underwater Scene Reconstruction¶
会议: AAAI 2026
arXiv: 2601.04984
代码: oceansplat.github.io
领域: 3D视觉
关键词: 3D高斯泼溅, 水下场景重建, 三目立体一致性, 深度正则化, 散射介质
一句话总结¶
提出 OceanSplat,通过三目视图一致性约束、合成对极深度先验和深度感知透明度调整,实现了散射介质下的高保真水下 3D 高斯泼溅场景重建,显著减少了浮动伪影并超越现有方法。
研究背景与动机¶
水下场景重建对海底测绘、生态监测、水下基础设施检测等海洋机器人任务至关重要。然而水下环境的光学特性(波长相关衰减、散射、低照明)严重退化视觉线索,给基于视觉的场景重建带来巨大挑战。
现有方法的局限:
NeRF 方法(SeaThru-NeRF 等):将水下物理模型嵌入体积渲染,但隐式表示阻碍精确几何理解,且渲染速度慢
3DGS 方法(SeaSplat、WaterSplatting 等):虽然渲染快,但介质强度常被吸收进 3D 高斯中,导致大量浮动伪影(floating artifacts),3D 高斯与散射介质纠缠,重建质量下降
核心问题:在散射介质中,alpha-blending 的视点相关采样会导致多视图不一致,3D 高斯容易错误地表示水体本身(而非场景物体),产生浮动伪影。
解决思路: - 借鉴多基线立体视觉优于单基线的经验,将双目一致性扩展为三目一致性(水平+垂直虚拟视点),提供正交约束 - 利用虚拟视点间的三角测量生成自监督深度先验 - 通过深度感知透明度调整,在训练早期抑制介质区域的 3D 高斯
方法详解¶
整体框架¶
OceanSplat 基于 3DGS 框架,使用 SfM 初始化 3D 高斯,通过 MLP 建模水下介质属性(衰减、后向散射、介质颜色)。在训练过程中引入四个关键模块:三目视图一致性、合成对极深度先验、深度残差损失和深度感知透明度调整。
水下图像形成模型将观测图像分解为衰减的物体颜色和后向散射: $\(C = C^{obj} \cdot e^{-\sigma^{attn} \cdot z} + C^{\infty} \cdot (1 - e^{-\sigma^{bs} \cdot z})\)$
物体和介质的渲染分别按 alpha-blending 累积,支持物体-介质解耦。
关键设计¶
- 三目视图一致性(Trinocular View Consistency)
核心思路:从原始相机位姿 \(P_c\) 生成水平和垂直两个虚拟视点 \(P_h\) 和 \(P_v\),强制三视图间的一致性来正则化 3D 高斯的空间位置。
虚拟视点通过平移构造: \(P_h = \begin{bmatrix} \mathbb{I} & \mathbf{t}_h \\ \mathbf{0}^\top & 1 \end{bmatrix} P_c, \quad P_v = \begin{bmatrix} \mathbb{I} & \mathbf{t}_v \\ \mathbf{0}^\top & 1 \end{bmatrix} P_c\) 其中 \(\mathbf{t}_h = (b_h, 0, 0)^\top\), \(\mathbf{t}_v = (0, b_v, 0)^\top\)。
从虚拟视点渲染图像后,利用深度图计算视差进行反向变换,将虚拟视点图像对齐到中心视图: \(d_h(x,y) = \frac{f_h \cdot b_h}{D_c(x,y)}, \quad d_v(x,y) = \frac{f_v \cdot b_v}{D_c(x,y)}\)
一致性损失包含三部分: - 物体立体一致性:\(L_{obj\text{-}stereo}\),反向变换后的物体图像与中心视图物体图像的 R-L1 损失 - 完整立体一致性:\(L_{full\text{-}stereo}\),合成完整图像与 GT 的 R-L1 损失 - 视差平滑性:\(L_{smooth}\),边缘感知的视差正则化
设计动机:单基线立体仅提供一个方向的约束,水平+垂直的正交基线提供了更强的空间约束力,能更好地消除散射介质中的几何模糊性。\(b_v\) 从 [-0.4, 0.4] 采样,\(b_h = 1.5 b_v\),使用不等长基线增加约束多样性。
- 合成对极深度先验(Synthetic Epipolar Depth Prior)
核心思路:利用虚拟视点间的三角测量推导自监督深度先验 \(D_{epi}\),无需外部深度监督。
具体步骤: - 选择三目视锥交集内、透明度 > \(\tau_\alpha\) 的 3D 高斯 - 将选中高斯投影到 \(P_h\) 和 \(P_v\) 的图像平面 - 通过对极几何建立线性系统 \(\mathbf{A}_i \tilde{\mathbf{X}}_i = \mathbf{0}\) - 最小二乘求解三角测量点,转到中心相机坐标系取 z 分量作为深度先验
应用边缘感知 Log-L1 损失: \(L_{epi} = \frac{1}{HW}\sum_{x,y}\sum_{k}\log(1 + |D_c' - D_{epi}|) \cdot e^{-|\nabla_k I_c|}\)
设计动机:水下场景几何线索有限,外部深度模型可能不准确,利用自身虚拟视点的几何关系提供自洽的深度约束,避免了外部依赖。
- 深度残差损失(Depth Residual Loss)
约束每个 3D 高斯的 z 分量与 alpha-blending 渲染深度一致: \(L_{res} = \frac{1}{N'}\sum_{i=1}^{N'}|D_c(\mathbf{x}_i) - z_i|\)
防止 3D 高斯沿光线过度分散,减少浮动伪影。
- 深度感知透明度调整(Depth-aware Alpha Adjustment)
在训练早期(\(t < t_\alpha\)),使用 MLP 根据深度和观察方向调整每个 3D 高斯的透明度: \(\alpha_i' = (1-w)\alpha_i + w \cdot \phi_\alpha(\alpha_i, z_i, \vec{\mathbf{v}}_i)\)
过渡步 \(t_\alpha\) 之后权重 \(w\) 衰减为 0,消除推理开销。
设计动机:散射介质中,被错误放置的 3D 高斯会获取介质颜色的贡献。通过在训练早期抑制这些高斯的透明度,鼓励它们被剪枝掉,从根源上防止介质诱导的伪影。
损失函数 / 训练策略¶
- \(L_{photo}\):加权 R-L1 + R-SSIM(\(\lambda_s = 0.2\))
- \(\lambda_{tri} = 0.1\),\(\lambda_{res} = 0.01\)
- \(\lambda_{epi}\) 从 0.4 退火到 0.2
- 训练步数:SeaThru-NeRF 数据 7K/3K(致密化/微调),In-the-Wild 数据 10K/5K
- 分辨率渐进训练:1/4 → 1/2 → 全分辨率
实验关键数据¶
主实验¶
真实水下场景(SeaThru-NeRF + In-the-Wild):
| 数据集 | 指标 | OceanSplat | WaterSplatting | SeaSplat | 提升 |
|---|---|---|---|---|---|
| Curaçao | PSNR | 34.56 | 32.32 | 29.77 | +2.24 |
| Panama | PSNR | 32.74 | 31.71 | 28.65 | +1.03 |
| J.G-Redsea | PSNR | 25.35 | 24.77 | 23.07 | +0.58 |
| IUI3-Redsea | PSNR | 30.17 | 29.84 | 27.23 | +0.33 |
| Coral | PSNR | 29.15 | 28.19 | 28.41 | +0.96 |
| Composite | PSNR | 26.39 | 25.47 | 26.22 | +0.92 |
平均 PSNR 超过 WaterSplatting 1.05 dB,超过 SeaThru-NeRF-NS 2.88 dB。
模拟散射场景(水下+雾):
| 场景 | 指标 | OceanSplat | WaterSplatting | SeaSplat |
|---|---|---|---|---|
| 水下-NVS | PSNR | 28.80 | 28.12 | 15.62 |
| 雾-NVS | PSNR | 29.12 | 28.45 | 27.52 |
| 水下-恢复 | SSIM | 0.768 | 0.748 | 0.719 |
| 雾-恢复 | SSIM | 0.791 | 0.770 | 0.744 |
消融实验¶
| 配置 | PSNR | SSIM | LPIPS | 说明 |
|---|---|---|---|---|
| Full Model | 34.56 | 0.961 | 0.113 | 完整模型 |
| w/o \(L_{res}\) | 34.30 | 0.960 | 0.115 | 深度残差损失有效 |
| w/o \(L_{epi}\) | 33.82 | 0.959 | 0.120 | 对极深度先验贡献显著 |
| w/o \(L_{tri}\) | 33.20 | 0.957 | 0.115 | 三目一致性贡献最大(-1.36dB) |
| w/o \(\alpha^d\) | 33.90 | 0.960 | 0.116 | 深度感知透明度调整有效 |
效率对比:训练 19 分钟(vs SeaThru-NeRF 18h25m),推理 85.67 FPS,显存 7.6 GB。
关键发现¶
- 三目一致性是最重要的组件(移除后 PSNR 下降 1.36 dB)
- 对极深度先验的贡献排第二(-0.74 dB)
- 深度感知透明度调整在抑制介质伪影方面效果显著
- 所有以上组件为自监督设计,无需外部深度 GT 或标注
亮点与洞察¶
- 三目扩展的几何动机清晰:相比双目方法仅有水平约束,增加垂直虚拟视点提供了正交方向的约束,立体几何理论基础扎实
- 完全自监督的深度正则化:合成对极深度先验来自模型自身的虚拟视点三角测量,不依赖任何外部深度模型,实现了"自洽"的几何约束
- 物体-介质解耦:通过有效的几何约束促进 3D 高斯与散射介质的分离,既改善了重建质量,也支持了场景恢复(去水/去雾)
- 早期透明度调整的"预防式"策略:不是等伪影出现再修复,而是在训练初期就抑制可能产生问题的 3D 高斯
局限与展望¶
- 每次迭代需要额外的光栅化(虚拟视点渲染)和最小二乘求解,训练时间略长于 WaterSplatting(19min vs 10min)
- 虚拟视点基线长度 \(b_h, b_v\) 为经验值,可能对不同场景尺度敏感
- 目前仅在静态水下场景验证,动态场景(水流、气泡)未涉及
- 散射模型仍为简化模型,未考虑波长相关的复杂散射效应
相关工作与启发¶
- WaterSplatting (2024):隐式介质 + 显式物体的混合方法,本文的主要比较对象和基线
- SeaSplat (2024):将水下物理融入 3D 高斯,但几何约束不足
- StereoGS (2024, Han et al.):双目立体一致性正则化 3DGS,本文将其扩展为三目
- 启发:虚拟视点构造约束的思路可推广到其他退化场景(雾、烟、粉尘)的 3D 重建
评分¶
- 新颖性: ⭐⭐⭐⭐ (三目扩展动机充分,自监督深度先验设计巧妙)
- 实验充分度: ⭐⭐⭐⭐⭐ (真实+模拟,NVS+恢复,消融完整,效率比较详尽)
- 写作质量: ⭐⭐⭐⭐⭐ (公式推导完整,图示清晰,物理动机解释充分)
- 价值: ⭐⭐⭐⭐ (水下场景重建的重要推进,自监督设计实用性强)