跳转至

WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images

会议: ICCV 2025
arXiv: 2503.08407
代码: 即将公开
领域: 3D视觉
关键词: 3D分割, 前馈式, SAM2, 全局对齐, 实时交互

一句话总结

提出 WildSeg3D,首个前馈式3D分割模型,无需场景特定训练,通过动态全局对齐(DGA)解决多视角点图对齐误差,结合多视角组映射(MGM)实现实时交互式3D分割,比现有SOTA快40倍且精度更优。

研究背景与动机

交互式3D分割(从2D图像分割3D物体)在VR/AR、实时交互系统和自动标注中有广泛应用。

现有方法的共同瓶颈

NeRF-based方法(SA3D, SANeRF-HQ):与SAM结合实现3D分割,但NeRF需要大量场景特定训练时间

3DGS-based方法(SAGA, Gaussian Grouping, Feature3DGS):比NeRF更快,但仍需构建Gaussian特征场的训练过程

共同问题:所有方法都依赖场景特定训练来获取精确的3D先验,严重阻碍实时应用

关键挑战:前馈方式(如DUSt3R/MASt3R)可以避免场景特定训练,但多视角点图的3D对齐误差会累积,导致目标物体与背景混淆,分割精度下降。

方法详解

整体框架

三阶段流水线: 1. 2D掩码预处理(离线):SAM2全景分割 → 多视角跟踪 → 掩码缓存 2. 动态全局对齐(DGA):动态权重调整 → 优化多视角点图对齐 3. 多视角组映射(MGM)(实时):用户提示 → 检索掩码缓存 → 映射到3D空间

动态全局对齐(DGA)

标准全局对齐(MASt3R)对所有像素同等处理,但背景差异大、目标遮挡等导致对齐不准。DGA引入三个创新:

1. 软掩码+置信度聚合:将SAM2掩码与点图置信度融合

\[F_i^{v,e} = \sigma(S_i^v \times C_i^{v,e})\]

2. 动态调整函数:对难匹配的点(置信度≈0.5)给予更多关注

\[A_i^{v,e} = \frac{F_i^{v,e} + \alpha_i^{v,e} \cdot F_i^{v,e} \cdot (1 - F_i^{v,e})}{1 + |\alpha_i^{v,e}| \cdot F_i^{v,e} \cdot (1 - F_i^{v,e}) + \epsilon}\]

其中 \(\alpha\) 对已匹配点取正值 \(\alpha_p\),未匹配点取负值 \(-\alpha_n\)

3. 优化的对齐损失

\[\chi^* = \arg\min_{\chi, P, \sigma} \sum_{e \in \mathcal{E}} \sum_{v \in e} \sum_{i=1}^{HW} W_i^{v,e} \|\chi_i^v - \sigma_e P_e X_i^{v,e}\|\]

多视角组映射(MGM)

实时阶段:用户在某一视角提供prompt → 从掩码缓存检索对应目标的所有视角掩码 → 通过DGA学到的变换矩阵将掩码映射到对齐的3D空间 → 5-20ms内返回结果。

掩码缓存机制

离线利用SAM2的视频跟踪能力: 1. 在单一视角进行全景分割 2. SAM2跟踪功能将物体掩码传播到所有视角 3. 存储为离线缓存,运行时直接查询

实验

NVOS数据集主实验

方法 需场景训练 mIoU(%) mAcc(%) 总时间
NVOS 70.1 92.0 -
SA3D 90.3 98.2 780s
SAGA 90.9 98.3 2280s
OmniSeg3D 91.7 98.4 8220s
FlashSplat 91.8 98.6 1500s
WildSeg3D 94.1 99.0 30s

WildSeg3D不需要场景特定训练,但在精度上超越所有需要训练的方法,同时速度快40×+。

效率对比

指标 SA3D SAGA OmniSeg3D WildSeg3D
场景重建时间 780s 2280s 8220s <30s
交互响应时间 数秒 数秒 数秒 5-20ms

消融实验

消融内容 关键发现
标准对齐 vs DGA DGA显著提升目标物体对齐精度,减少背景干扰
软掩码作用 软掩码聚焦目标区域,抑制背景特征对对齐的负面影响
动态调整函数 对分类边界附近(置信度≈0.5)的难点给予更高权重
掩码缓存 离线预处理使交互阶段无需在线分割,响应时间降至毫秒级

关键发现

  1. 无需训练即超越训练方法:前馈机制+精确对齐就能达到甚至超越依赖场景训练的方法
  2. 40×加速:从780s(SA3D)降至30s,交互响应5-20ms
  3. 鲁棒泛化:无需适配即可在不同场景上工作

亮点与洞察

  1. 前馈范式革新:完全抛弃场景特定训练,使3D分割真正实用化
  2. DGA的核心思想:通过动态关注"难点"提升对齐质量——置信度低的点往往是物体边界或遮挡区域
  3. 离线-在线解耦:SAM2分割离线完成并缓存,运行时只做3D映射查表,实现毫秒级响应

局限性

  1. 依赖MASt3R的点图预测质量,纹理缺失区域可能对齐失败
  2. SAM2的全景分割质量直接影响最终结果
  3. 稀疏视角下对齐精度可能下降

相关工作

  • 3D重建:NeRF, 3DGS, DUSt3R, MASt3R
  • 交互式3D分割:SA3D, SAGA, Feature3DGS, FlashSplat
  • 基础模型:SAM, SAM2

评分

  • 新颖性:⭐⭐⭐⭐⭐ — 首个前馈式3D分割模型,范式性创新
  • 技术深度:⭐⭐⭐⭐ — DGA动态调整函数设计有理论基础
  • 实验完整性:⭐⭐⭐⭐ — 速度/精度对比充分,消融清晰
  • 实用价值:⭐⭐⭐⭐⭐ — 30s重建+毫秒级交互,真正可部署