COB-GS: Clear Object Boundaries in 3DGS Segmentation Based on Boundary-Adaptive Gaussian Splitting¶
会议: CVPR 2025
arXiv: 2503.19443
代码: https://github.com/ZestfulJX/COB-GS
领域: 3D视觉
关键词: 3D高斯溅射, 3D分割, 边界优化, 语义-纹理联合优化, 高斯分裂
一句话总结¶
提出 COB-GS,一种通过语义梯度统计驱动的边界自适应高斯分裂技术,联合优化语义信息和视觉纹理,解决 3DGS 分割中物体边界模糊的问题,在保持视觉质量的同时实现清晰的物体边界分割。
研究背景与动机¶
3D高斯溅射(3DGS)作为实时辐射场渲染技术,凭借显式表示为3D场景的感知和交互提供了新可能。然而在3D分割任务中,3DGS面临边界模糊的核心问题:高斯基元具有体积特性,在训练过程中缺乏语义引导,导致高斯基元跨越物体边缘,在两个物体之间"骑墙"。
现有3DGS分割方法分两类:(1)基于特征的方法(学习每个高斯的语义特征)存在高维特征模糊性问题;(2)基于掩码的后处理方法利用SAM生成的2D掩码为高斯分配标签,但原始场景重建忽略语义信息,导致边界高斯标签模糊。一些方法(FlashSplat、SA3D)直接删除模糊边界高斯,但这会破坏视觉质量。
核心矛盾:语义分割需要精确的物体边界,但3DGS的场景重建仅优化视觉质量,两个目标在边界区域存在冲突。
切入角度:提出首个联合优化语义和纹理的3DGS分割方法——通过mask标签的梯度方向统计精确定位模糊边界高斯并分裂,同时在优化后的边界结构上修复纹理,使两个层面相互促进。
方法详解¶
整体框架¶
分为三个阶段交替执行:(1)掩码优化阶段:优化 mask label 并进行边界自适应高斯分裂;(2)纹理优化阶段:在正确的边界结构上修复场景纹理;(3)鲁棒性增强:提取并优化因不准确掩码导致的微小模糊高斯。掩码生成使用基于SAM2的两阶段方法。
关键设计¶
-
边界自适应高斯分裂:
- 功能:利用语义梯度统计精确定位并分裂跨越物体边界的模糊高斯
- 核心思路:为每个高斯引入连续 mask label \(m_i \in (0,1)\),通过 alpha 合成渲染2D掩码;分析 mask 损失对 \(m_i\) 的梯度方向——若一个高斯既被前景像素(梯度为负)又被背景像素(梯度为正)监督,则说明它跨越边界;定义监督一致性强度 \(mask\_sig_{v,i} = |\frac{N_{v,i}^+ - N_{v,i}^-}{N_{v,i}^+ + N_{v,i}^- + \epsilon}|\),取多视角平均后低于阈值 \(\delta\) 的高斯被识别为模糊边界高斯集合 \(\{G_i\}_B\),对其中大尺度的高斯进行分裂
- 设计动机:相比现有方法逐个高斯前向投票(低效),利用反向传播中的梯度统计是一种高效的模糊高斯识别方式;梯度方向与监督类别的强相关性提供了理论保证
-
边界引导的场景纹理修复:
- 功能:在分裂后的正确边界结构上修复因分裂导致的纹理退化
- 核心思路:交替优化 mask label(冻结几何纹理)和场景纹理(冻结 mask label),使用标准3DGS纹理损失 \(\mathcal{L}_{rgb} = (1-\lambda)\mathcal{L}_1 + \lambda\mathcal{L}_{D-SSIM}\);物体级语义信息有效限制了边界高斯的体积,而在准确边界结构上优化纹理提升了新视角质量
- 设计动机:单纯的高斯分裂会破坏视觉质量,但精确的边界反过来能帮助更好地恢复纹理——语义和纹理可以相互促进
-
对不准确掩码的鲁棒性增强:
- 功能:处理因预训练模型(SAM2)产生的不准确掩码导致的不收敛微小边界高斯
- 核心思路:区分两种边界模糊来源——高斯体积导致的(通过分裂解决)和不准确掩码导致的(需要额外处理);联合优化后识别低 \(mask\_sig\) 且尺度 \(s\) 小的微小模糊高斯,直接将其移除;这些微小高斯对整体视觉质量影响极小但会影响分割边界清晰度
- 设计动机:2D模型预测的掩码具有离散性,不同视角的边界预测不一致,导致部分边界高斯的 mask label 无法收敛
损失函数 / 训练策略¶
- 掩码损失:\(\mathcal{L}_{mask} = \sum M_{jk}^v \cdot M_{render}^v + \sum (1-M_{jk}^v) \cdot M_{render}^v\),约束 \(m_i \in (0,1)\) 保证收敛
- 纹理损失:\(\mathcal{L}_{rgb} = (1-\lambda)\mathcal{L}_1 + \lambda\mathcal{L}_{D-SSIM}\)
- 交替优化策略:掩码优化(冻结几何纹理)→ 纹理优化(冻结 mask label)→ 循环迭代
- 多物体分割:分解为顺序的单物体3DGS分割,每次优化一个物体的边界后更新场景
- 两阶段掩码生成:粗阶段用低置信度 Grounding-DINO 提取 box prompt 驱动 SAM2 全序列预测;精阶段用高置信度补充断裂子序列
实验关键数据¶
主实验(NVOS 数据集分割)¶
| 方法 | 类型 | mIoU (%) ↑ | mAcc (%) ↑ |
|---|---|---|---|
| NVOS | NeRF | 70.1 | 92.0 |
| ISRF | NeRF | 83.8 | 96.4 |
| SA3D | NeRF | 90.3 | 98.2 |
| SAGD | 3DGS | 90.4 | 98.2 |
| SA3D-GS | 3DGS | 90.7 | 98.3 |
| SAGA | 3DGS | 90.9 | 98.3 |
| FlashSplat | 3DGS | 91.8 | 98.6 |
| COB-GS | 3DGS | 92.1 | 98.6 |
消融实验¶
| 组件配置 | mIoU (%) ↑ | mAcc (%) ↑ |
|---|---|---|
| 无任何优化(基线) | 91.2 | 98.3 |
| + 边界自适应高斯分裂 (BAGS) | 91.9 | 98.5 |
| + BAGS + 纹理修复 (BGTR) | 91.9 | 98.4 |
| + BAGS + BGTR + 鲁棒性增强 (RAEM) | 92.1 | 98.6 |
纹理质量(PSNR)¶
| 方法 | 平均 PSNR ↑ |
|---|---|
| 原始场景 (Vanilla) | 23.06 |
| 仅 Mask 优化 (M.O) | 22.61 (下降) |
| 仅 Texture 优化 (T.O) | 23.07 |
| 联合优化 (M.O+T.O) | 23.13 (提升) |
关键发现¶
- COB-GS 在 mIoU 上达到 92.1%,超越所有现有方法,同时视觉质量最优(CLIP-IQA 三项指标全部最高)
- 联合优化语义+纹理不仅没有降低视觉质量,反而因为精确边界结构而略微提升了 PSNR(23.06→23.13)
- 仅做高斯分裂会降低纹理质量(PSNR 从 23.06 降至 22.61),但加上纹理修复后恢复并超过原始质量
- \(\delta=0.5\) 是模糊阈值的最佳选择,过大会引入过多不必要的分裂
亮点与洞察¶
- 首个联合优化语义和纹理的3DGS分割方法:证明了精确边界能反过来提升视觉质量,实现双赢
- 梯度方向统计作为模糊高斯检测器:理论推导简洁有力,\(mask\_sig\) 变量直接从反向传播中获取,几乎零额外计算开销
- 区分高斯体积导致的模糊和不准确掩码导致的模糊两种来源,分别处理,更加精确
- 多物体分割分解为顺序单物体处理的策略简单有效,解决了特征方法的粒度固定问题
- 两阶段 SAM2 掩码生成解决了长序列物体连续性问题
局限与展望¶
- 3DGS 重建中的浮动伪影会在分割后被放大
- 顺序单物体优化策略在物体数量多时效率较低
- 对于高度重叠的物体,分裂策略可能不够有效
- 阈值 \(\delta\) 需要调整,对不同场景可能需要不同值
- 依赖 SAM2 / Grounding-DINO 的掩码质量
相关工作与启发¶
- SA3D 开创了基于掩码的3D分割,但未处理边界模糊问题
- FlashSplat 通过线性规划和背景偏置减少边界模糊,但牺牲了物体结构完整性
- SAGD 使用高斯分解但未联合优化纹理
- 该方法的"梯度统计→分裂"思路可推广到其他需要精确边界的3DGS任务(如编辑、生成)
- 联合优化思想可启发其他模态的分割任务
评分¶
- 新颖性: ⭐⭐⭐⭐ 语义梯度统计驱动的分裂和联合优化是独特贡献
- 实验充分度: ⭐⭐⭐⭐ 定量+定性+消融完整,多场景验证
- 写作质量: ⭐⭐⭐⭐ 问题分析深入,方法推导清晰
- 价值: ⭐⭐⭐⭐ 对3DGS分割的边界质量提升有实际意义