COB-GS: Clear Object Boundaries in 3DGS Segmentation Based on Boundary-Adaptive Gaussian Splitting¶

会议: CVPR 2025
arXiv: 2503.19443
代码: https://github.com/ZestfulJX/COB-GS
领域: 3D视觉
关键词: 3D高斯溅射, 3D分割, 边界优化, 语义-纹理联合优化, 高斯分裂

一句话总结¶

提出 COB-GS，一种通过语义梯度统计驱动的边界自适应高斯分裂技术，联合优化语义信息和视觉纹理，解决 3DGS 分割中物体边界模糊的问题，在保持视觉质量的同时实现清晰的物体边界分割。

研究背景与动机¶

3D高斯溅射（3DGS）作为实时辐射场渲染技术，凭借显式表示为3D场景的感知和交互提供了新可能。然而在3D分割任务中，3DGS面临边界模糊的核心问题：高斯基元具有体积特性，在训练过程中缺乏语义引导，导致高斯基元跨越物体边缘，在两个物体之间"骑墙"。

现有3DGS分割方法分两类：（1）基于特征的方法（学习每个高斯的语义特征）存在高维特征模糊性问题；（2）基于掩码的后处理方法利用SAM生成的2D掩码为高斯分配标签，但原始场景重建忽略语义信息，导致边界高斯标签模糊。一些方法（FlashSplat、SA3D）直接删除模糊边界高斯，但这会破坏视觉质量。

核心矛盾：语义分割需要精确的物体边界，但3DGS的场景重建仅优化视觉质量，两个目标在边界区域存在冲突。

切入角度：提出首个联合优化语义和纹理的3DGS分割方法——通过mask标签的梯度方向统计精确定位模糊边界高斯并分裂，同时在优化后的边界结构上修复纹理，使两个层面相互促进。

方法详解¶

整体框架¶

分为三个阶段交替执行：（1）掩码优化阶段：优化 mask label 并进行边界自适应高斯分裂；（2）纹理优化阶段：在正确的边界结构上修复场景纹理；（3）鲁棒性增强：提取并优化因不准确掩码导致的微小模糊高斯。掩码生成使用基于SAM2的两阶段方法。

关键设计¶

边界自适应高斯分裂:
- 功能：利用语义梯度统计精确定位并分裂跨越物体边界的模糊高斯
- 核心思路：为每个高斯引入连续 mask label \(m_i \in (0,1)\)，通过 alpha 合成渲染2D掩码；分析 mask 损失对 \(m_i\) 的梯度方向——若一个高斯既被前景像素（梯度为负）又被背景像素（梯度为正）监督，则说明它跨越边界；定义监督一致性强度 \(mask\_sig_{v,i} = |\frac{N_{v,i}^+ - N_{v,i}^-}{N_{v,i}^+ + N_{v,i}^- + \epsilon}|\)，取多视角平均后低于阈值 \(\delta\) 的高斯被识别为模糊边界高斯集合 \(\{G_i\}_B\)，对其中大尺度的高斯进行分裂
- 设计动机：相比现有方法逐个高斯前向投票（低效），利用反向传播中的梯度统计是一种高效的模糊高斯识别方式；梯度方向与监督类别的强相关性提供了理论保证
边界引导的场景纹理修复:
- 功能：在分裂后的正确边界结构上修复因分裂导致的纹理退化
- 核心思路：交替优化 mask label（冻结几何纹理）和场景纹理（冻结 mask label），使用标准3DGS纹理损失 \(\mathcal{L}_{rgb} = (1-\lambda)\mathcal{L}_1 + \lambda\mathcal{L}_{D-SSIM}\)；物体级语义信息有效限制了边界高斯的体积，而在准确边界结构上优化纹理提升了新视角质量
- 设计动机：单纯的高斯分裂会破坏视觉质量，但精确的边界反过来能帮助更好地恢复纹理——语义和纹理可以相互促进
对不准确掩码的鲁棒性增强:
- 功能：处理因预训练模型（SAM2）产生的不准确掩码导致的不收敛微小边界高斯
- 核心思路：区分两种边界模糊来源——高斯体积导致的（通过分裂解决）和不准确掩码导致的（需要额外处理）；联合优化后识别低 \(mask\_sig\) 且尺度 \(s\) 小的微小模糊高斯，直接将其移除；这些微小高斯对整体视觉质量影响极小但会影响分割边界清晰度
- 设计动机：2D模型预测的掩码具有离散性，不同视角的边界预测不一致，导致部分边界高斯的 mask label 无法收敛

损失函数 / 训练策略¶

掩码损失：\(\mathcal{L}_{mask} = \sum M_{jk}^v \cdot M_{render}^v + \sum (1-M_{jk}^v) \cdot M_{render}^v\)，约束 \(m_i \in (0,1)\) 保证收敛
纹理损失：\(\mathcal{L}_{rgb} = (1-\lambda)\mathcal{L}_1 + \lambda\mathcal{L}_{D-SSIM}\)
交替优化策略：掩码优化（冻结几何纹理）→ 纹理优化（冻结 mask label）→ 循环迭代
多物体分割：分解为顺序的单物体3DGS分割，每次优化一个物体的边界后更新场景
两阶段掩码生成：粗阶段用低置信度 Grounding-DINO 提取 box prompt 驱动 SAM2 全序列预测；精阶段用高置信度补充断裂子序列

实验关键数据¶

主实验（NVOS 数据集分割）¶

方法	类型	mIoU (%) ↑	mAcc (%) ↑
NVOS	NeRF	70.1	92.0
ISRF	NeRF	83.8	96.4
SA3D	NeRF	90.3	98.2
SAGD	3DGS	90.4	98.2
SA3D-GS	3DGS	90.7	98.3
SAGA	3DGS	90.9	98.3
FlashSplat	3DGS	91.8	98.6
COB-GS	3DGS	92.1	98.6

消融实验¶

组件配置	mIoU (%) ↑	mAcc (%) ↑
无任何优化（基线）	91.2	98.3
+ 边界自适应高斯分裂 (BAGS)	91.9	98.5
+ BAGS + 纹理修复 (BGTR)	91.9	98.4
+ BAGS + BGTR + 鲁棒性增强 (RAEM)	92.1	98.6

纹理质量（PSNR）¶

方法	平均 PSNR ↑
原始场景 (Vanilla)	23.06
仅 Mask 优化 (M.O)	22.61 (下降)
仅 Texture 优化 (T.O)	23.07
联合优化 (M.O+T.O)	23.13 (提升)

关键发现¶

COB-GS 在 mIoU 上达到 92.1%，超越所有现有方法，同时视觉质量最优（CLIP-IQA 三项指标全部最高）
联合优化语义+纹理不仅没有降低视觉质量，反而因为精确边界结构而略微提升了 PSNR（23.06→23.13）
仅做高斯分裂会降低纹理质量（PSNR 从 23.06 降至 22.61），但加上纹理修复后恢复并超过原始质量
\(\delta=0.5\) 是模糊阈值的最佳选择，过大会引入过多不必要的分裂

亮点与洞察¶

首个联合优化语义和纹理的3DGS分割方法：证明了精确边界能反过来提升视觉质量，实现双赢
梯度方向统计作为模糊高斯检测器：理论推导简洁有力，\(mask\_sig\) 变量直接从反向传播中获取，几乎零额外计算开销
区分高斯体积导致的模糊和不准确掩码导致的模糊两种来源，分别处理，更加精确
多物体分割分解为顺序单物体处理的策略简单有效，解决了特征方法的粒度固定问题
两阶段 SAM2 掩码生成解决了长序列物体连续性问题

局限与展望¶

3DGS 重建中的浮动伪影会在分割后被放大
顺序单物体优化策略在物体数量多时效率较低
对于高度重叠的物体，分裂策略可能不够有效
阈值 \(\delta\) 需要调整，对不同场景可能需要不同值
依赖 SAM2 / Grounding-DINO 的掩码质量

评分¶

新颖性: ⭐⭐⭐⭐ 语义梯度统计驱动的分裂和联合优化是独特贡献
实验充分度: ⭐⭐⭐⭐ 定量+定性+消融完整，多场景验证
写作质量: ⭐⭐⭐⭐ 问题分析深入，方法推导清晰
价值: ⭐⭐⭐⭐ 对3DGS分割的边界质量提升有实际意义