Easy3D: A Simple Yet Effective Method for 3D Interactive Segmentation¶

论文信息¶

会议: ICCV 2025
arXiv: 2504.11024
代码: simonelli-andrea.github.io/easy3d
领域: 3D Vision / 3D 交互式分割
关键词: 3D交互式实例分割, 体素编码器, 隐式点击融合, 负嵌入, 跨域泛化
作者: Andrea Simonelli, Norman Müller, Peter Kontschieder (Meta Reality Labs Zürich)

一句话总结¶

提出 Easy3D，一种简洁高效的 3D 交互式实例分割方法，结合体素稀疏编码器、轻量 Transformer 解码器和隐式点击融合策略，在域内和域外数据集上一致性地超越 SOTA，并首次将学习的负嵌入 (learned negative embedding) 成功应用于隐式点击融合。

研究背景与动机¶

随着 3D 数字环境（通过 NeRF、3DGS、激光扫描等获取）的普及，3D 交互式分割的需求日益增长。用户可以通过 3D 点击定义目标物体，系统生成分割掩码，用户可以通过正/负点击迭代修正结果。

现有方法存在两大局限：

AGILE3D：使用体素编码器 + 显式点击融合（per-click mask 的 max 操作），在域外数据上泛化差

Point-SAM：使用 ViT 编码器 + 隐式点击融合，参数量大、效率低，且 point-group 表示缺乏通用性

核心观察：体素表示的域无关性（domain-independent）和隐式点击融合的强泛化性可以结合取长补短。

方法详解¶

整体架构¶

输入：3D 场景点云 \(S_P \in \mathbb{R}^{N_P \times 6}\)（每点 3D 坐标 + 颜色）和用户点击集 \(C = \{c_1, ..., c_{N_C}\} \in \mathbb{R}^{N_C \times 4}\)（每点击 3D 坐标 + 正/负标签）

流程： 1. 场景预处理：将点云体素化为 \(S_V\)，分辨率 \(V_S = 5\)cm 2. 场景编码：稀疏 U-Net 编码体素化场景 → 场景嵌入 \(S_E\) 3. 点击编码：位置编码 + 标签编码 → 点击嵌入 \(C_E\) 4. 解码：Two-Way Transformer 双向注意力交互更新 \(S_E\) 和 \(C_E\) 5. 点击融合：隐式融合得到分割掩码 \(M_V\) 6. 后处理：映射回原始点云获得 \(M_P\)

体素化 vs Point-Group¶

体素化的优势： - 降维同时保持显式、通用的度量分辨率 - 可利用高效稀疏卷积库（SpConv） - 域无关表示，对物体类型/密度变化更鲁棒 - Point-SAM 的 point-group 依赖于特定数据集的几何和密度分布

隐式 vs 显式点击融合（核心对比）¶

显式融合（AGILE3D）： - 每个点击预测独立掩码 → max 操作合并 - 解码器不感知正/负标签（仅在 max 操作中区分） - 单个点击掩码在域外数据上置信度低，融合效果差

隐式融合（Easy3D/SAM）： - 引入学习的 Output Embedding，在解码器中与所有点击嵌入一起参与注意力 - 解码器感知正/负标签，通过注意力机制综合所有点击信息 - 最终掩码 = 更新后 Output Embedding 与场景嵌入的点积

学习负嵌入 (Learned Negative Embedding) — 首次用于隐式融合¶

引入第二个学习的输出嵌入（负输出嵌入），类似 AGILE3D 中的无位置负点击： - 在训练中自动学习哪些场景部分通常是背景 - 最终掩码 = 正输出嵌入掩码 > 负输出嵌入掩码的区域 - 即使只有 1 个用户点击也能有效排除背景

训练¶

模拟用户交互：自动选择点击（首次在物体中心，后续在最大错误区域中心）
迭代 \(N_C = 10\) 次点击
损失：DICE + Cross Entropy，等权，每轮累积后一次反传
训练 1k epochs，PyTorch + SpConv，lr=1e-4，多项式衰减

实验关键数据¶

主实验：跨数据集交互式分割（Table 1，均仅在 ScanNet40 训练）¶

测试集	方法	IoU@1	IoU@2	IoU@3	IoU@5	IoU@10
ScanNet40	AGILE3D	63.0	70.6	75.1	79.7	83.5
ScanNet40	Easy3D	68.2	74.6	77.3	79.6	81.7
S3DIS	AGILE3D	58.5	70.7	77.4	83.6	88.3
S3DIS	Point-SAM	38.8	—	67.1	72.2	80.6
S3DIS	Easy3D	65.7	76.0	80.8	84.9	87.8
KITTI-360	AGILE3D	34.8	40.7	42.7	44.4	49.6
KITTI-360	Point-SAM	44.0	—	67.1	72.2	80.8
KITTI-360	Easy3D	46.3	58.7	66.7	76.2	83.6

在最具挑战的域外数据集 KITTI-360 上，Easy3D 的 IoU@10 达到 83.6，比 AGILE3D 高 +34。

消融：点击融合策略 + 负嵌入（Table 3）¶

测试集	融合	负嵌入	IoU@1	IoU@3	IoU@10
ScanNet40	显式	✗	59.6	73.2	82.6
ScanNet40	显式	✓	62.7	75.2	83.6
ScanNet40	隐式	✗	66.4	76.3	81.2
ScanNet40	隐式	✓	68.2	77.3	81.7
KITTI-360	显式	✗	31.0	40.0	46.3
KITTI-360	显式	✓	34.5	42.6	48.2
KITTI-360	隐式	✗	44.9	65.7	83.2
KITTI-360	隐式	✓	46.3	66.7	83.6

与非交互方法对比（Table 2，仅 ScanNet20 训练）¶

设置	方法	mAP	AP50	AP25
ScanNet20→ScanNet20	Mask3D	51.5	77.0	90.2
ScanNet20→ScanNet20	AGILE3D	53.5	75.6	91.3
ScanNet20→ScanNet20	Easy3D	56.1	79.5	93.1
ScanNet20→ScanNet40	Mask3D	5.3	13.1	24.7
ScanNet20→ScanNet40	AGILE3D	24.8	45.7	72.4
ScanNet20→ScanNet40	Easy3D	39.2	64.6	85.5

在 unseen 类上优势极为明显（mAP 39.2 vs 24.8）。

关键发现¶

隐式融合在域外泛化上远超显式：KITTI-360 上 IoU@10 相差 +73%（83.6 vs 48.2）
显式融合在域内 + 多点击时有微弱优势：因为每个点击的掩码在已知域内置信度高
负嵌入一致性提升所有设置：无论隐式/显式融合，无论域内/域外
体素>点组：域无关的体素表示带来更稳定的跨域表现
甚至适用于 Gaussian Splatting 场景：GS-ScanNet40 上优势显著

亮点与洞察¶

"Easy" 的名字恰如其分：简洁地组合已有组件（体素编码器 + 隐式融合 + 负嵌入），但效果出众
首次系统分析隐式 vs 显式融合：清晰揭示了两种策略的优劣场景
VR 应用演示：在消费级头显上实现实时 3D 交互式分割 + 物体操控，实用性强
无需预训练，从头训练 1k epochs 即可

局限性¶

隐式融合在域内 + 大量点击时略逊于显式融合（差距很小）
体素分辨率 5cm 固定，极精细/极大场景可能受限
目前仅支持单物体分割场景
缺乏对 ScanNet++ 上更多分析

评分 ⭐⭐⭐⭐¶

方法简洁有效，工程设计优良。消融实验清晰展示了各组件的贡献。跨域泛化能力非常出色，尤其在 KITTI-360 和 GS 场景上。VR 应用演示增加了实用价值。