GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation¶
会议: ICLR 2026
arXiv: 2510.02186
代码: 有
领域: 3D视觉
关键词: 开放词汇3D分割, 知识蒸馏, 几何先验, VLM特征净化, 数据高效
一句话总结¶
提出 GeoPurify 框架,通过从 3D 自监督教师模型蒸馏几何先验来净化 2D VLM 投影到 3D 的噪声特征,仅用约 1.5% 的训练数据即可达到或超越全量训练的 SOTA 开放词汇 3D 分割性能。
研究背景与动机¶
开放词汇 3D 场景理解旨在让模型识别任意文本描述的物体,核心挑战在于将 2D VLM 语义迁移到 3D 时存在一个根本性权衡:
Training-free 方法:直接将多视图 2D 预测投影到 3D 点云并合并,导致严重的几何不一致
Training-based 方法:学习点级别的 3D-语义映射,但需要大规模标注数据
关键假设:VLM 特征从 2D 迁移到 3D 时,几何信息并未被破坏,而是变成了潜在的(latent),可以通过高效的恢复手段提取出来,而非从头学习 3D 几何。
方法详解¶
整体框架¶
GeoPurify 包含训练和推理两个阶段:
- 训练阶段:Student Affinity Network 学习 3D 结构,通过对比蒸馏模仿冻结的 3D SSL 教师模型(Sonata)。不需要 3D 语义标签
- 推理阶段:冻结的 2D VLM(X-Decoder)生成初始 3D 特征,然后用预训练的 Student 进行几何感知池化
关键设计¶
(1)从通用 VLM 获取语义初始化
采用 X-Decoder 而非传统的"分割后匹配"流程(如 LSeg, OpenSeg, SAM+CLIP)。X-Decoder 遵循"分割即理解"范式,其统一的视觉-语言嵌入空间提供更高的语义天花板。对每个点从所有可见视图采样特征并加权平均。
(2)几何对比蒸馏
教师模型:冻结的 Sonata(3D 自监督基础模型),提供鲁棒的几何目标空间。学生模型:可训练的稀疏 3D CNN,输出 128 维几何嵌入。
高效的混合采样策略:
- Macro-negatives(48个):全局最不相似的点,学习整体场景结构
- Micro-negatives(16个):空间近邻中特征最不相似的点,区分边界处细粒度差异
InfoNCE 对比损失,温度 tau = 0.07,每场景 4096 锚点。
(3)几何引导池化(推理时)
- Student 网络为每个体素生成几何嵌入
- 构建稀疏亲和矩阵 A,K 近邻 + 尖锐化 softmax(alpha = 1/20)
- 迭代池化:F^{(t+1)} = A * F^{(t)},T=18 次
- 精炼后的体素特征映射回原始点
损失函数 / 训练策略¶
- 损失:InfoNCE 对比损失,温度 0.07
- 优化器:AdamW,lr 1e-3,cosine 退火,50 epochs
- 训练规模:仅 20 个场景(ScanNetV2 的约 1.6%),无 3D 语义标签
- 数据子集选择:基于 Shannon 熵(语义复杂度)+ 类别数(语义丰富度)的联合评分,K-Means 聚类确保环境多样性
- 硬件:单张 NVIDIA L40 GPU
实验关键数据¶
主实验:开放词汇 3D 语义分割¶
| 方法 | 训练数据 | ScanNetV2 mIoU | ScanNetV2 mAcc | Matterport3D mIoU | Matterport3D mAcc |
|---|---|---|---|---|---|
| OpenScene-3D | 100% | 51.6 | 63.1 | 40.5 | 48.8 |
| CUA-O3D (3D) | 100% | 54.1 | 64.1 | 41.3 | 49.5 |
| OV3D | 100% | 57.3 | 72.9 | 45.8 | 62.4 |
| CUA-O3D(同数据) | 约1.5% | 18.1 | 26.4 | 14.0 | 20.5 |
| GeoPurify | 约1.5% | 55.1 | 72.5 | 40.2 | 62.4 |
跨数据集迁移¶
| 方向 | OpenScene | CUA-O3D | GeoPurify |
|---|---|---|---|
| ScanNetV2 -> Matterport3D mIoU | 36.0 | 37.4 | 40.5 |
| Matterport3D -> ScanNetV2 mIoU | 36.5 | 38.6 | 54.9 |
消融实验¶
| 组件 | 设置 | mIoU | mAcc |
|---|---|---|---|
| 无几何净化 | 直接聚合 2D 特征 | 50.2 | 68.1 |
| + GeoPurify | 完整框架 | 55.1 | 72.5 |
| 2D 骨干 | LSeg | 48.6 | 61.6 |
| 2D 骨干 | LSeg + GeoPurify | 51.2 | 63.0 |
| 采样策略 | 仅 Macro-negatives | 53.5 | 70.8 |
| 采样策略 | Hybrid(完整) | 55.1 | 72.5 |
| 池化迭代 | T=1 / T=18 / T=36 | 52.3 / 55.1 / 55.1 | 70.2 / 72.5 / 72.4 |
| 训练场景数 | 10 / 20 / 50 | 54.7 / 55.1 / 55.0 | 72.4 / 72.5 / 72.5 |
关键发现¶
- 极致数据效率:用 1.5% 数据达到全量训练竞品水平(55.1 vs 54.1),同等数据下竞品 CUA-O3D 崩至 18.1
- 几何净化增益 +4.9 mIoU:从 50.2 提升到 55.1
- Micro-negatives 关键:提供 +1.6 mIoU 边界精度增益
- 20 场景即饱和:10 到 20 场景有明显提升,之后基本收敛
- 跨数据集迁移优势巨大:Matterport3D 到 ScanNetV2 达 54.9 mIoU,领先 CUA-O3D 16.3 分
亮点与洞察¶
- 恢复潜在结构 vs 从头学习:核心假设极具洞察力,2D 到 3D 迁移不会破坏几何信息
- 解耦设计的鲁棒性:语义由 VLM 负责、几何由 Student 负责,各自独立
- 类无关的几何先验:学到的几何关联不依赖语义类别,跨数据集迁移极强
- 数据选择策略:基于 Shannon 熵的场景选择比随机选择更高效
局限与展望¶
- mIoU vs mAcc 的权衡:几何池化提升召回率但在边界处可能引起语义溢出
- 性能上界受 VLM 限制:20 场景后即收敛,瓶颈在 VLM 语义质量
- 迭代池化的 over-smoothing:T>18 后开始退化
- 未探索室外场景:仅在室内基准上验证
相关工作与启发¶
- OpenScene:大规模 3D 知识蒸馏,GeoPurify 用 1.5% 数据匹敌
- CUA-O3D:全量训练 SOTA,GeoPurify 在低数据下远超
- Sonata:3D 自监督教师模型,提供几何先验
- 启发:解耦语义和几何学习可能是数据高效 3D 理解的关键范式
评分¶
- 新颖性:4/5 - 恢复潜在几何结构的假设和解耦框架设计新颖
- 技术深度:4/5 - 对比蒸馏 + 几何池化的组合设计精巧
- 实验完整度:5/5 - 三大基准、跨数据集、详尽消融
- 实用价值:5/5 - 1.5% 数据即达 SOTA,极具实际部署价值