跳转至

GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation

会议: ICLR 2026
arXiv: 2510.02186
代码:
领域: 3D视觉
关键词: 开放词汇3D分割, 知识蒸馏, 几何先验, VLM特征净化, 数据高效

一句话总结

提出 GeoPurify 框架,通过从 3D 自监督教师模型蒸馏几何先验来净化 2D VLM 投影到 3D 的噪声特征,仅用约 1.5% 的训练数据即可达到或超越全量训练的 SOTA 开放词汇 3D 分割性能。

研究背景与动机

开放词汇 3D 场景理解旨在让模型识别任意文本描述的物体,核心挑战在于将 2D VLM 语义迁移到 3D 时存在一个根本性权衡:

Training-free 方法:直接将多视图 2D 预测投影到 3D 点云并合并,导致严重的几何不一致

Training-based 方法:学习点级别的 3D-语义映射,但需要大规模标注数据

关键假设:VLM 特征从 2D 迁移到 3D 时,几何信息并未被破坏,而是变成了潜在的(latent),可以通过高效的恢复手段提取出来,而非从头学习 3D 几何。

方法详解

整体框架

GeoPurify 包含训练和推理两个阶段:

  • 训练阶段:Student Affinity Network 学习 3D 结构,通过对比蒸馏模仿冻结的 3D SSL 教师模型(Sonata)。不需要 3D 语义标签
  • 推理阶段:冻结的 2D VLM(X-Decoder)生成初始 3D 特征,然后用预训练的 Student 进行几何感知池化

关键设计

(1)从通用 VLM 获取语义初始化

采用 X-Decoder 而非传统的"分割后匹配"流程(如 LSeg, OpenSeg, SAM+CLIP)。X-Decoder 遵循"分割即理解"范式,其统一的视觉-语言嵌入空间提供更高的语义天花板。对每个点从所有可见视图采样特征并加权平均。

(2)几何对比蒸馏

教师模型:冻结的 Sonata(3D 自监督基础模型),提供鲁棒的几何目标空间。学生模型:可训练的稀疏 3D CNN,输出 128 维几何嵌入。

高效的混合采样策略:

  • Macro-negatives(48个):全局最不相似的点,学习整体场景结构
  • Micro-negatives(16个):空间近邻中特征最不相似的点,区分边界处细粒度差异

InfoNCE 对比损失,温度 tau = 0.07,每场景 4096 锚点。

(3)几何引导池化(推理时)

  1. Student 网络为每个体素生成几何嵌入
  2. 构建稀疏亲和矩阵 A,K 近邻 + 尖锐化 softmax(alpha = 1/20)
  3. 迭代池化:F^{(t+1)} = A * F^{(t)},T=18 次
  4. 精炼后的体素特征映射回原始点

损失函数 / 训练策略

  • 损失:InfoNCE 对比损失,温度 0.07
  • 优化器:AdamW,lr 1e-3,cosine 退火,50 epochs
  • 训练规模:仅 20 个场景(ScanNetV2 的约 1.6%),无 3D 语义标签
  • 数据子集选择:基于 Shannon 熵(语义复杂度)+ 类别数(语义丰富度)的联合评分,K-Means 聚类确保环境多样性
  • 硬件:单张 NVIDIA L40 GPU

实验关键数据

主实验:开放词汇 3D 语义分割

方法 训练数据 ScanNetV2 mIoU ScanNetV2 mAcc Matterport3D mIoU Matterport3D mAcc
OpenScene-3D 100% 51.6 63.1 40.5 48.8
CUA-O3D (3D) 100% 54.1 64.1 41.3 49.5
OV3D 100% 57.3 72.9 45.8 62.4
CUA-O3D(同数据) 约1.5% 18.1 26.4 14.0 20.5
GeoPurify 约1.5% 55.1 72.5 40.2 62.4

跨数据集迁移

方向 OpenScene CUA-O3D GeoPurify
ScanNetV2 -> Matterport3D mIoU 36.0 37.4 40.5
Matterport3D -> ScanNetV2 mIoU 36.5 38.6 54.9

消融实验

组件 设置 mIoU mAcc
无几何净化 直接聚合 2D 特征 50.2 68.1
+ GeoPurify 完整框架 55.1 72.5
2D 骨干 LSeg 48.6 61.6
2D 骨干 LSeg + GeoPurify 51.2 63.0
采样策略 仅 Macro-negatives 53.5 70.8
采样策略 Hybrid(完整) 55.1 72.5
池化迭代 T=1 / T=18 / T=36 52.3 / 55.1 / 55.1 70.2 / 72.5 / 72.4
训练场景数 10 / 20 / 50 54.7 / 55.1 / 55.0 72.4 / 72.5 / 72.5

关键发现

  1. 极致数据效率:用 1.5% 数据达到全量训练竞品水平(55.1 vs 54.1),同等数据下竞品 CUA-O3D 崩至 18.1
  2. 几何净化增益 +4.9 mIoU:从 50.2 提升到 55.1
  3. Micro-negatives 关键:提供 +1.6 mIoU 边界精度增益
  4. 20 场景即饱和:10 到 20 场景有明显提升,之后基本收敛
  5. 跨数据集迁移优势巨大:Matterport3D 到 ScanNetV2 达 54.9 mIoU,领先 CUA-O3D 16.3 分

亮点与洞察

  • 恢复潜在结构 vs 从头学习:核心假设极具洞察力,2D 到 3D 迁移不会破坏几何信息
  • 解耦设计的鲁棒性:语义由 VLM 负责、几何由 Student 负责,各自独立
  • 类无关的几何先验:学到的几何关联不依赖语义类别,跨数据集迁移极强
  • 数据选择策略:基于 Shannon 熵的场景选择比随机选择更高效

局限与展望

  1. mIoU vs mAcc 的权衡:几何池化提升召回率但在边界处可能引起语义溢出
  2. 性能上界受 VLM 限制:20 场景后即收敛,瓶颈在 VLM 语义质量
  3. 迭代池化的 over-smoothing:T>18 后开始退化
  4. 未探索室外场景:仅在室内基准上验证

相关工作与启发

  • OpenScene:大规模 3D 知识蒸馏,GeoPurify 用 1.5% 数据匹敌
  • CUA-O3D:全量训练 SOTA,GeoPurify 在低数据下远超
  • Sonata:3D 自监督教师模型,提供几何先验
  • 启发:解耦语义和几何学习可能是数据高效 3D 理解的关键范式

评分

  • 新颖性:4/5 - 恢复潜在几何结构的假设和解耦框架设计新颖
  • 技术深度:4/5 - 对比蒸馏 + 几何池化的组合设计精巧
  • 实验完整度:5/5 - 三大基准、跨数据集、详尽消融
  • 实用价值:5/5 - 1.5% 数据即达 SOTA,极具实际部署价值