GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation¶
会议: ICLR 2026
arXiv: 2510.02186
代码: 有
领域: 3D视觉
关键词: 开放词汇3D分割, 知识蒸馏, 几何先验, VLM特征净化, 数据高效
一句话总结¶
提出 GeoPurify 框架,通过从 3D 自监督教师模型蒸馏几何先验来净化 2D VLM 投影到 3D 的噪声特征,仅用约 1.5% 的训练数据即可达到或超越全量训练的 SOTA 开放词汇 3D 分割性能。
研究背景与动机¶
开放词汇 3D 场景理解旨在让模型识别任意文本描述的物体,核心挑战在于将 2D VLM 语义迁移到 3D 时存在一个根本性权衡:
Training-free 方法:直接将多视图 2D 预测投影到 3D 点云并合并,导致严重的几何不一致
Training-based 方法:学习点级别的 3D-语义映射,但需要大规模标注数据
关键假设:VLM 特征从 2D 迁移到 3D 时,几何信息并未被破坏,而是变成了潜在的(latent),可以通过高效的恢复手段提取出来,而非从头学习 3D 几何。
方法详解¶
整体框架¶
GeoPurify 要解决的是 2D VLM 特征投影到 3D 后几何不一致、而 training-based 方法又依赖大规模标注这一对矛盾。它的做法是把语义和几何彻底解耦:训练阶段只让一个 Student Affinity Network 通过对比蒸馏去模仿冻结的 3D 自监督教师 Sonata,学习纯几何的点间关联,全程不碰任何 3D 语义标签;推理阶段则让冻结的 2D VLM(X-Decoder)先生成带噪的初始 3D 语义特征,再用预训练好的 Student 提供的几何亲和关系对这些特征做几何感知池化,从而把潜在但未被破坏的几何结构「恢复」出来,净化掉投影噪声。整体上有两条准备路径——一条在推理时由 VLM 产出强语义但噪声大的特征,一条在训练时蒸馏出纯几何的 Student——最终在「几何引导池化」处汇合,由几何关系修正语义噪声。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
IMG["多视图 2D 图像"] --> VLM["通用 VLM 语义初始化<br/>X-Decoder 投影聚合"]
VLM --> NOISY["初始 3D 语义特征<br/>(含跨视图噪声)"]
PC["3D 点云"] --> TRAIN
subgraph TRAIN["几何对比蒸馏(训练)"]
direction TB
SONATA["Sonata<br/>冻结 3D 自监督教师"] -->|"混合负样本<br/>InfoNCE 对齐"| STU["Student<br/>稀疏 3D CNN"]
end
TRAIN -->|"训练好的 Student"| AFF["几何亲和矩阵 A<br/>KNN + 尖锐 softmax"]
NOISY --> POOL["几何引导池化<br/>迭代净化 18 次"]
AFF --> POOL
POOL --> OUT["开放词汇 3D 分割"]
关键设计¶
1. 通用 VLM 语义初始化:用更高的语义天花板替代「分割后匹配」管线
GeoPurify 不走 LSeg、OpenSeg、SAM+CLIP 这类先分割再匹配文本的传统流程,而是采用遵循「分割即理解」范式的 X-Decoder。它的统一视觉-语言嵌入空间天然把分割和语义对齐放在同一空间里,提供了更高的语义上界。具体投影时,对每个 3D 点从所有可见视图采样对应的 2D 特征并做加权平均,得到该点的初始语义特征——这一步特征虽然语义强,但跨视图聚合带来的几何不一致正是后续要净化的对象。
2. 几何对比蒸馏:让 Student 在无语义标签下学到类无关的几何关联
几何先验来自一个冻结的 Sonata(3D 自监督基础模型),它提供鲁棒的几何目标空间;Student 则是一个可训练的稀疏 3D CNN,输出 128 维几何嵌入去对齐这个目标。关键在采样策略——为每个锚点构造混合负样本:48 个 Macro-negatives 取自全局特征最不相似的点,逼 Student 把握整体场景结构;16 个 Micro-negatives 取自空间近邻中特征最不相似的点,专门区分物体边界处的细粒度差异。蒸馏用 InfoNCE 对比损失,温度 \(\tau = 0.07\),每场景采 4096 个锚点。由于整个过程只对齐几何而不涉及类别,学到的关联是类无关的,这也是它跨数据集迁移极强的根源。
3. 几何引导池化:推理时用 Student 的亲和关系迭代净化 VLM 特征
推理时先由 Student 网络为每个体素生成几何嵌入,再据此构建稀疏亲和矩阵 \(A\)——取 K 近邻并配合尖锐化的 softmax(\(\alpha = 1/20\))压缩到几何上真正相邻的点。然后对初始 VLM 特征做迭代池化 \(F^{(t+1)} = A \cdot F^{(t)}\),迭代 \(T=18\) 次,让特征沿几何亲和关系反复平滑、把跨视图噪声抹平。精炼后的体素特征再映射回原始点云,得到最终的开放词汇分割结果。迭代次数不能无限增大,\(T>18\) 后会出现 over-smoothing 反而退化。
损失函数 / 训练策略¶
训练只用 InfoNCE 对比损失(温度 0.07),优化器为 AdamW、学习率 \(1\text{e-}3\)、cosine 退火、共 50 epochs,单张 NVIDIA L40 即可完成。最关键的是训练规模:仅用 20 个场景(约 ScanNetV2 的 1.6%)且无任何 3D 语义标签。这 20 个场景并非随机选取,而是按 Shannon 熵(衡量语义复杂度)加类别数(衡量语义丰富度)的联合评分挑选,再用 K-Means 聚类保证所选场景在环境上足够多样。
实验关键数据¶
主实验:开放词汇 3D 语义分割¶
| 方法 | 训练数据 | ScanNetV2 mIoU | ScanNetV2 mAcc | Matterport3D mIoU | Matterport3D mAcc |
|---|---|---|---|---|---|
| OpenScene-3D | 100% | 51.6 | 63.1 | 40.5 | 48.8 |
| CUA-O3D (3D) | 100% | 54.1 | 64.1 | 41.3 | 49.5 |
| OV3D | 100% | 57.3 | 72.9 | 45.8 | 62.4 |
| CUA-O3D(同数据) | 约1.5% | 18.1 | 26.4 | 14.0 | 20.5 |
| GeoPurify | 约1.5% | 55.1 | 72.5 | 40.2 | 62.4 |
跨数据集迁移¶
| 方向 | OpenScene | CUA-O3D | GeoPurify |
|---|---|---|---|
| ScanNetV2 -> Matterport3D mIoU | 36.0 | 37.4 | 40.5 |
| Matterport3D -> ScanNetV2 mIoU | 36.5 | 38.6 | 54.9 |
消融实验¶
| 组件 | 设置 | mIoU | mAcc |
|---|---|---|---|
| 无几何净化 | 直接聚合 2D 特征 | 50.2 | 68.1 |
| + GeoPurify | 完整框架 | 55.1 | 72.5 |
| 2D 骨干 | LSeg | 48.6 | 61.6 |
| 2D 骨干 | LSeg + GeoPurify | 51.2 | 63.0 |
| 采样策略 | 仅 Macro-negatives | 53.5 | 70.8 |
| 采样策略 | Hybrid(完整) | 55.1 | 72.5 |
| 池化迭代 | T=1 / T=18 / T=36 | 52.3 / 55.1 / 55.1 | 70.2 / 72.5 / 72.4 |
| 训练场景数 | 10 / 20 / 50 | 54.7 / 55.1 / 55.0 | 72.4 / 72.5 / 72.5 |
关键发现¶
- 极致数据效率:用 1.5% 数据达到全量训练竞品水平(55.1 vs 54.1),同等数据下竞品 CUA-O3D 崩至 18.1
- 几何净化增益 +4.9 mIoU:从 50.2 提升到 55.1
- Micro-negatives 关键:提供 +1.6 mIoU 边界精度增益
- 20 场景即饱和:10 到 20 场景有明显提升,之后基本收敛
- 跨数据集迁移优势巨大:Matterport3D 到 ScanNetV2 达 54.9 mIoU,领先 CUA-O3D 16.3 分
亮点与洞察¶
- 恢复潜在结构 vs 从头学习:核心假设极具洞察力,2D 到 3D 迁移不会破坏几何信息
- 解耦设计的鲁棒性:语义由 VLM 负责、几何由 Student 负责,各自独立
- 类无关的几何先验:学到的几何关联不依赖语义类别,跨数据集迁移极强
- 数据选择策略:基于 Shannon 熵的场景选择比随机选择更高效
局限与展望¶
- mIoU vs mAcc 的权衡:几何池化提升召回率但在边界处可能引起语义溢出
- 性能上界受 VLM 限制:20 场景后即收敛,瓶颈在 VLM 语义质量
- 迭代池化的 over-smoothing:T>18 后开始退化
- 未探索室外场景:仅在室内基准上验证
相关工作与启发¶
- OpenScene:大规模 3D 知识蒸馏,GeoPurify 用 1.5% 数据匹敌
- CUA-O3D:全量训练 SOTA,GeoPurify 在低数据下远超
- Sonata:3D 自监督教师模型,提供几何先验
- 启发:解耦语义和几何学习可能是数据高效 3D 理解的关键范式
评分¶
- 新颖性:4/5 - 恢复潜在几何结构的假设和解耦框架设计新颖
- 技术深度:4/5 - 对比蒸馏 + 几何池化的组合设计精巧
- 实验完整度:5/5 - 三大基准、跨数据集、详尽消融
- 实用价值:5/5 - 1.5% 数据即达 SOTA,极具实际部署价值