GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation¶

会议: ICLR 2026
arXiv: 2510.02186
代码: 有
领域: 3D视觉
关键词: 开放词汇3D分割, 知识蒸馏, 几何先验, VLM特征净化, 数据高效

一句话总结¶

提出 GeoPurify 框架，通过从 3D 自监督教师模型蒸馏几何先验来净化 2D VLM 投影到 3D 的噪声特征，仅用约 1.5% 的训练数据即可达到或超越全量训练的 SOTA 开放词汇 3D 分割性能。

研究背景与动机¶

开放词汇 3D 场景理解旨在让模型识别任意文本描述的物体，核心挑战在于将 2D VLM 语义迁移到 3D 时存在一个根本性权衡：

Training-free 方法：直接将多视图 2D 预测投影到 3D 点云并合并，导致严重的几何不一致

Training-based 方法：学习点级别的 3D-语义映射，但需要大规模标注数据

关键假设：VLM 特征从 2D 迁移到 3D 时，几何信息并未被破坏，而是变成了潜在的（latent），可以通过高效的恢复手段提取出来，而非从头学习 3D 几何。

方法详解¶

整体框架¶

GeoPurify 要解决的是 2D VLM 特征投影到 3D 后几何不一致、而 training-based 方法又依赖大规模标注这一对矛盾。它的做法是把语义和几何彻底解耦：训练阶段只让一个 Student Affinity Network 通过对比蒸馏去模仿冻结的 3D 自监督教师 Sonata，学习纯几何的点间关联，全程不碰任何 3D 语义标签；推理阶段则让冻结的 2D VLM（X-Decoder）先生成带噪的初始 3D 语义特征，再用预训练好的 Student 提供的几何亲和关系对这些特征做几何感知池化，从而把潜在但未被破坏的几何结构「恢复」出来，净化掉投影噪声。整体上有两条准备路径——一条在推理时由 VLM 产出强语义但噪声大的特征，一条在训练时蒸馏出纯几何的 Student——最终在「几何引导池化」处汇合，由几何关系修正语义噪声。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IMG["多视图 2D 图像"] --> VLM["通用 VLM 语义初始化<br/>X-Decoder 投影聚合"]
    VLM --> NOISY["初始 3D 语义特征<br/>(含跨视图噪声)"]
    PC["3D 点云"] --> TRAIN
    subgraph TRAIN["几何对比蒸馏（训练）"]
        direction TB
        SONATA["Sonata<br/>冻结 3D 自监督教师"] -->|"混合负样本<br/>InfoNCE 对齐"| STU["Student<br/>稀疏 3D CNN"]
    end
    TRAIN -->|"训练好的 Student"| AFF["几何亲和矩阵 A<br/>KNN + 尖锐 softmax"]
    NOISY --> POOL["几何引导池化<br/>迭代净化 18 次"]
    AFF --> POOL
    POOL --> OUT["开放词汇 3D 分割"]

关键设计¶

1. 通用 VLM 语义初始化：用更高的语义天花板替代「分割后匹配」管线

GeoPurify 不走 LSeg、OpenSeg、SAM+CLIP 这类先分割再匹配文本的传统流程，而是采用遵循「分割即理解」范式的 X-Decoder。它的统一视觉-语言嵌入空间天然把分割和语义对齐放在同一空间里，提供了更高的语义上界。具体投影时，对每个 3D 点从所有可见视图采样对应的 2D 特征并做加权平均，得到该点的初始语义特征——这一步特征虽然语义强，但跨视图聚合带来的几何不一致正是后续要净化的对象。

2. 几何对比蒸馏：让 Student 在无语义标签下学到类无关的几何关联

几何先验来自一个冻结的 Sonata（3D 自监督基础模型），它提供鲁棒的几何目标空间；Student 则是一个可训练的稀疏 3D CNN，输出 128 维几何嵌入去对齐这个目标。关键在采样策略——为每个锚点构造混合负样本：48 个 Macro-negatives 取自全局特征最不相似的点，逼 Student 把握整体场景结构；16 个 Micro-negatives 取自空间近邻中特征最不相似的点，专门区分物体边界处的细粒度差异。蒸馏用 InfoNCE 对比损失，温度 \(\tau = 0.07\)，每场景采 4096 个锚点。由于整个过程只对齐几何而不涉及类别，学到的关联是类无关的，这也是它跨数据集迁移极强的根源。

3. 几何引导池化：推理时用 Student 的亲和关系迭代净化 VLM 特征

推理时先由 Student 网络为每个体素生成几何嵌入，再据此构建稀疏亲和矩阵 \(A\)——取 K 近邻并配合尖锐化的 softmax（\(\alpha = 1/20\)）压缩到几何上真正相邻的点。然后对初始 VLM 特征做迭代池化 \(F^{(t+1)} = A \cdot F^{(t)}\)，迭代 \(T=18\) 次，让特征沿几何亲和关系反复平滑、把跨视图噪声抹平。精炼后的体素特征再映射回原始点云，得到最终的开放词汇分割结果。迭代次数不能无限增大，\(T>18\) 后会出现 over-smoothing 反而退化。

损失函数 / 训练策略¶

训练只用 InfoNCE 对比损失（温度 0.07），优化器为 AdamW、学习率 \(1\text{e-}3\)、cosine 退火、共 50 epochs，单张 NVIDIA L40 即可完成。最关键的是训练规模：仅用 20 个场景（约 ScanNetV2 的 1.6%）且无任何 3D 语义标签。这 20 个场景并非随机选取，而是按 Shannon 熵（衡量语义复杂度）加类别数（衡量语义丰富度）的联合评分挑选，再用 K-Means 聚类保证所选场景在环境上足够多样。

实验关键数据¶

主实验：开放词汇 3D 语义分割¶

方法	训练数据	ScanNetV2 mIoU	ScanNetV2 mAcc	Matterport3D mIoU	Matterport3D mAcc
OpenScene-3D	100%	51.6	63.1	40.5	48.8
CUA-O3D (3D)	100%	54.1	64.1	41.3	49.5
OV3D	100%	57.3	72.9	45.8	62.4
CUA-O3D（同数据）	约1.5%	18.1	26.4	14.0	20.5
GeoPurify	约1.5%	55.1	72.5	40.2	62.4

跨数据集迁移¶

方向	OpenScene	CUA-O3D	GeoPurify
ScanNetV2 -> Matterport3D mIoU	36.0	37.4	40.5
Matterport3D -> ScanNetV2 mIoU	36.5	38.6	54.9

消融实验¶

组件	设置	mIoU	mAcc
无几何净化	直接聚合 2D 特征	50.2	68.1
+ GeoPurify	完整框架	55.1	72.5
2D 骨干	LSeg	48.6	61.6
2D 骨干	LSeg + GeoPurify	51.2	63.0
采样策略	仅 Macro-negatives	53.5	70.8
采样策略	Hybrid（完整）	55.1	72.5
池化迭代	T=1 / T=18 / T=36	52.3 / 55.1 / 55.1	70.2 / 72.5 / 72.4
训练场景数	10 / 20 / 50	54.7 / 55.1 / 55.0	72.4 / 72.5 / 72.5

关键发现¶

极致数据效率：用 1.5% 数据达到全量训练竞品水平（55.1 vs 54.1），同等数据下竞品 CUA-O3D 崩至 18.1
几何净化增益 +4.9 mIoU：从 50.2 提升到 55.1
Micro-negatives 关键：提供 +1.6 mIoU 边界精度增益
20 场景即饱和：10 到 20 场景有明显提升，之后基本收敛
跨数据集迁移优势巨大：Matterport3D 到 ScanNetV2 达 54.9 mIoU，领先 CUA-O3D 16.3 分

亮点与洞察¶

恢复潜在结构 vs 从头学习：核心假设极具洞察力，2D 到 3D 迁移不会破坏几何信息
解耦设计的鲁棒性：语义由 VLM 负责、几何由 Student 负责，各自独立
类无关的几何先验：学到的几何关联不依赖语义类别，跨数据集迁移极强
数据选择策略：基于 Shannon 熵的场景选择比随机选择更高效

局限与展望¶

mIoU vs mAcc 的权衡：几何池化提升召回率但在边界处可能引起语义溢出
性能上界受 VLM 限制：20 场景后即收敛，瓶颈在 VLM 语义质量
迭代池化的 over-smoothing：T>18 后开始退化
未探索室外场景：仅在室内基准上验证

评分¶

新颖性：4/5 - 恢复潜在几何结构的假设和解耦框架设计新颖
技术深度：4/5 - 对比蒸馏 + 几何池化的组合设计精巧
实验完整度：5/5 - 三大基准、跨数据集、详尽消融
实用价值：5/5 - 1.5% 数据即达 SOTA，极具实际部署价值