CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D¶
会议: ICLR 2026
arXiv: 2509.24528
代码: 待确认
领域: 3D视觉
关键词: 开放词汇3D语义分割, 场景图, CLIP嵌入, 语言检索, SemanticSAM
一句话总结¶
提出CORE-3D,一个无需训练的开放词汇3D语义分割与自然语言目标检索流水线,通过渐进式粒度掩码生成、上下文感知CLIP编码和多视角3D融合,在Replica和ScanNet上超越现有方法。
研究背景与动机¶
领域现状:3D场景理解是机器人和具身AI的基础需求。近年来,将视觉语言模型(VLM)与2D分割模型结合,通过反投影到3D空间实现零样本开放词汇的3D语义建图成为主流方案。
现有痛点: - SAM等2D分割骨干在杂乱室内场景中产生碎片化/不完整的掩码,导致严重过分割 - 直接对单个掩码裁剪区域使用CLIP编码,语义上下文极为有限,嵌入质量差 - 多帧聚合时同一物体因视角变化获得不同的上下文嵌入,造成不一致
核心矛盾:现有foundation model流水线虽然免训练,但分割质量和语义嵌入质量都不够好,无法构建连贯可靠的3D语义图
本文目标:如何在不训练的前提下,同时改善2D分割质量、语义嵌入丰富度和多视角一致性
切入角度:利用SemanticSAM的粒度可调特性做渐进式细化,结合多种上下文裁剪视角增强CLIP编码
核心 idea:用渐进粒度分割 + 多裁剪上下文感知CLIP编码 + 3D体素合并来构建高质量零样本开放词汇3D语义图
方法详解¶
整体框架¶
输入RGB-D序列及相机位姿,流水线分为四个阶段:(1) 渐进式多粒度掩码生成;(2) 上下文感知CLIP嵌入计算;(3) 3D掩码合并和精炼;(4) 自然语言目标检索。最终输出带语义标注的3D点云,支持开放词汇分割和语言查询检索。
关键设计¶
-
渐进式掩码生成 (Progressive Mask Generation)
- 功能:替代vanilla SAM,生成更准确完整的2D实例掩码
- 核心思路:利用SemanticSAM的粒度参数 \(g\),在递增的粒度序列 \(\{g_1, g_2, \ldots, g_K\}\) 上逐级生成掩码。每级只保留置信度超过阈值 \(\tau_{cer}\) 的掩码,且新掩码与已有掩码的重叠率 \(\frac{|m \cap m'|}{|m|} < \tau_k\) 时才加入。粗粒度捕捉大物体,细粒度逐步补充小物体和细节
- 进一步用DBSCAN在3D投影空间中分离2D上粘连但3D分离的物体(如花瓶和沙发前后重叠)
- 设计动机:解决SAM在杂乱场景中的碎片化问题,同时避免冗余掩码
-
上下文感知CLIP编码 (Context-Aware CLIP Embedding)
- 功能:为每个掩码生成语义丰富的嵌入向量
- 核心思路:对每个掩码提取5种互补裁剪:mask裁剪(背景置零)、bbox裁剪、large裁剪(2.5倍扩展)、huge裁剪(4倍扩展)、surroundings裁剪(3倍扩展+遮挡物体本身)。5个裁剪分别通过CLIP图像编码器,加权融合:\(\mathbf{e}(m) = w_{mask}\mathbf{e}^{mask} + w_{bbox}\mathbf{e}^{bbox} + w_{large}\mathbf{e}^{large} + w_{huge}\mathbf{e}^{huge} - w_{sur}\mathbf{e}^{sur}\)
- 关键:surroundings嵌入以负权重减去,形成对比效果,惩罚被环境而非物体本身主导的特征
- 设计动机:单独的掩码裁剪上下文太少,无法获得准确的CLIP匹配
-
3D掩码合并与精炼 (3D Mask Merging)
- 功能:将多视角2D掩码在3D空间中合并为统一的物体表示
- 核心思路:计算两个候选掩码的体积交叉比(IoV),合并条件为双向IoV都超过阈值 \(\gamma\) 且两者差异小于 \(\delta\):\(\text{IoV}(m_a, m_b) > \gamma\) 且 \(|\text{IoV}(m_a, m_b) - \text{IoV}(m_b, m_a)| < \delta\)
- 对称平衡IoV准则防止退化合并(如小靠垫被大沙发吞并),合并后嵌入取平均
-
自然语言目标检索 (Object Retrieval)
- 功能:根据自然语言查询在3D场景中定位目标物体
- 核心思路:四阶段流程——LLM解析查询为结构化形式 \(\Pi(q) = (m, \mathcal{R}, \Omega)\)(目标、参考物体、朝向约束)→ CLIP相似度Top-K候选挖掘 → VLM视觉验证(选最佳视角用bbox提问)→ 朝向推理(离散化偏航角网格+VLM选择)→ LLM最终推理输出
训练策略¶
该方法完全无需训练,属于零样本推理流水线,依赖预训练的SemanticSAM、CLIP (Eva02-L) 和VLM/LLM。
实验关键数据¶
主实验¶
| 数据集 | 指标 | CORE-3D | BBQ-CLIP (前SOTA) | 提升 |
|---|---|---|---|---|
| Replica | mIoU | 0.29 | 0.27 | +0.02 |
| Replica | fmIoU | 0.56 | 0.48 | +0.08 |
| ScanNet | mIoU | 0.36 | 0.34 | +0.02 |
| ScanNet | fmIoU | 0.46 | 0.36 | +0.10 |
| ScanNet | mAcc | 0.61 | 0.56 | +0.05 |
在Sr3D+目标检索任务中表现更优越:
| 指标 | CORE-3D | BBQ (前SOTA) | 提升 |
|---|---|---|---|
| Overall A@0.1 | 41.8 | 34.2 | +7.6 |
| Overall A@0.25 | 35.6 | 22.7 | +12.9 |
消融实验¶
- 渐进式多粒度分割显著优于vanilla SAM和单一粒度SemanticSAM
- 上下文感知CLIP编码(特别是surroundings负权重减法)对分割质量提升明显
- DBSCAN 3D聚类有效解决2D重叠但3D分离的物体问题
- VLM验证步骤提升了检索精度
亮点¶
- 完全免训练的零样本流水线,实用性强
- 渐进式粒度细化是一个简单但有效的掩码生成策略
- 上下文感知CLIP编码中surroundings负权重减法的设计直觉很好
- 检索任务中LLM+VLM的多阶段推理流程设计合理
局限与展望¶
- 依赖SemanticSAM的粒度参数和多个阈值(\(\tau_{cer}\), \(\tau_k\), \(\gamma\), \(\delta\)),调参工作量不小
- CLIP嵌入的5种裁剪权重需经验调优,不同场景可能需要不同权重
- 检索流水线依赖外部LLM和VLM API调用,延迟和成本较高
- 只在室内场景(Replica/ScanNet)上验证,室外大场景泛化性未知
- fmIoU虽有不错提升但绝对值仍不高,距离实用还有差距
与相关工作的对比¶
- vs ConceptFusion/ConceptGraphs:本文通过更好的分割和嵌入质量超越,证明foundation model流水线中分割和编码环节的改进空间大
- vs BBQ:BBQ使用3D场景图+LLM推理做检索表现不错,本文在分割上明显更好,在检索上提升更大(A@0.25从22.7到35.6)
- vs HOV-SG:层次化场景图方法,本文在Replica上IoU优于HOV-SG
- vs 训练类方法(LERF/LangSplat/OpenGaussian):本文零样本方法在多个指标上超越需要per-scene训练的方法
启发与关联¶
- 上下文感知编码的思路可推广到其他需要CLIP编码的场景(如图像检索、开放词汇检测)
- surroundings负权重减法的对比编码设计值得借鉴
- 渐进粒度分割的思路可扩展到视频分割场景
评分¶
- 新颖性: ⭐⭐⭐ (各组件单独看不新,但组合设计合理有效)
- 实验充分度: ⭐⭐⭐⭐ (多数据集+消融+定性结果)
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐ (无训练流水线的实用价值高)