CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D¶

会议: ICLR 2026
arXiv: 2509.24528
代码: 待确认
领域: 3D视觉
关键词: 开放词汇3D语义分割, 场景图, CLIP嵌入, 语言检索, SemanticSAM

一句话总结¶

提出CORE-3D，一个无需训练的开放词汇3D语义分割与自然语言目标检索流水线，通过渐进式粒度掩码生成、上下文感知CLIP编码和多视角3D融合，在Replica和ScanNet上超越现有方法。

研究背景与动机¶

领域现状：3D场景理解是机器人和具身AI的基础需求。近年来，将视觉语言模型(VLM)与2D分割模型结合，通过反投影到3D空间实现零样本开放词汇的3D语义建图成为主流方案。

现有痛点： - SAM等2D分割骨干在杂乱室内场景中产生碎片化/不完整的掩码，导致严重过分割 - 直接对单个掩码裁剪区域使用CLIP编码，语义上下文极为有限，嵌入质量差 - 多帧聚合时同一物体因视角变化获得不同的上下文嵌入，造成不一致

核心矛盾：现有foundation model流水线虽然免训练，但分割质量和语义嵌入质量都不够好，无法构建连贯可靠的3D语义图

本文目标：如何在不训练的前提下，同时改善2D分割质量、语义嵌入丰富度和多视角一致性

切入角度：利用SemanticSAM的粒度可调特性做渐进式细化，结合多种上下文裁剪视角增强CLIP编码

核心 idea：用渐进粒度分割 + 多裁剪上下文感知CLIP编码 + 3D体素合并来构建高质量零样本开放词汇3D语义图

方法详解¶

整体框架¶

输入RGB-D序列及相机位姿，流水线分为四个阶段：(1) 渐进式多粒度掩码生成；(2) 上下文感知CLIP嵌入计算；(3) 3D掩码合并和精炼；(4) 自然语言目标检索。最终输出带语义标注的3D点云，支持开放词汇分割和语言查询检索。

关键设计¶

渐进式掩码生成 (Progressive Mask Generation)
- 功能：替代vanilla SAM，生成更准确完整的2D实例掩码
- 核心思路：利用SemanticSAM的粒度参数 \(g\)，在递增的粒度序列 \(\{g_1, g_2, \ldots, g_K\}\) 上逐级生成掩码。每级只保留置信度超过阈值 \(\tau_{cer}\) 的掩码，且新掩码与已有掩码的重叠率 \(\frac{|m \cap m'|}{|m|} < \tau_k\) 时才加入。粗粒度捕捉大物体，细粒度逐步补充小物体和细节
- 进一步用DBSCAN在3D投影空间中分离2D上粘连但3D分离的物体（如花瓶和沙发前后重叠）
- 设计动机：解决SAM在杂乱场景中的碎片化问题，同时避免冗余掩码
上下文感知CLIP编码 (Context-Aware CLIP Embedding)
- 功能：为每个掩码生成语义丰富的嵌入向量
- 核心思路：对每个掩码提取5种互补裁剪：mask裁剪（背景置零）、bbox裁剪、large裁剪（2.5倍扩展）、huge裁剪（4倍扩展）、surroundings裁剪（3倍扩展+遮挡物体本身）。5个裁剪分别通过CLIP图像编码器，加权融合：\(\mathbf{e}(m) = w_{mask}\mathbf{e}^{mask} + w_{bbox}\mathbf{e}^{bbox} + w_{large}\mathbf{e}^{large} + w_{huge}\mathbf{e}^{huge} - w_{sur}\mathbf{e}^{sur}\)
- 关键：surroundings嵌入以负权重减去，形成对比效果，惩罚被环境而非物体本身主导的特征
- 设计动机：单独的掩码裁剪上下文太少，无法获得准确的CLIP匹配
3D掩码合并与精炼 (3D Mask Merging)
- 功能：将多视角2D掩码在3D空间中合并为统一的物体表示
- 核心思路：计算两个候选掩码的体积交叉比(IoV)，合并条件为双向IoV都超过阈值 \(\gamma\) 且两者差异小于 \(\delta\)：\(\text{IoV}(m_a, m_b) > \gamma\) 且 \(|\text{IoV}(m_a, m_b) - \text{IoV}(m_b, m_a)| < \delta\)
- 对称平衡IoV准则防止退化合并（如小靠垫被大沙发吞并），合并后嵌入取平均
自然语言目标检索 (Object Retrieval)
- 功能：根据自然语言查询在3D场景中定位目标物体
- 核心思路：四阶段流程——LLM解析查询为结构化形式 \(\Pi(q) = (m, \mathcal{R}, \Omega)\)（目标、参考物体、朝向约束）→ CLIP相似度Top-K候选挖掘 → VLM视觉验证（选最佳视角用bbox提问）→ 朝向推理（离散化偏航角网格+VLM选择）→ LLM最终推理输出

训练策略¶

该方法完全无需训练，属于零样本推理流水线，依赖预训练的SemanticSAM、CLIP (Eva02-L) 和VLM/LLM。

实验关键数据¶

主实验¶

数据集	指标	CORE-3D	BBQ-CLIP (前SOTA)	提升
Replica	mIoU	0.29	0.27	+0.02
Replica	fmIoU	0.56	0.48	+0.08
ScanNet	mIoU	0.36	0.34	+0.02
ScanNet	fmIoU	0.46	0.36	+0.10
ScanNet	mAcc	0.61	0.56	+0.05

在Sr3D+目标检索任务中表现更优越：

指标	CORE-3D	BBQ (前SOTA)	提升
Overall A@0.1	41.8	34.2	+7.6
Overall A@0.25	35.6	22.7	+12.9

消融实验¶

渐进式多粒度分割显著优于vanilla SAM和单一粒度SemanticSAM
上下文感知CLIP编码（特别是surroundings负权重减法）对分割质量提升明显
DBSCAN 3D聚类有效解决2D重叠但3D分离的物体问题
VLM验证步骤提升了检索精度

亮点¶

完全免训练的零样本流水线，实用性强
渐进式粒度细化是一个简单但有效的掩码生成策略
上下文感知CLIP编码中surroundings负权重减法的设计直觉很好
检索任务中LLM+VLM的多阶段推理流程设计合理

局限与展望¶

依赖SemanticSAM的粒度参数和多个阈值(\(\tau_{cer}\), \(\tau_k\), \(\gamma\), \(\delta\))，调参工作量不小
CLIP嵌入的5种裁剪权重需经验调优，不同场景可能需要不同权重
检索流水线依赖外部LLM和VLM API调用，延迟和成本较高
只在室内场景(Replica/ScanNet)上验证，室外大场景泛化性未知
fmIoU虽有不错提升但绝对值仍不高，距离实用还有差距

与相关工作的对比¶

vs ConceptFusion/ConceptGraphs：本文通过更好的分割和嵌入质量超越，证明foundation model流水线中分割和编码环节的改进空间大
vs BBQ：BBQ使用3D场景图+LLM推理做检索表现不错，本文在分割上明显更好，在检索上提升更大（A@0.25从22.7到35.6）
vs HOV-SG：层次化场景图方法，本文在Replica上IoU优于HOV-SG
vs 训练类方法(LERF/LangSplat/OpenGaussian)：本文零样本方法在多个指标上超越需要per-scene训练的方法

启发与关联¶

上下文感知编码的思路可推广到其他需要CLIP编码的场景（如图像检索、开放词汇检测）
surroundings负权重减法的对比编码设计值得借鉴
渐进粒度分割的思路可扩展到视频分割场景

评分¶

新颖性: ⭐⭐⭐ (各组件单独看不新，但组合设计合理有效)
实验充分度: ⭐⭐⭐⭐ (多数据集+消融+定性结果)
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐ (无训练流水线的实用价值高)