跳转至

CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D

会议: ICLR 2026
arXiv: 2509.24528
代码: 待确认
领域: 3D视觉
关键词: 开放词汇3D语义分割, 场景图, CLIP嵌入, 语言检索, SemanticSAM

一句话总结

提出CORE-3D,一个无需训练的开放词汇3D语义分割与自然语言目标检索流水线,通过渐进式粒度掩码生成、上下文感知CLIP编码和多视角3D融合,在Replica和ScanNet上超越现有方法。

研究背景与动机

领域现状:3D场景理解是机器人和具身AI的基础需求。近年来,将视觉语言模型(VLM)与2D分割模型结合,通过反投影到3D空间实现零样本开放词汇的3D语义建图成为主流方案。

现有痛点: - SAM等2D分割骨干在杂乱室内场景中产生碎片化/不完整的掩码,导致严重过分割 - 直接对单个掩码裁剪区域使用CLIP编码,语义上下文极为有限,嵌入质量差 - 多帧聚合时同一物体因视角变化获得不同的上下文嵌入,造成不一致

核心矛盾:现有foundation model流水线虽然免训练,但分割质量和语义嵌入质量都不够好,无法构建连贯可靠的3D语义图

本文目标:如何在不训练的前提下,同时改善2D分割质量、语义嵌入丰富度和多视角一致性

切入角度:利用SemanticSAM的粒度可调特性做渐进式细化,结合多种上下文裁剪视角增强CLIP编码

核心 idea:用渐进粒度分割 + 多裁剪上下文感知CLIP编码 + 3D体素合并来构建高质量零样本开放词汇3D语义图

方法详解

整体框架

输入RGB-D序列及相机位姿,流水线分为四个阶段:(1) 渐进式多粒度掩码生成;(2) 上下文感知CLIP嵌入计算;(3) 3D掩码合并和精炼;(4) 自然语言目标检索。最终输出带语义标注的3D点云,支持开放词汇分割和语言查询检索。

关键设计

  1. 渐进式掩码生成 (Progressive Mask Generation)

    • 功能:替代vanilla SAM,生成更准确完整的2D实例掩码
    • 核心思路:利用SemanticSAM的粒度参数 \(g\),在递增的粒度序列 \(\{g_1, g_2, \ldots, g_K\}\) 上逐级生成掩码。每级只保留置信度超过阈值 \(\tau_{cer}\) 的掩码,且新掩码与已有掩码的重叠率 \(\frac{|m \cap m'|}{|m|} < \tau_k\) 时才加入。粗粒度捕捉大物体,细粒度逐步补充小物体和细节
    • 进一步用DBSCAN在3D投影空间中分离2D上粘连但3D分离的物体(如花瓶和沙发前后重叠)
    • 设计动机:解决SAM在杂乱场景中的碎片化问题,同时避免冗余掩码
  2. 上下文感知CLIP编码 (Context-Aware CLIP Embedding)

    • 功能:为每个掩码生成语义丰富的嵌入向量
    • 核心思路:对每个掩码提取5种互补裁剪:mask裁剪(背景置零)、bbox裁剪、large裁剪(2.5倍扩展)、huge裁剪(4倍扩展)、surroundings裁剪(3倍扩展+遮挡物体本身)。5个裁剪分别通过CLIP图像编码器,加权融合:\(\mathbf{e}(m) = w_{mask}\mathbf{e}^{mask} + w_{bbox}\mathbf{e}^{bbox} + w_{large}\mathbf{e}^{large} + w_{huge}\mathbf{e}^{huge} - w_{sur}\mathbf{e}^{sur}\)
    • 关键:surroundings嵌入以负权重减去,形成对比效果,惩罚被环境而非物体本身主导的特征
    • 设计动机:单独的掩码裁剪上下文太少,无法获得准确的CLIP匹配
  3. 3D掩码合并与精炼 (3D Mask Merging)

    • 功能:将多视角2D掩码在3D空间中合并为统一的物体表示
    • 核心思路:计算两个候选掩码的体积交叉比(IoV),合并条件为双向IoV都超过阈值 \(\gamma\) 且两者差异小于 \(\delta\)\(\text{IoV}(m_a, m_b) > \gamma\)\(|\text{IoV}(m_a, m_b) - \text{IoV}(m_b, m_a)| < \delta\)
    • 对称平衡IoV准则防止退化合并(如小靠垫被大沙发吞并),合并后嵌入取平均
  4. 自然语言目标检索 (Object Retrieval)

    • 功能:根据自然语言查询在3D场景中定位目标物体
    • 核心思路:四阶段流程——LLM解析查询为结构化形式 \(\Pi(q) = (m, \mathcal{R}, \Omega)\)(目标、参考物体、朝向约束)→ CLIP相似度Top-K候选挖掘 → VLM视觉验证(选最佳视角用bbox提问)→ 朝向推理(离散化偏航角网格+VLM选择)→ LLM最终推理输出

训练策略

该方法完全无需训练,属于零样本推理流水线,依赖预训练的SemanticSAM、CLIP (Eva02-L) 和VLM/LLM。

实验关键数据

主实验

数据集 指标 CORE-3D BBQ-CLIP (前SOTA) 提升
Replica mIoU 0.29 0.27 +0.02
Replica fmIoU 0.56 0.48 +0.08
ScanNet mIoU 0.36 0.34 +0.02
ScanNet fmIoU 0.46 0.36 +0.10
ScanNet mAcc 0.61 0.56 +0.05

在Sr3D+目标检索任务中表现更优越:

指标 CORE-3D BBQ (前SOTA) 提升
Overall A@0.1 41.8 34.2 +7.6
Overall A@0.25 35.6 22.7 +12.9

消融实验

  • 渐进式多粒度分割显著优于vanilla SAM和单一粒度SemanticSAM
  • 上下文感知CLIP编码(特别是surroundings负权重减法)对分割质量提升明显
  • DBSCAN 3D聚类有效解决2D重叠但3D分离的物体问题
  • VLM验证步骤提升了检索精度

亮点

  • 完全免训练的零样本流水线,实用性强
  • 渐进式粒度细化是一个简单但有效的掩码生成策略
  • 上下文感知CLIP编码中surroundings负权重减法的设计直觉很好
  • 检索任务中LLM+VLM的多阶段推理流程设计合理

局限与展望

  • 依赖SemanticSAM的粒度参数和多个阈值(\(\tau_{cer}\), \(\tau_k\), \(\gamma\), \(\delta\)),调参工作量不小
  • CLIP嵌入的5种裁剪权重需经验调优,不同场景可能需要不同权重
  • 检索流水线依赖外部LLM和VLM API调用,延迟和成本较高
  • 只在室内场景(Replica/ScanNet)上验证,室外大场景泛化性未知
  • fmIoU虽有不错提升但绝对值仍不高,距离实用还有差距

与相关工作的对比

  • vs ConceptFusion/ConceptGraphs:本文通过更好的分割和嵌入质量超越,证明foundation model流水线中分割和编码环节的改进空间大
  • vs BBQ:BBQ使用3D场景图+LLM推理做检索表现不错,本文在分割上明显更好,在检索上提升更大(A@0.25从22.7到35.6)
  • vs HOV-SG:层次化场景图方法,本文在Replica上IoU优于HOV-SG
  • vs 训练类方法(LERF/LangSplat/OpenGaussian):本文零样本方法在多个指标上超越需要per-scene训练的方法

启发与关联

  • 上下文感知编码的思路可推广到其他需要CLIP编码的场景(如图像检索、开放词汇检测)
  • surroundings负权重减法的对比编码设计值得借鉴
  • 渐进粒度分割的思路可扩展到视频分割场景

评分

  • 新颖性: ⭐⭐⭐ (各组件单独看不新,但组合设计合理有效)
  • 实验充分度: ⭐⭐⭐⭐ (多数据集+消融+定性结果)
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐ (无训练流水线的实用价值高)