跳转至

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

会议: CVPR 2026
arXiv: 2603.06572
代码: github.com/Surrey-UP-Lab/SCOPE
领域: 3D点云分割 / 增量Few-Shot学习
关键词: 3D点云分割, 增量few-shot, 背景挖掘, 原型增强, 即插即用

一句话总结

提出即插即用的SCOPE框架,利用类无关分割模型从基础训练场景的背景区域挖掘伪实例原型,通过检索+注意力融合增强few-shot新类原型,无需重训backbone即可在ScanNet上将新类IoU提升6.98%。

研究背景与动机

领域现状:全监督3D点云分割需要大量逐点标注且标签空间固定,而实际部署中新类别会不断涌现且仅有少量标注可用。现有范式(few-shot/class-incremental/generalized few-shot)各只解决部分挑战。

现有痛点:(1) Few-shot方法无法保持已学知识;(2) Class-incremental方法需要充足监督,稀疏标注下性能急剧下降;(3) Generalized few-shot方法只支持一次性更新;(4) 直接将2D增量few-shot方法应用到3D效果不佳——要么遗忘严重,要么原型不够判别。

核心矛盾:在极度有限的标注下,如何学到足够判别的新类原型,同时不遗忘已学知识?

本文目标 3D点云的增量few-shot分割(IFS-PCS):支持多阶段顺序学习新类别,每次仅需K个标注样本。

切入角度:发现基础训练场景的"背景区域"中隐藏着新类的物体结构——这些被粗暴归为"背景"的区域实际包含可迁移的物体级语义信息。

核心 idea:用类无关分割模型从背景挖掘伪实例构建原型库,再通过注意力机制选择性融合到稀疏的few-shot原型中。

方法详解

整体框架

SCOPE是一个三阶段即插即用框架:(1) 基础训练:编码器Φ和基类原型在全标注数据上训练,标准CE损失;(2) 场景上下文化:用类无关分割模型Θ(Segment3D)从背景区域提取伪实例mask(置信度>τ),通过masked average pooling生成实例原型并汇入Instance Prototype Bank (IPB);(3) 增量类注册:对每个新类,计算其few-shot原型与IPB中所有原型的余弦相似度,检索top-R个,经注意力加权融合得到增强原型,无需微调backbone或引入额外参数。

关键设计

  1. Instance Prototype Bank (IPB):

    • 功能:在背景区域中挖掘物体级伪实例并构建可复用的原型库
    • 核心思路:类无关模型Θ对每个场景预测伪mask \(\{(\hat{M}_{i,j}, s_{i,j})\}\),仅保留背景区域中置信度 \(s_{i,j} > \tau\) 的mask,用编码器特征做 masked average pooling 得到原型 \(\mu_{i,j} = \mathcal{F}_{\text{Pool}}(F_i, \hat{M}_{i,j})\)
    • 设计动机:新类未知时无法构建类别原型,但背景中的物体结构可作为通用可迁移线索;IPB构建一次后冻结,不增加增量阶段开销(<1MB存储)
  2. Contextual Prototype Retrieval + Attention-Based Enrichment (CPR+APE):

    • 功能:从IPB中检索与新类相关的背景原型,并通过注意力融合增强few-shot原型
    • 核心思路:CPR用余弦相似度检索Top-R原型 \(\mathcal{B}^c = \text{TopR}(\sigma^c_b)\);APE用无参数交叉注意力(query=few-shot原型,key/value=检索原型)加权融合:\(\tilde{p}^c = \lambda p^c + (1-\lambda)h^c\),其中 \(h^c = \sum_r \text{CrossAttn}(\bar{p}^c, \bar{\mathcal{B}}^c)_r \bar{\mu}^c_r\)
    • 设计动机:并非所有背景原型都有用——注意力机制自适应抑制噪声、保留可迁移结构线索;无可学习参数确保不过拟合稀疏数据

损失函数 / 训练策略

基础阶段使用标准交叉熵损失训练编码器和基类原型。增量阶段完全无需训练——backbone冻结,所有计算(检索、注意力融合)均为解析式操作。核心超参数:τ=0.75(mask置信度阈值),R=50(检索数量),λ=0.5(融合权重)。类无关模型Θ作为off-the-shelf工具仅离线使用一次后丢弃。

实验关键数据

主实验

数据集/设定 方法 mIoU mIoU-N (新类) HM FPP↓
ScanNet K=5 GW (ICCV23) 34.27 16.88 23.94 1.49
ScanNet K=5 CAPL (CVPR22) 31.73 14.75 21.36 -0.65
ScanNet K=5 SCOPE 36.52 23.86 30.38 1.27
ScanNet K=1 GW 33.53 14.11 20.99 1.36
ScanNet K=1 SCOPE 34.78 18.09 25.12 1.27
S3DIS K=5 GW 57.71 39.42 51.29 -
S3DIS K=5 SCOPE 59.41 43.03 54.25 -

消融实验

配置 mIoU-N 说明
GW baseline 16.88 无背景增强
+CPR(均值聚合) 22.12 仅检索的增益+5.24
+CPR+APE(完整SCOPE) 23.86 注意力再增+1.74
GT mask(上界) 24.77 与伪mask差距仅0.91
应用到PIFS 3.43→4.93 即插即用有效
应用到CAPL 14.75→18.70 即插即用有效

关键发现

  • 6阶段长期可扩展性:SCOPE mIoU-N 19.75 vs GW 15.64,遗忘更少
  • 运行时开销可忽略:增量阶段仅多0.02s(18.60s vs 18.58s),存储<1MB
  • GT mask与伪mask差距极小——APE的注意力滤波有效消除了伪标签噪声

亮点与洞察

  • "背景蕴含未来类信息"这一insight新颖且有力——背景不是噪声,而是宝藏
  • 完全即插即用、无参数、无需微调,可应用到任何基于原型的3D分割方法
  • 注意力机制使框架对伪mask噪声高度鲁棒(伪mask vs GT mask仅差0.91 IoU)
  • 零额外运行时开销(<1MB内存, 0.02s新增时间)使其适合真实世界部署

局限与展望

  • 依赖类无关分割模型质量,目前仅验证了Segment3D一种选择
  • 仅在室内数据集(ScanNet/S3DIS)验证,室外场景(自动驾驶等)效果未知
  • λ=0.5固定权重可能不适合所有场景,可考虑自适应权重学习
  • 未探索更高级的原型聚合方式(如图注意力网络)

相关工作与启发

  • vs GW (ICCV23): 几何词汇原型学习,ScanNet K=5 mIoU-N 16.88 vs SCOPE 23.86(+41.3%相对提升)。SCOPE无需geometric word等额外设计
  • vs HIPO (CVPR25): 双曲原型嵌入,但mIoU-N仅7.44,远落后于GFS基线。SCOPE思路更直接有效
  • vs CAPL (CVPR22): 共现先验原型学习。SCOPE作为插件应用到CAPL可将其mIoU-N从14.75提升到18.70
  • "从背景挖掘future class信息"的范式可推广到2D few-shot分割和开放世界检测

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 背景挖掘思路新颖、insight有力、无参设计优雅
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集、即插即用验证、GT vs pseudo对比、长期可扩展性
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,方法描述系统完整
  • 价值: ⭐⭐⭐⭐⭐ 对few-shot 3D分割有范式性贡献,即插即用设计实用性强