JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas¶

会议: CVPR 2026
arXiv: 2603.06168
代码: 无
领域: 3D视觉
关键词: 开放词汇 3D 分割, 点云-全景图联合分割, 正二十面体切向分解, SAM+CLIP 语义对齐, 3D-全景回投

一句话总结¶

提出 JOPP-3D——首个联合处理 3D 点云和全景图的开放词汇语义分割框架：通过正二十面体切向分解将全景图转为 20 张透视图以适配 SAM/CLIP，提取掩码隔离的实例级 CLIP 嵌入实现 3D 语义分割，再经深度对应回投到全景域，免训练即在 S3DIS 上以 80.9% mIoU 超越所有监督方法。

研究背景与动机¶

领域现状：3D 语义分割依赖大规模标注和固定类别集。CLIP 等视觉语言模型在 2D 开放词汇分割上表现出色，但直接用于全景图（球面畸变）和 3D 点云（缺乏预训练）效果差。

现有痛点：

全景图的球面畸变使 CLIP/SAM 等针对透视图预训练的基础模型无法直接适用
Cubemap（6面x90度）有边界不连续伪影；DAN 适配器需要监督训练
2D 视觉语言特征到 3D 的跨模态对齐难——直接逐点 CLIP 编码引入大量语义噪声
全景图和点云的联合开放词汇语义分割尚未被探索

核心矛盾：需要免训练地将 CLIP/SAM 的能力同时扩展到全景图和 3D 点云，但两者各有独特的几何挑战。

本文目标 建立统一框架同时实现点云和全景图的开放词汇语义分割。

切入角度：将全景图投射到正二十面体的 20 个切面得到透视图（适配 CLIP/SAM），从透视图重建 3D 点云后在 3D 实例级进行语义对齐，最后回投到全景域。

核心 idea：切向分解 - 3D 实例提取 - 掩码 CLIP 语义对齐 - 深度对应全景回投。

方法详解¶

整体框架¶

三阶段 Pipeline（全部免训练）：(1) 切向分解——将每张全景 RGB-D 图像投射到正二十面体 20 个面，生成 20 张切向透视图（640x480，FOV=100度）及对应深度图，聚合所有视角的 3D 点并体素化得到全局点云；(2) 3D 实例提取 + 语义对齐——用 Mask3D（弱监督）或 SAM3D（无监督）生成 3D 实例提案，每个实例投影到 K 个最佳切向视图，用 SAM 生成 2D 掩码裁剪，CLIP 编码掩码裁剪的图像，多视图平均得实例语义嵌入；(3) 语言查询 + 3D到全景回投——自然语言查询得到 3D 语义分割，通过深度对应回投到全景域。

关键设计¶

正二十面体切向分解
- 将球面全景图投射到正二十面体的 20 个面，每面 FOV=100度（超越先前 Eder 等人的 73.1度和 Cubemap 的 90度）
- 相邻面间有视场重叠，避免 Cubemap 的边界不连续伪影
- 每个像素的射线方向通过面旋转矩阵计算，映射到等距矩形坐标后双线性插值采样 RGB、最近邻插值采样深度
- 焦距由水平视场角决定，在几何稳定范围内最大化上下文覆盖
- 从所有 20 个切面重建局部 3D 点云，聚合所有全景图后体素化得到全局重建
掩码隔离的实例级 CLIP 编码
- 对每个 3D 实例，投影到所有切向视图并选择投影点最多的 K 个
- 用 SAM 以投影点为提示生成 2D 实例掩码和裁剪
- 先掩码再 CLIP 编码——将掩码应用于裁剪后再送 CLIP，K 个视图的特征向量归一化平均得到实例语义嵌入
- 掩码是消融证实的关键设计——不 masking 时大面积类别（地板/天花板）的语义严重污染其他实例，Open mIoU 从 74.6% 暴跌至 33.6%
深度对应 3D到全景语义回投
- 将全景深度图每个像素反投影为 3D 点，通过最近邻在语义点云中查找标签
- 跨场景深度对应传播：相邻全景在门廊/走廊处有深度重叠时，从已有语义标签的邻居全景向当前缺失区域传播标签
- 解决了直接最近邻在大深度不连续区域（门口/走廊）语义不完整的问题

损失函数 / 训练策略¶

JOPP-3D 是完全免训练的推理 Pipeline：冻结的 Mask3D/SAM3D 做 3D 实例提案，冻结的 SAM 做 2D 分割，冻结的 CLIP 做语义编码，自然语言查询做开放词汇分类。弱监督版使用 S3DIS Area 1,2,3,4,6 预训练的 Mask3D；无监督版用 SAM3D。推理耗时：4.8 min/全景图（单 RTX A6000），单次语言查询 1.7 秒。

实验关键数据¶

主实验¶

3D 点云语义分割

数据集	方法	监督	mIoU(%)	mAcc(%)
S3DIS	PointTransformerV3	全监督	73.4	78.9
	Concerto	全监督	77.4	85.0
	OpenMask3D	弱监督	36.7	43.6
	JOPP-3D(u)	无监督	59.4	70.1
	JOPP-3D	弱监督	80.9	87.0
ToF-360	SFSS-MMSI	无监督	23.2	46.3
	JOPP-3D(u)	无监督	30.9	47.5

全景图语义分割

数据集	方法	mIoU(%)	Open mIoU(%)
Stanford-2D-3D-s	PanoSAMic (全监督)	61.7	--
	OPS (弱监督)	41.1	42.6
	SAM3 (无监督)	54.2	62.8
	JOPP-3D	70.1	74.6
ToF-360	HoHoNet	27.5	--
	JOPP-3D(u)	30.7	47.4

消融实验¶

配置	Open mIoU(%)	影响
Full JOPP-3D	74.6	--
w/o SAM Mask（不掩码直接 CLIP）	33.6	-41.0
w/o Tangential Decomp.（直接全景）	41.4	-33.2
w/o Depth Correspondence	67.0	-7.6

关键发现¶

掩码 CLIP 编码贡献惊人：33.6 到 74.6%（+41.0%），不隔离实例的 CLIP 特征被大面积类严重污染
切向分解不可省：41.4 到 74.6%（+33.2%），CLIP/SAM 在球面畸变图上几乎失效
深度对应提升 7.6%，门口/走廊区域改善最显著
Mask3D vs SAM3D：弱监督 74.6% vs 无监督 59.9%，高质量 3D 实例提案是性能瓶颈
开放词汇方法能检索 GT 中标为"clutter"的细粒度物体（时钟、海报等），展现实际价值

亮点与洞察¶

首个联合处理 3D 点云和全景图的开放词汇分割框架，免训练即超越所有监督方法
正二十面体切向分解设计优雅：100度 FOV 比 Cubemap 更好的上下文覆盖和更少边界伪影
掩码 CLIP 编码的 +41.0% 消融结果令人震撼——简单但效果巨大
3D 作为 2D 一致性"锚"的思路可推广到视频理解、多视角一致分割等任务

局限与展望¶

依赖 RGB-D 全景图输入，纯 RGB 全景场景无法使用
Mask3D 弱监督版需预训练数据，跨域（如室外）泛化性待验证
推理速度偏慢（4.8 min/image），实时应用困难
"clutter"等笼统标签在定量评估中惩罚了开放词汇方法的细粒度识别能力
仅在室内场景验证，大规模室外场景适用性未探索

评分¶

新颖性: ⭐⭐⭐⭐ 首次提出点云+全景联合开放词汇分割，切向分解和深度对应设计新颖
实验充分度: ⭐⭐⭐⭐⭐ 两数据集、2D+3D 双任务评估、4 项消融、丰富定性分析
写作质量: ⭐⭐⭐⭐ 框架清晰，图表优质，方法描述系统化
价值: ⭐⭐⭐⭐⭐ 免训练超越监督方法，切向分解和掩码 CLIP 范式可广泛复用