OpenLex3D: A Tiered Evaluation Benchmark for Open-Vocabulary 3D Scene Representations¶
会议: NeurIPS 2025
arXiv: 2503.19764
代码: 项目主页
领域: 3D 视觉 / 开放词汇理解
关键词: open-vocabulary, 3D scene understanding, benchmark, semantic segmentation, object retrieval
一句话总结¶
提出 OpenLex3D,一个面向开放词汇 3D 场景表示的分层评测基准,在 Replica、ScanNet++、HM3D 三个数据集上提供 13 倍于原始标注的丰富语言标签,支持开放集 3D 语义分割和目标检索两项任务评测。
研究背景与动机¶
领域现状:开放词汇语言模型极大推动了 3D 场景理解,使得用户可以用自然语言与场景交互。现有方法(如 LERF、OpenScene、ConceptFusion 等)已展示了令人印象深刻的 demo。
现有痛点:现有评测仍依赖封闭集语义标注(如 ScanNet 的 20 类、Replica 的 88 类),无法反映真实自然语言查询的丰富性和模糊性。
核心矛盾:方法号称"开放词汇"但评测用"封闭集",导致方法的真实能力被高估。例如查询"椅子"时正确,但查询"办公旋转椅"或"扶手椅"时可能失败。
切入角度:构建真正捕获语言多样性的标注数据集,引入同义词类别和细粒度描述。
核心 idea:用 13× 更丰富的语言标注重新评估开放词汇 3D 方法,暴露现有方法的真实短板。
方法详解¶
整体框架¶
OpenLex3D 的评测设计分为三个层级(Tiered):
- Tier 1:标准语义分割 — 使用原始数据集类别,作为基准线
- Tier 2:同义词扩展分割 — 每个类别增加同义词(如 chair → office chair / swivel chair / armchair),测试方法对同义词的鲁棒性
- Tier 3:自由形式检索 — 用户提供任意自然语言描述(如"靠窗的红色抱枕"),测试细粒度检索能力
关键设计¶
-
标注流程
- 3D 网格上逐面片标注,非 2D 投影
- 每个对象提供:canonical name、多个同义词、外观描述、位置描述
- 标注者指引确保一致性
- 最终每场景平均标签数为原数据集的 13 倍
-
评测任务
- 开放集 3D 语义分割:给定文本查询,在 3D 点云/网格上预测语义标签
- 目标检索:给定自然语言描述,定位 3D 场景中的目标
-
评测指标
- mIoU(语义分割标准),分 Tier 1/2/3 报告
- Recall@K(目标检索),K=1,3,5
- Feature Precision:度量特征空间中语义一致性
数据规模¶
| 数据集 | 场景数 | 原始类别数 | OpenLex3D 标签数 |
|---|---|---|---|
| Replica | 8 | 88 | ~1150 |
| ScanNet++ | 10 | 100 | ~1300 |
| HM3D | 10 | 30 | ~390 |
实验关键数据¶
主实验 — 3D 语义分割 mIoU (%)¶
| 方法 | Replica T1 | Replica T2 | Replica T3 | ScanNet++ T1 | ScanNet++ T2 |
|---|---|---|---|---|---|
| LERF | 41.2 | 28.7 | 15.3 | 38.5 | 24.1 |
| OpenScene | 45.8 | 31.2 | 18.6 | 42.3 | 27.8 |
| ConceptFusion | 43.5 | 29.8 | 16.9 | 40.1 | 25.6 |
| LangSplat | 48.1 | 33.5 | 20.2 | 44.7 | 29.3 |
| OpenMask3D | 50.3 | 35.1 | 22.4 | 46.9 | 31.7 |
目标检索 Recall@1 (%)¶
| 方法 | Replica 标准 | Replica 同义词 | Replica 自由描述 |
|---|---|---|---|
| LERF | 52.3 | 38.1 | 21.5 |
| OpenScene | 58.7 | 42.5 | 25.8 |
| ConceptFusion | 55.1 | 40.2 | 23.1 |
| LangSplat | 61.2 | 45.8 | 28.3 |
| OpenMask3D | 64.5 | 48.2 | 30.7 |
消融实验 — Tier 级别对性能的影响(平均 mIoU 降幅)¶
| 方法 | T1→T2 降幅 | T1→T3 降幅 |
|---|---|---|
| LERF | -30.3% | -62.9% |
| OpenScene | -31.9% | -59.4% |
| ConceptFusion | -31.5% | -61.1% |
| LangSplat | -30.4% | -58.0% |
| OpenMask3D | -30.2% | -55.5% |
关键发现¶
- 所有方法从 T1 到 T3 的 mIoU 下降 55-63%,说明现有方法对语言变异性极其脆弱
- 同义词查询(T2)已导致约 30% 性能下降,表明方法过度拟合封闭集标签
- OpenMask3D 表现最优但仍有巨大提升空间(T3 仅 ~22% mIoU)
- 分割方法普遍在 Feature Precision 上表现较差——特征空间中语义相似的查询未被映射到相近区域
- 基于 3D Gaussian Splatting 的方法(LangSplat)在细粒度描述上优于 NeRF 系方法
亮点与洞察¶
- 诊断价值极高:暴露了开放词汇 3D 方法"虚假繁荣"的问题
- 分层设计实用:T1/T2/T3 逐步提升难度,便于定位方法的薄弱环节
- 标注质量高:3D 网格面片级标注 + 多人审核
- 社区基础设施:公开数据集、评测代码和排行榜
局限与展望¶
- 场景数量相对有限(28 个场景),可能不够覆盖所有室内/室外变化
- 标注主要面向室内场景,室外/大尺度场景缺乏
- 自由形式描述(T3)的标注主观性较强,评分可能有偏差
- 未包含动态场景或时序查询
相关工作与启发¶
- ScanRefer / ReferIt3D:3D 引用定位先驱
- LERF (ICCV 2023):CLIP 特征场
- OpenScene (CVPR 2023):开放词汇 3D 分割
- 启发:开放词汇评测需要从"类别名"升级到"自然语言"
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个真正开放词汇的 3D 评测基准
- 实验充分度: ⭐⭐⭐⭐⭐ 多方法多数据集多层级全面评测
- 写作质量: ⭐⭐⭐⭐ 动机充分,实验分析深入
- 价值: ⭐⭐⭐⭐⭐ 为社区提供急需的评测基础设施