LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds¶
会议: CVPR 2026
arXiv: 2603.24146
代码: 项目页面
领域: 3D视觉 / 场景理解
关键词: 开放词汇3D场景理解, 3D高斯溅射, 语义索引注入, 无训练框架, 聚类推理
一句话总结¶
LightSplat 提出了一种快速且内存高效的无训练框架,通过为3D高斯分配紧凑的2字节语义索引(而非高维CLIP特征),配合轻量级索引-特征映射和单步3D聚类,实现了比现有SOTA快50-400倍、内存降低64倍的开放词汇3D场景理解。
研究背景与动机¶
开放词汇3D场景理解旨在通过自然语言查询在3D环境中分割任意类别的物体,在机器人、3D编辑、AR/VR等领域有广泛应用。现有方法主要基于3D高斯溅射(3DGS)将2D语义蒸馏到3D场景中,但面临三个核心瓶颈:
- 计算代价高:特征蒸馏被迭代优化所阻塞,需要反复将渲染视图与CLIP嵌入对齐(如LangSplat需100分钟)
- 内存开销大:为每个高斯存储高维语言特征导致冗余存储和过多的逐高斯比较(每个高斯需4×512字节)
- 语义退化:当高斯投影回2D时特征模糊,间接监督与3D几何不对齐
核心矛盾:2D语义到3D的映射本可通过直接索引实现,但现有方法不必要地依赖迭代优化和密集特征存储。本文的关键洞察是:物体语义可以通过紧凑的掩码索引直接从2D提升到3D,无需逐高斯特征存储和迭代训练。
方法详解¶
整体框架¶
LightSplat的pipeline完全无需训练:(1) 对多视图图像用SAM提取物体掩码并用CLIP计算特征;(2) 根据高斯对2D掩码的渲染贡献,为关键高斯分配2字节掩码索引;(3) 通过3D感知掩码过滤去除噪声掩码;(4) 基于几何重叠(IoU)和语义相似度构建掩码间图,单步连通分量分析完成3D聚类;(5) 推理时仅需将查询文本与约100个聚类特征比较,而非100,000+个高斯特征。
关键设计¶
-
索引特征注入 (Indexed Feature Injection):
- 功能:将2D语义高效转移到3D,同时避免迭代优化和高维特征存储
- 核心思路:为每个2D SAM掩码分配唯一索引,通过alpha-blending权重计算每个高斯的渲染贡献 \(w_n^{(l)}(u,v) = \alpha_n \cdot T_n^{(l)}(u,v)\),仅为贡献超过阈值 \(\tau_{\text{contrib}}\) 的高斯分配2字节掩码索引(而非512维特征向量),并通过索引-特征映射表关联对应CLIP特征
- 设计动机:相比每个高斯存储4×512=2048字节的CLIP特征,2字节索引实现了1024倍的内存节省,同时通过贡献度阈值避免为视觉无关高斯分配语义
-
3D感知掩码过滤:
- 功能:增强语义可靠性,去除对3D结构贡献不足的噪声掩码
- 核心思路:过滤条件为 \(\mathcal{M}_{\text{filtered}} = \{m_k | |\mathcal{G}_k| \geq \tau_{\text{noise}}\}\),即仅保留关联高斯数量超过阈值的掩码。利用2D-3D对应关系中的高斯贡献信息抑制视角相关伪影
- 设计动机:SAM生成的掩码并非都有足够的3D几何支撑,过滤提升多视图语义一致性
-
上下文感知3D聚类:
- 功能:将高斯聚类为物体级别表示,实现高效可解释的推理
- 核心思路:构建无向图 \(G=(V,E)\),节点为过滤后的2D掩码,若两个掩码的3D高斯集合IoU超过 \(\tau_{\text{IoU}}\) 且CLIP特征余弦相似度超过 \(\tau_{\text{feat}}\) 则连边。通过单步连通分量分析将所有掩码分组为3D聚类,每个聚类的特征由关联掩码的CLIP特征平均得到
- 设计动机:单步聚类(vs 迭代图扩散如LUDVIG)大幅减少计算量,推理复杂度从10万+高斯降至约100个聚类
损失函数 / 训练策略¶
无训练方法,无需任何优化过程。所有步骤(索引注入、掩码过滤、图构建、聚类)均为确定性的单步操作。
实验关键数据¶
主实验¶
LERF-OVS 3D物体选择:
| 方法 | Mean mIoU | Mean mAcc@0.25 | 蒸馏时间 |
|---|---|---|---|
| LangSplat | 7.66 | 9.37 | 100 min |
| OpenGaussian | 42.15 | 56.22 | 50 min |
| Dr.Splat | 43.58 | 63.87 | 4 min |
| LightSplat | 47.58 | 68.32 | 4.2 s |
DL3DV-OVS:
| 方法 | Mean mIoU | Mean mAcc@0.25 | 蒸馏时间 |
|---|---|---|---|
| LUDVIG | 29.21 | 56.89 | 12 min |
| LightSplat | 44.98 | 60.82 | 4.8 s |
ScanNet 语义分割 (19类):
| 方法 | mIoU | mAcc | 蒸馏时间 | 推理时间 | 内存/高斯 |
|---|---|---|---|---|---|
| Dr.Splat | 6.69 | 15.76 | 4 min | 8.1 s | 128 byte |
| LightSplat | 13.69 | 23.01 | 5 s | 0.1 s | 2 byte |
消融实验¶
| 配置 | Mean mIoU | 说明 |
|---|---|---|
| 无掩码过滤 | 44.73 | 噪声掩码降低语义质量 |
| 无3D聚类 | 44.56 | 缺乏物体级别一致性 |
| 完整模型 | 47.58 | 过滤+聚类双管齐下最优 |
关键发现¶
- LightSplat在LERF-OVS上达到47.58 mIoU(SOTA),同时蒸馏时间仅4.2秒——比Dr.Splat快约57倍,比LangSplat快约1429倍
- 2字节索引 vs 128字节CLIP特征,实现64倍内存节省
- 推理时仅需与~100个聚类比较,ScanNet上推理时间从8.1秒降至0.1秒
- 在大规模室外场景(DL3DV-OVS)上优势更明显:mIoU从次优的29.21提升到44.98
亮点与洞察¶
- 核心洞察极为精炼:用2字节索引替代512维特征向量,通过间接映射保留完整语义信息,是一个令人拍案叫绝的简化设计
- 完全无训练的流程使其成为真正的即插即用方案,不需要GPU训练时间
- 单步聚类(连通分量分析)替代迭代优化,整个pipeline的每一步都追求简洁高效
局限与展望¶
- 依赖预训练3DGS的质量:如果3D重建本身存在伪影,索引注入也会受影响
- 阈值参数(\(\tau_{\text{contrib}}, \tau_{\text{noise}}, \tau_{\text{IoU}}, \tau_{\text{feat}}\))需要调整,对不同场景的鲁棒性有待验证
- 对细粒度语义(如区分外观相似但语义不同的物体)的处理能力可能受限于CLIP特征本身
- 聚类粒度固定,可能无法适应需要多层次语义理解的场景
相关工作与启发¶
- vs Dr.Splat: Dr.Splat需迭代特征聚合+Product Quantization训练,LightSplat单步完成且性能更优
- vs LUDVIG: LUDVIG使用图扩散,计算开销更大,在DL3DV-OVS上mIoU被LightSplat大幅超越(29.21→44.98)
- vs LangSplat/LEGaussians: 这些方法通过渲染引导迭代特征优化,速度慢两个数量级且性能更差
- 启发: "索引+映射表"的间接语义表示范式可推广到其他3D特征存储场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 用2字节索引替代高维特征的洞察极简却极有效,全面颠覆了"需要迭代优化"的假设
- 实验充分度: ⭐⭐⭐⭐ 覆盖三个数据集、多指标对比,但消融实验可更深入
- 写作质量: ⭐⭐⭐⭐ 方法动机清晰、流程图质量高,数学符号统一
- 价值: ⭐⭐⭐⭐⭐ 50-400×加速和64×内存节省具有巨大实用价值,可直接应用于实时AR/VR场景