LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds¶
会议: CVPR 2026
arXiv: 2603.24146
代码: 项目页面
领域: 3D视觉 / 场景理解
关键词: 开放词汇3D场景理解, 3D高斯溅射, 语义索引注入, 无训练框架, 聚类推理
一句话总结¶
LightSplat 提出了一种快速且内存高效的无训练框架,通过为3D高斯分配紧凑的2字节语义索引(而非高维CLIP特征),配合轻量级索引-特征映射和单步3D聚类,实现了比现有SOTA快50-400倍、内存降低64倍的开放词汇3D场景理解。
研究背景与动机¶
开放词汇3D场景理解旨在通过自然语言查询在3D环境中分割任意类别的物体,在机器人、3D编辑、AR/VR等领域有广泛应用。现有方法主要基于3D高斯溅射(3DGS)将2D语义蒸馏到3D场景中,但面临三个核心瓶颈:
- 计算代价高:特征蒸馏被迭代优化所阻塞,需要反复将渲染视图与CLIP嵌入对齐(如LangSplat需100分钟)
- 内存开销大:为每个高斯存储高维语言特征导致冗余存储和过多的逐高斯比较(每个高斯需4×512字节)
- 语义退化:当高斯投影回2D时特征模糊,间接监督与3D几何不对齐
核心矛盾:2D语义到3D的映射本可通过直接索引实现,但现有方法不必要地依赖迭代优化和密集特征存储。本文的关键洞察是:物体语义可以通过紧凑的掩码索引直接从2D提升到3D,无需逐高斯特征存储和迭代训练。
方法详解¶
整体框架¶
LightSplat 要回答的问题是:在已有一个训练好的 3DGS 场景后,怎样用最低的时间和内存成本,让人能用自然语言查询其中的任意物体。它的核心取舍是放弃"给每个高斯都存一份语言特征再迭代优化"的主流做法,改走一条几乎全是确定性单步操作的路线。
整条流程是这样转的:先对每张视图用 SAM 切出物体掩码、用 CLIP 给每个掩码算一份特征;接着把这些 2D 掩码的归属"投射"回 3D——根据每个高斯对掩码渲染的贡献度,只给真正参与成像的关键高斯打上一个 2 字节的掩码索引,而不是塞进 512 维特征;然后做一轮 3D 感知的掩码过滤,把缺乏几何支撑的噪声掩码剔掉;再按掩码之间的 3D 重叠和语义相似度连边、做一次连通分量分析,把成千上万个高斯收敛成约 100 个物体级聚类;最后推理时只需把查询文本和这约 100 个聚类特征比一比,而不是去和十万级的高斯逐个比对。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["多视图图像 + 预训练 3DGS"] --> B["SAM 切物体掩码<br/>CLIP 算掩码特征"]
B --> C["索引特征注入<br/>按 alpha-blending 贡献度<br/>给关键高斯打 2 字节掩码索引"]
C --> D["3D 感知掩码过滤<br/>关联高斯数 ≥ τ_noise 才保留"]
D --> E["上下文感知 3D 聚类<br/>3D IoU + CLIP 相似度连边<br/>一次连通分量 → 约 100 个物体聚类"]
E --> F["文本查询 ↔ 约 100 个聚类特征比对<br/>开放词汇 3D 分割"]
关键设计¶
1. 索引特征注入:用 2 字节索引替代逐高斯的高维特征
主流方法慢且占内存的根因,是它们把语言特征当成"要存进每个高斯、再靠渲染对齐反复优化"的东西。LightSplat 换了个思路:每个 2D SAM 掩码本来就有唯一身份,那就给它一个整数索引,让高斯只记"我属于哪个掩码",特征本体单独存在一张索引-特征映射表里。具体落地时,先用 alpha-blending 的权重衡量每个高斯对某层掩码的渲染贡献
只有贡献超过阈值 \(\tau_{\text{contrib}}\) 的高斯才会被打上对应的 2 字节掩码索引,视觉上无关的高斯不参与,避免把语义糊到背景上。这样一来,每个高斯从存 4×512 字节的 CLIP 特征降到只存 2 字节索引,单看存储是约 1024 倍的压缩,而语义并没有丢——它只是搬到了映射表里,用一次查表就能取回。
2. 3D 感知掩码过滤:剔除没有几何支撑的噪声掩码
SAM 在单视图里切出来的掩码并不都靠谱,有些只是某个视角下的伪影,硬把它们提升到 3D 反而会污染语义。LightSplat 利用上一步建立的 2D-3D 对应关系来判断一个掩码值不值得信:看它实际关联了多少个高斯。过滤规则很直接,
即只保留关联高斯数量超过 \(\tau_{\text{noise}}\) 的掩码,关联高斯太少的掩码(往往是视角相关的碎片)被丢弃。这一步把"哪些 2D 观测有稳定 3D 结构撑腰"作为可靠性的代理,从而提升多视图之间的语义一致性。
3. 上下文感知 3D 聚类:一次连通分量分析收敛到物体级
即便过滤后,同一个物体仍会被不同视角的多个掩码、大量高斯重复表示,直接拿来推理既慢又不一致。LightSplat 把这一步建模成图问题:构造无向图 \(G=(V,E)\),节点是过滤后的掩码,当两个掩码对应的 3D 高斯集合 IoU 超过 \(\tau_{\text{IoU}}\)、且它们的 CLIP 特征余弦相似度超过 \(\tau_{\text{feat}}\) 时就连一条边——几何上重叠、语义上又相近,说明它们多半指向同一个物体。然后只做一次连通分量分析就把所有掩码切成若干 3D 聚类,每个聚类的特征取其成员掩码 CLIP 特征的平均。和 LUDVIG 那类需要反复迭代的图扩散相比,这里单步就收敛,推理面对的对象数量从十万级高斯直接塌缩到约 100 个聚类,这也是推理时间能从秒级降到 0.1 秒的直接原因。
损失函数 / 训练策略¶
无训练方法,无需任何优化过程。所有步骤(索引注入、掩码过滤、图构建、聚类)均为确定性的单步操作。
实验关键数据¶
主实验¶
LERF-OVS 3D物体选择:
| 方法 | Mean mIoU | Mean [email protected] | 蒸馏时间 |
|---|---|---|---|
| LangSplat | 7.66 | 9.37 | 100 min |
| OpenGaussian | 42.15 | 56.22 | 50 min |
| Dr.Splat | 43.58 | 63.87 | 4 min |
| LightSplat | 47.58 | 68.32 | 4.2 s |
DL3DV-OVS:
| 方法 | Mean mIoU | Mean [email protected] | 蒸馏时间 |
|---|---|---|---|
| LUDVIG | 29.21 | 56.89 | 12 min |
| LightSplat | 44.98 | 60.82 | 4.8 s |
ScanNet 语义分割 (19类):
| 方法 | mIoU | mAcc | 蒸馏时间 | 推理时间 | 内存/高斯 |
|---|---|---|---|---|---|
| Dr.Splat | 6.69 | 15.76 | 4 min | 8.1 s | 128 byte |
| LightSplat | 13.69 | 23.01 | 5 s | 0.1 s | 2 byte |
消融实验¶
| 配置 | Mean mIoU | 说明 |
|---|---|---|
| 无掩码过滤 | 44.73 | 噪声掩码降低语义质量 |
| 无3D聚类 | 44.56 | 缺乏物体级别一致性 |
| 完整模型 | 47.58 | 过滤+聚类双管齐下最优 |
关键发现¶
- LightSplat在LERF-OVS上达到47.58 mIoU(SOTA),同时蒸馏时间仅4.2秒——比Dr.Splat快约57倍,比LangSplat快约1429倍
- 2字节索引 vs 128字节CLIP特征,实现64倍内存节省
- 推理时仅需与~100个聚类比较,ScanNet上推理时间从8.1秒降至0.1秒
- 在大规模室外场景(DL3DV-OVS)上优势更明显:mIoU从次优的29.21提升到44.98
亮点与洞察¶
- 核心洞察极为精炼:用2字节索引替代512维特征向量,通过间接映射保留完整语义信息,是一个令人拍案叫绝的简化设计
- 完全无训练的流程使其成为真正的即插即用方案,不需要GPU训练时间
- 单步聚类(连通分量分析)替代迭代优化,整个pipeline的每一步都追求简洁高效
局限与展望¶
- 依赖预训练3DGS的质量:如果3D重建本身存在伪影,索引注入也会受影响
- 阈值参数(\(\tau_{\text{contrib}}, \tau_{\text{noise}}, \tau_{\text{IoU}}, \tau_{\text{feat}}\))需要调整,对不同场景的鲁棒性有待验证
- 对细粒度语义(如区分外观相似但语义不同的物体)的处理能力可能受限于CLIP特征本身
- 聚类粒度固定,可能无法适应需要多层次语义理解的场景
相关工作与启发¶
- vs Dr.Splat: Dr.Splat需迭代特征聚合+Product Quantization训练,LightSplat单步完成且性能更优
- vs LUDVIG: LUDVIG使用图扩散,计算开销更大,在DL3DV-OVS上mIoU被LightSplat大幅超越(29.21→44.98)
- vs LangSplat/LEGaussians: 这些方法通过渲染引导迭代特征优化,速度慢两个数量级且性能更差
- 启发: "索引+映射表"的间接语义表示范式可推广到其他3D特征存储场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 用2字节索引替代高维特征的洞察极简却极有效,全面颠覆了"需要迭代优化"的假设
- 实验充分度: ⭐⭐⭐⭐ 覆盖三个数据集、多指标对比,但消融实验可更深入
- 写作质量: ⭐⭐⭐⭐ 方法动机清晰、流程图质量高,数学符号统一
- 价值: ⭐⭐⭐⭐⭐ 50-400×加速和64×内存节省具有巨大实用价值,可直接应用于实时AR/VR场景