跳转至

LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds

会议: CVPR 2026
arXiv: 2603.24146
代码: 项目页面
领域: 3D视觉 / 场景理解
关键词: 开放词汇3D场景理解, 3D高斯溅射, 语义索引注入, 无训练框架, 聚类推理

一句话总结

LightSplat 提出了一种快速且内存高效的无训练框架,通过为3D高斯分配紧凑的2字节语义索引(而非高维CLIP特征),配合轻量级索引-特征映射和单步3D聚类,实现了比现有SOTA快50-400倍、内存降低64倍的开放词汇3D场景理解。

研究背景与动机

开放词汇3D场景理解旨在通过自然语言查询在3D环境中分割任意类别的物体,在机器人、3D编辑、AR/VR等领域有广泛应用。现有方法主要基于3D高斯溅射(3DGS)将2D语义蒸馏到3D场景中,但面临三个核心瓶颈:

  1. 计算代价高:特征蒸馏被迭代优化所阻塞,需要反复将渲染视图与CLIP嵌入对齐(如LangSplat需100分钟)
  2. 内存开销大:为每个高斯存储高维语言特征导致冗余存储和过多的逐高斯比较(每个高斯需4×512字节)
  3. 语义退化:当高斯投影回2D时特征模糊,间接监督与3D几何不对齐

核心矛盾:2D语义到3D的映射本可通过直接索引实现,但现有方法不必要地依赖迭代优化和密集特征存储。本文的关键洞察是:物体语义可以通过紧凑的掩码索引直接从2D提升到3D,无需逐高斯特征存储和迭代训练

方法详解

整体框架

LightSplat的pipeline完全无需训练:(1) 对多视图图像用SAM提取物体掩码并用CLIP计算特征;(2) 根据高斯对2D掩码的渲染贡献,为关键高斯分配2字节掩码索引;(3) 通过3D感知掩码过滤去除噪声掩码;(4) 基于几何重叠(IoU)和语义相似度构建掩码间图,单步连通分量分析完成3D聚类;(5) 推理时仅需将查询文本与约100个聚类特征比较,而非100,000+个高斯特征。

关键设计

  1. 索引特征注入 (Indexed Feature Injection):

    • 功能:将2D语义高效转移到3D,同时避免迭代优化和高维特征存储
    • 核心思路:为每个2D SAM掩码分配唯一索引,通过alpha-blending权重计算每个高斯的渲染贡献 \(w_n^{(l)}(u,v) = \alpha_n \cdot T_n^{(l)}(u,v)\),仅为贡献超过阈值 \(\tau_{\text{contrib}}\) 的高斯分配2字节掩码索引(而非512维特征向量),并通过索引-特征映射表关联对应CLIP特征
    • 设计动机:相比每个高斯存储4×512=2048字节的CLIP特征,2字节索引实现了1024倍的内存节省,同时通过贡献度阈值避免为视觉无关高斯分配语义
  2. 3D感知掩码过滤:

    • 功能:增强语义可靠性,去除对3D结构贡献不足的噪声掩码
    • 核心思路:过滤条件为 \(\mathcal{M}_{\text{filtered}} = \{m_k | |\mathcal{G}_k| \geq \tau_{\text{noise}}\}\),即仅保留关联高斯数量超过阈值的掩码。利用2D-3D对应关系中的高斯贡献信息抑制视角相关伪影
    • 设计动机:SAM生成的掩码并非都有足够的3D几何支撑,过滤提升多视图语义一致性
  3. 上下文感知3D聚类:

    • 功能:将高斯聚类为物体级别表示,实现高效可解释的推理
    • 核心思路:构建无向图 \(G=(V,E)\),节点为过滤后的2D掩码,若两个掩码的3D高斯集合IoU超过 \(\tau_{\text{IoU}}\) 且CLIP特征余弦相似度超过 \(\tau_{\text{feat}}\) 则连边。通过单步连通分量分析将所有掩码分组为3D聚类,每个聚类的特征由关联掩码的CLIP特征平均得到
    • 设计动机:单步聚类(vs 迭代图扩散如LUDVIG)大幅减少计算量,推理复杂度从10万+高斯降至约100个聚类

损失函数 / 训练策略

无训练方法,无需任何优化过程。所有步骤(索引注入、掩码过滤、图构建、聚类)均为确定性的单步操作。

实验关键数据

主实验

LERF-OVS 3D物体选择:

方法 Mean mIoU Mean mAcc@0.25 蒸馏时间
LangSplat 7.66 9.37 100 min
OpenGaussian 42.15 56.22 50 min
Dr.Splat 43.58 63.87 4 min
LightSplat 47.58 68.32 4.2 s

DL3DV-OVS:

方法 Mean mIoU Mean mAcc@0.25 蒸馏时间
LUDVIG 29.21 56.89 12 min
LightSplat 44.98 60.82 4.8 s

ScanNet 语义分割 (19类):

方法 mIoU mAcc 蒸馏时间 推理时间 内存/高斯
Dr.Splat 6.69 15.76 4 min 8.1 s 128 byte
LightSplat 13.69 23.01 5 s 0.1 s 2 byte

消融实验

配置 Mean mIoU 说明
无掩码过滤 44.73 噪声掩码降低语义质量
无3D聚类 44.56 缺乏物体级别一致性
完整模型 47.58 过滤+聚类双管齐下最优

关键发现

  • LightSplat在LERF-OVS上达到47.58 mIoU(SOTA),同时蒸馏时间仅4.2秒——比Dr.Splat快约57倍,比LangSplat快约1429倍
  • 2字节索引 vs 128字节CLIP特征,实现64倍内存节省
  • 推理时仅需与~100个聚类比较,ScanNet上推理时间从8.1秒降至0.1秒
  • 在大规模室外场景(DL3DV-OVS)上优势更明显:mIoU从次优的29.21提升到44.98

亮点与洞察

  • 核心洞察极为精炼:用2字节索引替代512维特征向量,通过间接映射保留完整语义信息,是一个令人拍案叫绝的简化设计
  • 完全无训练的流程使其成为真正的即插即用方案,不需要GPU训练时间
  • 单步聚类(连通分量分析)替代迭代优化,整个pipeline的每一步都追求简洁高效

局限与展望

  • 依赖预训练3DGS的质量:如果3D重建本身存在伪影,索引注入也会受影响
  • 阈值参数(\(\tau_{\text{contrib}}, \tau_{\text{noise}}, \tau_{\text{IoU}}, \tau_{\text{feat}}\))需要调整,对不同场景的鲁棒性有待验证
  • 对细粒度语义(如区分外观相似但语义不同的物体)的处理能力可能受限于CLIP特征本身
  • 聚类粒度固定,可能无法适应需要多层次语义理解的场景

相关工作与启发

  • vs Dr.Splat: Dr.Splat需迭代特征聚合+Product Quantization训练,LightSplat单步完成且性能更优
  • vs LUDVIG: LUDVIG使用图扩散,计算开销更大,在DL3DV-OVS上mIoU被LightSplat大幅超越(29.21→44.98)
  • vs LangSplat/LEGaussians: 这些方法通过渲染引导迭代特征优化,速度慢两个数量级且性能更差
  • 启发: "索引+映射表"的间接语义表示范式可推广到其他3D特征存储场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用2字节索引替代高维特征的洞察极简却极有效,全面颠覆了"需要迭代优化"的假设
  • 实验充分度: ⭐⭐⭐⭐ 覆盖三个数据集、多指标对比,但消融实验可更深入
  • 写作质量: ⭐⭐⭐⭐ 方法动机清晰、流程图质量高,数学符号统一
  • 价值: ⭐⭐⭐⭐⭐ 50-400×加速和64×内存节省具有巨大实用价值,可直接应用于实时AR/VR场景