Splat Feature Solver¶

会议: ICLR 2026
arXiv: 2508.12216
代码: 有 (GitHub)
领域: 3D视觉 / 3D场景理解
关键词: Feature Lifting, 3D Gaussian Splatting, 线性逆问题, 开放词汇3D分割, Tikhonov正则化

一句话总结¶

将3D splat表示的特征提升(feature lifting)问题统一建模为稀疏线性逆问题 \(AX=B\)，提出闭式求解器并证明其在凸损失下的 \((1+\beta)\)-近似误差上界，配合 Tikhonov 引导和后聚合过滤两种正则化策略，在开放词汇3D分割任务上达到SOTA。

研究背景与动机¶

领域现状：基于 splat 的3D表示（3DGS、2DGS 等）已实现实时高保真渲染，但将丰富的2D语义特征（CLIP、DINO 等）提升到3D primitives仍是挑战。现有方法分为三类：训练式优化、分组式关联、启发式前向投影。

现有痛点：(1) 缺乏统一的数学框架来定义 feature lifting 问题；(2) 现有方法没有理论保证解的质量与最优解的距离；(3) 所有方法仅聚焦 SAM+CLIP 特征和 3DGS kernel，泛化能力受限；(4) 未显式处理多视角不一致和噪声 mask 问题。

核心矛盾：feature lifting 本质上是一个稀疏的、行随机的线性逆问题，会因噪声 mask 和不完备性变得病态(ill-conditioned)，但现有方法要么需要昂贵训练，要么缺乏理论保障。

本文目标 建立 feature lifting 的形式化数学框架，提供闭式解和误差上界，并处理多视角噪声。

切入角度：利用 alpha blending 渲染的行随机性质，将 feature lifting 转化为标准线性逆问题，通过 Jensen 不等式推导代理损失的最优解。

核心 idea：feature lifting 可表述为 \(AX=B\)，其中 \(A\) 是渲染权重矩阵，row-sum preconditioner 给出的闭式解 \(x_j = \frac{\sum_i A_{ij} B_i}{\sum_i A_{ij}}\) 在凸损失下有可证明的 \((1+\beta)\)-近似保证。

方法详解¶

整体框架¶

本文把"将2D密集特征提升到3D splat primitive"这件事整体看成解一个稀疏线性逆问题：以预计算的 splat 几何、相机参数和2D特征观测（CLIP、DINO 等）为输入，构造出渲染权重矩阵 \(A\) 和观测向量 \(B\)，问题就归约为求解 \(AX=B\)。求解时不做任何训练，而是用 row-sum preconditioner 给出闭式解，再用两个正则化模块从两端兜底：Tikhonov Guidance 在求解时软极化 opacity、增强系统的对角优势以稳定病态系统；Post-Lifting Aggregation 在提升完特征后聚类过滤掉噪声 mask。最终输出每个 primitive 的特征向量，供开放词汇 3D 分割等下游任务使用。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    I["输入：splat 几何 + 相机参数<br/>+ 2D 特征观测 (CLIP/DINO)"] --> A["线性逆问题建模与闭式求解器<br/>构造 A、B，row-sum 闭式解 AX=B"]
    A --> T["Tikhonov Guidance<br/>软极化 opacity，增强对角优势压低 β"]
    T --> P["Post-Lifting Aggregation<br/>聚类→渲染回 2D→IoU 过滤噪声 mask"]
    P --> O["输出：每个 primitive 的特征向量"]
    O --> D["下游：开放词汇 3D 分割 / 定位"]

关键设计¶

1. 线性逆问题建模与闭式求解器：把启发式的 row-sum 加权升格为有误差保证的最优解

现有 feature lifting 方法各自为政、缺乏统一框架，更没有"解离最优有多远"的理论保障。本文将问题形式化为 \(AX=B\)，其中 \(A \in \mathbb{R}^{R \times P}\)（\(R\) 为射线数、\(P\) 为 primitive 数）是 alpha blending 的渲染权重矩阵。关键观察是 alpha blending 天然具有行随机性 \(\sum_j A_{ij} \approx 1\)，据此用 Jensen 不等式构造一个可解析最小化的代理损失 \(\mathcal{J}(x) = \sum_i \sum_j A_{ij} \|x_j - B_i\| \geq \mathcal{L}(x)\)，对它求最优即得 row-sum preconditioner 闭式解 \(x_j = \frac{\sum_i A_{ij} B_i}{\sum_i A_{ij}}\)。这样不仅避免了 SGD 从头训练的高昂代价，还能证明 \(\mathcal{L}(x') \leq (1+\beta)\mathcal{L}(\hat{x})\)——其中 \(\beta\) 衡量最优解沿视线方向的特征离散度。这一上界把 CosegGaussians、Occam's LGS、DrSplat 等工作各自独立发现的 row-sum 规则统一为同一闭式解的特例，并首次给出了它们的近似最优性。

2. Tikhonov Guidance：用非线性软极化压低误差上界 \(\beta\)

线性系统 \(A\) 可能秩亏或近奇异，导致问题病态、\(\beta\) 偏大。传统 Tikhonov 正则 \(\|Ax-b\|^2 + \|\lambda I\|^2\) 只是对系统做线性调整，本文则改从 \(A\) 的构造入手：根据"\(\beta\) 与 \(A^T A\) 的对角优势度负相关"这一性质（Property 4），在 feature lifting 阶段对 opacity 激活函数做非线性软极化，把 opacity 值往 0 或 1 推，使每条射线上的贡献尽量集中到单个 primitive。极端情形下 \(\tilde{A}\) 每行只剩一个值为 1 的非零项，即给出全局最优解。这样直接增强了 \(A^T A\) 的对角优势、压低 \(\beta\)，而且因为只作用于 feature lifting 阶段、不改动几何，不会损害 RGB 渲染质量。

3. Post-Lifting Aggregation：从数据端过滤掉不一致的 SAM mask

多视角不一致往往不是真实的语义差异，而是 mask 噪声造成的——比如一个视角只分割出面条，另一个视角却把碗和面条圈在一起。本文不在求解中硬扛这种噪声，而是在提升完特征后做一次清洗：直接复用 Tikhonov-Guided 解 \(\tilde{x}\) 作为聚类特征把每个 splat 分到一个 cluster，再用 one-hot 编码把 cluster ID 渲染回2D 并取 argmax 得到 cluster mask，最后计算每个 SAM mask 与 cluster mask 的 IoU，把 IoU 低于阈值的 mask 整个丢弃。和 LAGA 需要单独学 affinity 特征、做 view-dependent 聚类不同，这里复用已有解、实现更简单，也印证了"大多数看似视角相关的差异其实来自 mask 噪声"这一判断。

损失函数 / 训练策略¶

整套方法无需任何训练，全程闭式求解，这也是它能在数分钟内完成而非耗时数小时的根本原因。

实验关键数据¶

主实验¶

数据集(LeRF-OVS)	指标(mIoU)	本文	LAGA (SOTA)	提升
Figurines	mIoU	67.6	64.1	+3.5
Ramen	mIoU	62.3	56.6 (N2F2)	+5.7
Mean (4场景)	mIoU	65.1	64.0 (LAGA)	+1.1

消融实验¶

配置	指标	说明
无 Tikhonov + 无 Post-Agg	Cosine Sim ~90%	基础 solver 已有较好提升能力
+ Tikhonov Guidance	mIoU 提升	增强对角优势降低 \(\beta\)
+ Post-Lifting Aggregation	mIoU 最优	过滤噪声 mask 进一步提升
多特征(DINO/ViT/ResNet)	Cosine >80%	验证 feature-agnostic 能力

关键发现¶

Row-sum preconditioner 在数分钟内完成特征提升，远快于训练式方法的数小时
Tikhonov Guidance 通过增强对角优势有效降低 \(\beta\)，理论与实验吻合
大多数多视角不一致来自 mask 噪声而非真实语义变化，Post-Lifting Aggregation 有效过滤

亮点与洞察¶

将 feature lifting 建模为线性逆问题是关键洞察，统一了三类方法（CosegGaussians、Occam's LGS、DrSplat 独立发现的 row-sum 规则都是其特例）
\((1+\beta)\)-近似误差上界是首个用于 feature lifting 的理论保证
完全 kernel-agnostic 和 feature-agnostic：同一框架可处理 3DGS/2DGS/Beta Splatting 和 CLIP/DINO/ViT/ResNet 等任意特征

局限与展望¶

\(\beta\) 上界依赖最优解的特征离散度，实际值难以先验估计
Post-Lifting Aggregation 的 IoU 阈值虽有自动选择，但仍有场景敏感性
闭式解假设 \(\sum \omega_p \approx 1\)（行随机性），极端稀疏场景可能退化

评分¶

新颖性: ⭐⭐⭐⭐ 线性逆问题建模是优雅的统一框架，理论贡献突出
实验充分度: ⭐⭐⭐ LeRF-OVS 覆盖较全，但评估基准较少
写作质量: ⭐⭐⭐⭐ 理论推导清晰，但符号偶有混用
价值: ⭐⭐⭐⭐ 为3D feature lifting 建立了理论基础，有望成为后续工作的标准参考