Learning Compact Latent Space for Representing Neural Signed Distance Functions with High-fidelity Geometry Details¶

会议: AAAI 2026
arXiv: 2511.14539
代码: GitHub
领域: 其他
关键词: 神经符号距离函数, 隐式表示, 紧凑潜空间, 体积网格, 几何细节

一句话总结¶

提出一种双分支架构（泛化分支+过拟合分支）来学习多个神经SDF的紧凑潜空间，结合共享spatial feature grid和新颖的带宽采样策略，在保持紧凑latent code的同时恢复高保真几何细节，在Stanford Models、ShapeNet和D-FAUST上均达到SOTA。

研究背景与动机¶

神经符号距离函数（Neural SDF）是三维形状表示的核心方法，通过神经网络参数化一个连续的隐式函数，可以在任意空间坐标处查询到该点到物体表面的符号距离。然而，现有方法在同时表示多个SDF并保留高保真几何细节时面临严重瓶颈。

现有方法的两大路线及其局限：

泛化路线（如DeepSDF）：将多个形状编码到一个共享的全局latent space中，利用MLP解码。优势是能泛化到新形状，但受限于网络对低频信号的偏好（spectral bias），无法恢复高频几何细节（如尖锐边缘、细小孔洞）。

过拟合路线（如Instant-NGP、MosaicSDF）：利用体积网格或多分辨率哈希表存储空间特征，能恢复精细细节。但这类方法通常只针对单个形状进行过拟合，缺乏用于表示多个形状的紧凑潜空间。当多个形状共享一个feature grid时，不同形状之间的采样不平衡会导致相互干扰，产生伪影。

核心矛盾：泛化能力与高频细节恢复能力难以兼顾。泛化方法有紧凑编码但丢失细节，过拟合方法保留细节但缺少共享空间。

本文切入角度：将两种路线的优势结合——用泛化分支处理远离表面的区域（不需密集采样也能产生合理的SDF值），用过拟合分支处理近表面区域（密集采样以恢复高频细节），两个分支共享同一个紧凑的形状编码 \(\mathbf{z}\)。

方法详解¶

整体框架¶

方法由两个并行分支构成，共享一个可学习的latent code \(\mathbf{z}\)：

泛化分支（Generalization Branch）：输入位置编码 \(PE(\mathbf{x})\) 和形状编码 \(\mathbf{z}\)，输出粗糙的SDF值 \(s_g\)。依靠神经网络的泛化能力，即使远离表面区域只有稀疏采样也能给出合理预测。
过拟合分支（Overfitting Branch）：维护一个共享的空间特征网格（\(128^3\) 分辨率，每个顶点128维特征），通过三线性插值获取查询点的局部特征 \(\mathbf{c}\)，与 \(\mathbf{x}\) 和 \(\mathbf{z}\) 一起输入网络，输出精细的SDF值 \(s_o\)。利用grid的高频拟合能力恢复表面几何细节。

推理时通过符号距离融合策略组合两个分支的输出：先用泛化分支做粗糙重建，确定表面所在的体素带（bandwidth \(\mathbb{B}\)），带内使用过拟合分支的预测，带外使用泛化分支的预测。

关键设计¶

双分支架构与符号距离融合:
- 功能：将SDF的查询空间分为近表面和远表面两个区域，分别用不同分支处理
- 核心思路：融合公式为 \(s = s_o\) 当 \(\mathbf{x} \in \mathbb{B}\)，否则 \(s = s_g\)。其中 \(\mathbb{B}\) 是表面两侧各扩展 \(n\) 层体素形成的带宽区域
- 设计动机：泛化分支在远表面能消除因采样不平衡导致的伪影（不同形状的特征干扰），过拟合分支在近表面能恢复尖锐边缘和精细结构。两者互补。
带平衡约束的采样策略:
- 功能：为过拟合分支设计一种新的训练采样方案
- 核心思路：先以低分辨率（\(128^3\)）均匀采样整个空间得到稀疏样本；再以高分辨率（\(512^3\)）在表面带宽 \(\mathbb{B}\) 内密集采样；合并去重
- 设计动机：直接在高分辨率下对所有形状保证每个体素都有平衡采样，计算代价是 \(O(N \times R^3)\) 不可接受。该策略通过只在近表面密集采样、远表面稀疏采样来平衡效率和质量，同时泛化分支弥补了远表面的稀疏采样不足
共享空间特征网格:
- 功能：多个形状共享同一个 \(128^3 \times 128\) 维的特征网格，每个形状通过latent code \(\mathbf{z}\) 区分
- 核心思路：查询点 \(\mathbf{x}\) 通过三线性插值从网格获取特征 \(\mathbf{c}\)，再与 \(\mathbf{z}\) 一起解码
- 设计动机：unlike哈希网格（Instant-NGP），显式的共享网格避免了哈希碰撞，配合形状编码能更好区分不同形状

损失函数 / 训练策略¶

总损失函数包含四项：

\[\mathcal{L} = \mathcal{L}_{\text{gen}} + \mathcal{L}_{\text{ovf}} + \lambda_1 \mathcal{L}_z + \lambda_2 \mathcal{L}_c\]

\(\mathcal{L}_{\text{gen}}\): 泛化分支的MSE损失
\(\mathcal{L}_{\text{ovf}}\): 过拟合分支的MSE损失
\(\mathcal{L}_z\): 形状编码 \(\mathbf{z}\) 的正则化（防过拟合、鼓励紧凑性）
\(\mathcal{L}_c\): 网格特征 \(\mathbf{c}\) 的正则化

训练细节：网格特征学习率 \(10^{-1}\)，形状编码学习率 \(10^{-3}\)，两个网络均为8层512单元MLP，latent code 256维，共训练4000 epoch。

实验关键数据¶

主实验（单个复杂物体重建 — Stanford Models）¶

方法	CD(↓)	F-Score(↑)	Precision(↑)	Recall(↑)
ACORN	6.76e-05	0.982	0.967	0.998
NGLOD	6.77e-05	0.980	0.968	0.994
Instant-NGP	7.37e-05	0.976	0.962	0.990
MosaicSDF	1.30e-03	0.902	0.846	0.972
HyperDiffusion	1.20e-04	0.835	0.847	0.823
Ours	6.56e-05	0.983	0.969	0.998

多物体重建（ShapeNet, CD×10⁻⁴）¶

方法	Bench	Chair	Plane	Table	Lamp	Sofa	Avg.
DeepSDF	4.890	8.630	2.660	6.330	14.63	5.040	7.030
IF-NET	1.340	1.000	0.225	0.857	0.817	1.100	0.890
Instant-NGP	0.881	1.210	0.664	1.030	1.880	1.100	1.128
HyperDiffusion	1.640	1.490	2.310	1.470	6.990	2.830	2.788
Ours	0.463	0.898	0.223	0.790	0.517	0.751	0.607

消融实验¶

配置	CD(×10⁻⁴)	说明
双分支(Ours)	4.01	完整方法
仅泛化分支	4.05	丢失高频细节
仅过拟合分支	11.6	远表面出现严重伪影
带宽n=1	4.29	带宽过窄，过拟合分支贡献不足
带宽n=6	14.6	带宽过大，伪影从过拟合分支传递

采样策略	CD(×10⁻⁴)	采样量
均匀 \(32^3\)	35.900	\(32^3\)
均匀 \(128^3\)	0.890	\(128^3\)
均匀 \(256^3\)	0.417	\(256^3\)
Ours	0.401	≈\(220^3\)

关键发现¶

多物体重建中，本方法平均CD（0.607×10⁻⁴）比第二名IF-NET（0.890）低32%
带宽参数 \(n=3\) 是最佳权衡点，过大过小都会降低性能
latent code维度在64维时性能趋于饱和（CD从d=8的0.443降到d=64的0.397）
本方法的采样策略用约 \(220^3\) 样本就超过了 \(256^3\) 均匀采样的效果

亮点与洞察¶

核心洞察很精准：泛化和过拟合本质上是SDF不同空间区域的最优策略，将两者按空间分工融合是一个简洁而有效的思路
共享feature grid上不同形状的采样不平衡问题被识别并通过带宽限制+泛化分支补偿巧妙解决
在shape interpolation实验中，本方法比DeepSDF有更显著的插值变化，比HyperDiffusion更紧凑（256维 vs 整个MLP参数）

局限与展望¶

方法需要watertight mesh作为输入，无法直接处理点云或带噪声的扫描数据
\(128^3\) 的feature grid内存开销随类别数增加线性增长
推理需要两步（先粗糙重建确定带宽，再精细融合），增加了推理时间
形状编码维度在100个形状时64维饱和，大规模数据集可能需要更高维度，可扩展性有待验证

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐