SASNet: Spatially-Adaptive Sinusoidal Networks for INRs¶

会议: CVPR 2026
arXiv: 2503.09750
代码: https://github.com/Fengyee/SASNet_inr
领域: 3D视觉 / 隐式神经表示
关键词: 隐式神经表示, SIREN, 空间自适应, 频率泄漏, 哈希网格

一句话总结¶

提出 SASNet，通过将冻结的频率嵌入层与轻量级哈希网格 MLP 学习的空间自适应掩码相结合，解决 SIREN 中频率初始化敏感和高频泄漏问题，在图像拟合、体数据拟合和 SDF 重建任务上实现更快收敛和更高重建质量。

研究背景与动机¶

隐式神经表示 (INR) 已成为计算机视觉和图形学中建模低维信号的强大工具，将坐标直接映射到信号值。其中，正弦网络 (SIREN) 因使用正弦激活函数能建模高频信号而被广泛使用，特别适合图像拟合、超分辨率和 SDF 建模等需要高频重建的任务。

然而，SIREN 存在一个核心痛点：对频率参数 \(\omega_0\) 极度敏感。\(\omega_0\) 小时产生干净但过于平滑的重建，缺失细节；\(\omega_0\) 大时可以捕获锐利边缘，但在平滑区域（如图像背景）引入虚假的高频噪声——作者将这种不想要的高频成分在低频区域的激活称为"频率泄漏"。延长训练以恢复高频细节会进一步导致优化不稳定和过拟合。

根本矛盾在于：SIREN 中每个神经元的影响是全局的——一个负责编码高频细节的神经元会同时影响整个空间域，包括不需要高频信息的平滑区域。这就是频率泄漏的根源。网格化方法（如 InstantNGP）通过哈希网格实现空间局部化，但表示精细细节需要极高分辨率网格，增加了内存和计算成本。

核心 idea：将 SIREN 的频率控制能力与哈希网格 MLP 的空间局部化能力结合——用冻结的频率嵌入层固定网络的频谱支撑，用轻量级哈希网格 MLP 学习空间自适应掩码来约束每个神经元的空间影响范围，从而在需要细节的区域激活高频神经元、在平滑区域抑制它们。

方法详解¶

整体框架¶

SASNet 想解决的是 SIREN「调一个 \(\omega_0\) 顾不了全局」的死结：要么背景干净细节糊，要么细节锐利背景脏。它的办法是把「能用哪些频率」和「在哪儿用这些频率」拆成两件事分别处理。具体做法是让两个网络共享同一个输入坐标 \(\mathbf{x}\) 并行工作——一个正弦 MLP 负责产生高频表达，一个轻量级哈希网格 MLP 负责产生一张「空间自适应掩码」\(\mathcal{M}^i(\mathbf{x})\)，掩码逐层地以 Hadamard 乘积 \(\odot\) 作用在正弦 MLP 的激活上，告诉每个神经元「在当前这个坐标该不该出力」。正弦 MLP 的第一层是冻结的频率嵌入层，把频谱范围钉死；掩码则在这个固定频谱之上做空间裁剪。两个网络端到端联合训练。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    X["输入坐标 x"]
    X --> F["冻结频率嵌入层<br/>第一层权重不更新，钉死频谱支撑"]
    F --> S["正弦 MLP 逐层激活 h^i"]
    X --> H["多尺度哈希网格编码"]
    H --> M["空间自适应掩码<br/>浅层 ReLU MLP 解码出 M^i(x)"]
    S --> MUL["逐层 Hadamard 调制<br/>h^i ⊙ M^i(x)"]
    M --> MUL
    MUL --> O["输出信号值 f_θ(x)"]
    O --> T["联合训练的混合架构<br/>L2 重建 + eikonal 正则（SDF）"]

关键设计¶

1. 冻结频率嵌入层：把「能用哪些频率」从隐式调参变成显式固定

标准 SIREN 的频谱范围是被 \(\omega_0\) 和第一层权重的随机初始化共同、隐式地决定的——你没法直接说「我要这一组频率」，只能反复试 \(\omega_0\)，而这正是它对初始化敏感、训练不稳的来源。SASNet 沿用 Novello et al. 的做法，在第一层放一组预先定义好的频率，并把这层权重冻结，训练全程不更新。这样网络的频谱支撑被显式钉死，后面的空间掩码就有了一个稳定、可控的频率基底去裁剪，而不必同时再去对付一个会漂移的频率范围。

2. 空间自适应掩码：把全局神经元的影响裁到它该管的那片区域

这是消除频率泄漏的核心。频率泄漏的病根在于 SIREN 每个神经元都是全局的——一个负责高频细节的神经元会无差别地作用到整张图，于是平滑背景上也被它激活出虚假高频。SASNet 用一个多尺度哈希网格把坐标编码成特征，再经一个小型 ReLU MLP 解码出与正弦 MLP 各层维度对齐的掩码值，逐元素地调制该层激活 \(\mathbf{h}^i \odot \mathcal{M}^i(\mathbf{x})\)。哈希网格本身具有天然的空间局部性，因此掩码能随坐标平滑变化：在平滑背景处把高频神经元的掩码压低、把它们「关掉」，在边缘和细节处再放它们通过。举个直观的例子，同一张图里背景一块平坦像素拿到的高频掩码值接近 0、对应神经元几乎不出力，而一条锐利边缘上的像素拿到的高频掩码值接近 1、高频神经元正常激活——这套分配不是手工指定的，而是联合训练里自动学出来的。把哈希网格当「掩码生成器」而不是像 InstantNGP 那样当「特征提取器」，是这里最不一样的用法。

3. 联合训练的混合架构：让频率表达和空间局部各取所长，又不让参数膨胀

正弦 MLP 和哈希网格 MLP 共享输入、一起优化标准的 INR 拟合目标：

\[\mathcal{L}(\theta) = \frac{1}{N}\sum_i \|f_\theta(\mathbf{x}_i) - \mathscr{f}_i\|^2 + \lambda \mathcal{R}(\theta)\]

关键是哈希网格这一支被刻意做得很轻——小分辨率网格加浅层 ReLU MLP，只负责生成掩码而非扛起主要表达，所以总参数量只小幅增加。这样混合架构一边继承了正弦激活精确的导数性质（对 SDF 这类要算梯度的任务很关键），一边借哈希网格拿到了空间局部性，绕开了纯 SIREN 全局泄漏、纯哈希网格要堆超高分辨率才出细节这两个各自的短板。对 SDF 任务，正则项 \(\mathcal{R}(\theta)\) 即 eikonal 约束，强制梯度范数为 1。

损失函数 / 训练策略¶

主损失是 L2 重建损失，SDF 任务上再加 eikonal 正则把梯度范数约束到 1。频率嵌入层全程冻结，掩码在联合训练中自然收敛到「低频神经元归平滑区、高频神经元归细节区」的空间分配。

实验关键数据¶

主实验¶

基于论文摘要和方法描述，SASNet 在以下三类任务上进行了评估（具体数值待缓存补充）：

任务	指标	SASNet vs SIREN	说明
2D 图像拟合	PSNR	显著提升	锐利边缘+干净背景
3D 体数据拟合	PSNR	显著提升	消除了平滑区域噪声
SDF 重建	CD/IoU	优于先前方法	掩码自动聚焦零等值面
×16 超分辨率	PSNR	超越不同 \(\omega_0\) 的 SIREN	高低 \(\omega_0\) 均有问题，SASNet 两者兼顾

消融实验¶

配置	关键效果	说明
SIREN (low \(\omega_0\))	平滑但模糊	缺失高频细节
SIREN (high \(\omega_0\))	锐利但噪声	频率泄漏严重
SASNet w/o frozen embedding	收敛不稳定	频率范围不可控
SASNet w/o masks	类似 SIREN	无空间局部化
SASNet (full)	锐利且干净	频率控制+空间局部化

关键发现¶

频率泄漏是 SIREN 的根本瓶颈：无论如何调节 \(\omega_0\) 都无法同时获得锐利细节和干净背景，这不是超参数调优能解决的问题
空间掩码自动学习频率分配：可视化显示低频神经元的掩码在平滑区域值高，高频神经元的掩码在边缘/细节区域值高，验证了设计直觉
参数效率高：哈希网格 MLP 作为掩码生成器仅增加少量参数，但带来显著的质量提升
SDF 任务中掩码聚焦零等值面：在 Armadillo 模型的腿部等细节区域，掩码自动集中神经元激活，与 SDF 的物理意义一致

亮点与洞察¶

将哈希网格作为掩码生成器而非特征提取器是最巧妙的设计——通常哈希网格直接替代正弦激活作为特征编码（如 InstantNGP），本文反其道而行，让哈希网格服务于正弦网络的空间调制。这保留了 SIREN 精确的导数计算能力，同时获得空间局部性
冻结频率 + 学习空间分配的解耦在概念上非常优雅——"固定你能做什么频率，学习在哪里做"，将频率控制和空间分配正交化
这种掩码调制机制可以迁移到 NeRF/3DGS：在神经辐射场中，不同空间区域也需要不同频率的表达能力，空间自适应掩码可能有效

局限与展望¶

缓存文件仅包含摘要、引言和方法部分，缺少完整的实验数据（具体 PSNR 数值、运行时间对比等）
哈希网格本身引入了离散化，在分辨率不足时可能产生块效应
掩码的学习是否需要大量迭代才能收敛，在极少数据点的场景中是否有效，未充分讨论
仅在低维信号（2D 图像、3D 体数据/SDF）上验证，未扩展到 NeRF 等高维场景表示

评分¶

新颖性: ⭐⭐⭐⭐ 将哈希网格作为 SIREN 的空间掩码生成器是新颖的架构设计，冻结频率+学习空间的解耦思路清晰
实验充分度: ⭐⭐⭐ 缓存不完整导致无法评估具体数值，但覆盖了三类任务（图像、体数据、SDF）
写作质量: ⭐⭐⭐⭐ 问题定义清晰，"频率泄漏"的可视化对比直观有力，INR 分类体系（全局/局部/混合）有组织价值
价值: ⭐⭐⭐⭐ 对 INR 领域的频率控制问题提出了优雅的解决方案，空间掩码思路有广泛的迁移潜力