Inductive Gradient Adjustment for Spectral Bias in Implicit Neural Representations¶
会议: ICML2025
arXiv: 2410.13271
代码: LabShuHangGU/IGA-INR
领域: 隐式神经表示 (INR) / 频谱偏差 (Spectral Bias)
关键词: Implicit Neural Representations, Spectral Bias, Neural Tangent Kernel, Gradient Adjustment, Training Dynamics
一句话总结¶
本文从 NTK 线性动力学模型出发,提出 Inductive Gradient Adjustment (IGA) 方法,通过归纳泛化 eNTK 梯度变换矩阵,有目的性地缓解 MLP 的频谱偏差,使 INR 在百万级数据点上也能高效学习高频细节。
研究背景与动机¶
- 隐式神经表示 (INR) 用 MLP 将离散信号参数化为连续函数,广泛用于图像拟合、3D 重建、新视角合成等任务。
- 频谱偏差 (Spectral Bias):vanilla ReLU-MLP 倾向于先学低频分量,对高频细节收敛极慢,导致纹理模糊、边缘丢失。
- 现有缓解方案分两类:
- 结构改进:位置编码 (PE)、周期激活 (SIREN)、Gabor 小波激活等——需引入复杂推理结构。
- 训练动态调整:Fourier Reparameterized Training (FR)、Batch Normalization (BN)——不改变推理结构但缺乏理论指导,效果不稳定。
- 核心问题:如何在理论指导下,有目的地调节训练动态以克服频谱偏差?NTK 矩阵是联系训练动态与频谱偏差的关键桥梁,但存在两大障碍:
- NTK 矩阵在深层网络中无解析表达式。
- NTK 矩阵大小随数据量 \(N\) 二次增长(如 Kodak 图像需 >8192 GiB 内存)。
方法详解¶
3.1 频谱偏差与训练动态的连接¶
标量信号 \(\bm{y} \in \mathbb{R}^N\),MLP 参数 \(\Theta\),残差 \(\bm{r}_t = f(\bm{X};\Theta_t) - \bm{y}\)。在宽网络 + 小学习率条件下,训练动态近似为线性模型:
对 NTK 矩阵 \(\bm{K}\) 做特征分解 \(\bm{K} = \sum_i \lambda_i \bm{v}_i \bm{v}_i^\top\),则:
关键洞察:特征值 \(\lambda_i\) 大则对应方向收敛快;vanilla MLP 中高频方向对应小特征值 → 高频收敛极慢 → 频谱偏差。使 \(\bm{K}\) 谱更均匀即可缓解偏差。
3.2 Inductive Gradient Adjustment (IGA)¶
Step 1 — NTK 梯度调整框架:引入变换矩阵 \(\bm{S}\) 调整梯度:
其中 \(\bm{S} = \sum_i (g_i(\lambda_i)/\lambda_i) \bm{v}_i \bm{v}_i^\top\),修改后的收敛速率为 \(\{g_i(\lambda_i)\}\)。
Step 2 — eNTK 替代 NTK(解决无解析式问题):用经验 NTK \(\tilde{\bm{K}} = \nabla_{\Theta_t} f^\top \nabla_{\Theta_t} f\) 代替理论 NTK。Theorem 3.1 证明:随网络宽度 \(m\) 增大,eNTK 特征值/特征向量一一收敛到 NTK,因此 eNTK-based 调整与 NTK-based 效果渐近等价。
Step 3 — 归纳泛化(解决维度灾难):将 \(N\) 个数据分为 \(n\) 组(每组 \(p\) 个,\(N=np\)),从每组采样 1 个点构成 \(\bm{X}_e\)(\(|\bm{X}_e|=n \ll N\)),在 \(\bm{X}_e\) 上计算小尺寸 eNTK \(\tilde{\bm{K}}_e \in \mathbb{R}^{n \times n}\),构造变换矩阵 \(\tilde{\bm{S}}_e\),然后将其归纳泛化到全量数据的梯度:
Theorem 3.2 保证:泛化误差 \(\epsilon_1 + \epsilon_2\) 随宽度 \(m\) 增大而减小。
变换矩阵构造¶
对 \(\tilde{\bm{K}}_e\) 特征分解后,将前 \(\text{end}\) 个特征值均衡为 \(\tilde{\tilde{\lambda}}_{\text{start}}\):
- \(\text{end}\) 越大 → 频谱越均匀 → 对高频的提升越强(可控调节)。
- Adam 优化器下用 \(\tilde{\tilde{\lambda}}_{\text{end}+1}\) 替代 \(\tilde{\tilde{\lambda}}_{\text{start}}\) 以保证收敛稳定性。
采样策略¶
- 1D/2D 信号:按相邻坐标分组(不重叠区间/patch)。
- 高维信号:展平后沿第一维分组。
- 每组选残差最大的点进入 \(\bm{X}_e\)。
实验关键数据¶
2D 彩色图像拟合(Kodak 数据集)¶
| 方法 | PSNR ↑ | SSIM ↑ | MS-SSIM ↑ | LPIPS ↓ |
|---|---|---|---|---|
| ReLU (Vanilla) | 21.78 | 0.4833 | 0.6521 | 0.6302 |
| ReLU + FR | 22.14 | 0.4919 | 0.6800 | 0.6315 |
| ReLU + BN | 22.55 | 0.5004 | 0.7090 | 0.6182 |
| ReLU + IGA | 23.00 | 0.5126 | 0.7383 | 0.5549 |
| PE (Vanilla) | 28.64 | 0.7832 | 0.9466 | 0.2223 |
| PE + FR | 31.65 | 0.8167 | 0.9564 | 0.1869 |
| PE + BN | 28.78 | 0.8030 | 0.9554 | 0.2346 |
| PE + IGA | 32.46 | 0.8822 | 0.9752 | 0.0938 |
| SIREN (Vanilla) | 32.65 | 0.8975 | 0.9818 | 0.0807 |
| SIREN + FR | 32.61 | 0.8991 | 0.9820 | 0.0813 |
| SIREN + IGA | 33.48 | 0.9121 | 0.9847 | 0.0668 |
3D 形状表示¶
| 方法 | IOU ↑ | Chamfer Distance ↓ |
|---|---|---|
| ReLU (Vanilla) | 9.647e-1 | 5.936e-6 |
| ReLU + IGA | 9.733e-1 | 5.487e-6 |
| PE (Vanilla) | 9.942e-1 | 5.123e-6 |
| PE + IGA | 9.970e-1 | 5.108e-6 |
| SIREN (Vanilla) | 9.889e-1 | 5.688e-6 |
| SIREN + IGA | 9.897e-1 | 5.157e-6 |
关键实验发现¶
- IGA 在 所有架构(ReLU / PE / SIREN)和 所有指标 上均一致优于 FR、BN。
- 增加均衡特征值数量 → 对高频的提升单调增强(可控性验证)。
- 组大小 \(p\) 增大时,IGA 性能轻微下降但始终优于 baseline,验证归纳泛化的鲁棒性。
亮点与洞察¶
- 理论驱动:首次从 NTK 线性动力学出发,给出调节频谱偏差的定量策略,而非 FR/BN 那样的经验发现。
- 可控调节:通过 \(\text{end}\) 参数精确控制对高频的提升力度,避免过度矫正。
- 架构无关:IGA 是训练时的梯度变换,不改变推理结构,可与任意 INR 架构(ReLU / PE / SIREN)自由组合。
- 高效采样:通过归纳泛化将 \(O(N^2)\) 的 eNTK 计算降到 \(O(n^2)\)(\(n \ll N\)),使百万级数据点可行。
- 两个定理提供严格的渐近保证:eNTK → NTK 等价性(Thm 3.1);归纳泛化误差界(Thm 3.2)。
局限与展望¶
- 额外计算开销:每步需在采样子集上计算 eNTK 及其特征分解,虽然 \(n \ll N\) 但仍有非零 overhead。
- 理论分析局限于两层网络:Theorem 3.1/3.2 基于两层网络分析,深层网络的严格保证尚未给出。
- 分组策略简单:目前按相邻坐标分组,对非规则采样(如 NeRF 光线)的最优分组策略未探讨。
- 超参数选择:\(n\)、\(p\)、\(\text{end}\) 的最优值需任务相关调优,缺乏全自动选择机制。
- SIREN + BN 不兼容问题被指出但未解决。
相关工作与启发¶
- Fourier Reparameterized Training (FR) [Shi et al., 2024a]:在 Fourier 域学参数,可改善 INR 但缺乏理论指导。
- BN for INR [Cai et al., 2024]:经典 BN 也能提升 INR 性能,但与 SIREN 不兼容。
- NTK 谱分析 [Ronen et al., 2019; Tancik et al., 2020]:用 NTK 谱解释频谱偏差,本文更进一步将其转化为可操作的训练策略。
- Geifman et al., 2023:首次尝试修改 NTK 谱加速收敛,但仅限 toy 设置;本文通过归纳泛化将其扩展到实际规模。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将 eNTK 谱调控转化为实用的训练时梯度变换,理论链条完整
- 实验充分度: ⭐⭐⭐⭐ — 覆盖 2D 图像、3D 形状、合成数据,与 FR/BN 全面对比
- 写作质量: ⭐⭐⭐⭐ — 理论推导清晰,公式到算法的转化流畅
- 价值: ⭐⭐⭐⭐ — INR 领域有实际应用价值,可控调节频谱偏差是重要贡献