Inductive Gradient Adjustment for Spectral Bias in Implicit Neural Representations¶

会议: ICML2025
arXiv: 2410.13271
代码: LabShuHangGU/IGA-INR
领域: 隐式神经表示 (INR) / 频谱偏差 (Spectral Bias)
关键词: Implicit Neural Representations, Spectral Bias, Neural Tangent Kernel, Gradient Adjustment, Training Dynamics

一句话总结¶

本文从 NTK 线性动力学模型出发，提出 Inductive Gradient Adjustment (IGA) 方法，通过归纳泛化 eNTK 梯度变换矩阵，有目的性地缓解 MLP 的频谱偏差，使 INR 在百万级数据点上也能高效学习高频细节。

研究背景与动机¶

隐式神经表示 (INR) 用 MLP 将离散信号参数化为连续函数，广泛用于图像拟合、3D 重建、新视角合成等任务。
频谱偏差 (Spectral Bias)：vanilla ReLU-MLP 倾向于先学低频分量，对高频细节收敛极慢，导致纹理模糊、边缘丢失。
现有缓解方案分两类：
- 结构改进：位置编码 (PE)、周期激活 (SIREN)、Gabor 小波激活等——需引入复杂推理结构。
- 训练动态调整：Fourier Reparameterized Training (FR)、Batch Normalization (BN)——不改变推理结构但缺乏理论指导，效果不稳定。
核心问题：如何在理论指导下，有目的地调节训练动态以克服频谱偏差？NTK 矩阵是联系训练动态与频谱偏差的关键桥梁，但存在两大障碍：
1. NTK 矩阵在深层网络中无解析表达式。
2. NTK 矩阵大小随数据量 \(N\) 二次增长（如 Kodak 图像需 >8192 GiB 内存）。

方法详解¶

3.1 频谱偏差与训练动态的连接¶

标量信号 \(\bm{y} \in \mathbb{R}^N\)，MLP 参数 \(\Theta\)，残差 \(\bm{r}_t = f(\bm{X};\Theta_t) - \bm{y}\)。在宽网络 + 小学习率条件下，训练动态近似为线性模型：

\[\bm{r}_t = (\bm{I} - \eta \bm{K}) \bm{r}_{t-1}\]

对 NTK 矩阵 \(\bm{K}\) 做特征分解 \(\bm{K} = \sum_i \lambda_i \bm{v}_i \bm{v}_i^\top\)，则：

\[\|\bm{r}_t\|_2 = \sqrt{\sum_{i=1}^{N} (1-\eta\lambda_i)^{2t} (\bm{v}_i^\top \bm{y})^2}\]

关键洞察：特征值 \(\lambda_i\) 大则对应方向收敛快；vanilla MLP 中高频方向对应小特征值 → 高频收敛极慢 → 频谱偏差。使 \(\bm{K}\) 谱更均匀即可缓解偏差。

3.2 Inductive Gradient Adjustment (IGA)¶

Step 1 — NTK 梯度调整框架：引入变换矩阵 \(\bm{S}\) 调整梯度：

\[\Theta_{t+1} = \Theta_t - \eta \nabla_\Theta f(\bm{X};\Theta) \bm{S} \bm{r}_t\]

其中 \(\bm{S} = \sum_i (g_i(\lambda_i)/\lambda_i) \bm{v}_i \bm{v}_i^\top\)，修改后的收敛速率为 \(\{g_i(\lambda_i)\}\)。

Step 2 — eNTK 替代 NTK（解决无解析式问题）：用经验 NTK \(\tilde{\bm{K}} = \nabla_{\Theta_t} f^\top \nabla_{\Theta_t} f\) 代替理论 NTK。Theorem 3.1 证明：随网络宽度 \(m\) 增大，eNTK 特征值/特征向量一一收敛到 NTK，因此 eNTK-based 调整与 NTK-based 效果渐近等价。

Step 3 — 归纳泛化（解决维度灾难）：将 \(N\) 个数据分为 \(n\) 组（每组 \(p\) 个，\(N=np\)），从每组采样 1 个点构成 \(\bm{X}_e\)（\(|\bm{X}_e|=n \ll N\)），在 \(\bm{X}_e\) 上计算小尺寸 eNTK \(\tilde{\bm{K}}_e \in \mathbb{R}^{n \times n}\)，构造变换矩阵 \(\tilde{\bm{S}}_e\)，然后将其归纳泛化到全量数据的梯度：

\[\Theta_{t+1} = \Theta_t - \eta \sum_{i=1}^{p} \nabla_{\Theta_t} f(\bm{X}_i, \Theta_t) \tilde{\bm{S}}_e \bm{r}_t^i\]

Theorem 3.2 保证：泛化误差 \(\epsilon_1 + \epsilon_2\) 随宽度 \(m\) 增大而减小。

变换矩阵构造¶

对 \(\tilde{\bm{K}}_e\) 特征分解后，将前 \(\text{end}\) 个特征值均衡为 \(\tilde{\tilde{\lambda}}_{\text{start}}\)：

\[\tilde{\bm{S}_e} = \sum_{i=\text{start}}^{\text{end}} \frac{\tilde{\tilde{\lambda}}_{\text{start}}}{\tilde{\tilde{\lambda}}_i} \tilde{\tilde{\bm{v}}}_i \tilde{\tilde{\bm{v}}}_i^\top + \sum_{i \notin [\text{start},\text{end}]} \tilde{\tilde{\bm{v}}}_i \tilde{\tilde{\bm{v}}}_i^\top\]

\(\text{end}\) 越大 → 频谱越均匀 → 对高频的提升越强（可控调节）。
Adam 优化器下用 \(\tilde{\tilde{\lambda}}_{\text{end}+1}\) 替代 \(\tilde{\tilde{\lambda}}_{\text{start}}\) 以保证收敛稳定性。

采样策略¶

1D/2D 信号：按相邻坐标分组（不重叠区间/patch）。
高维信号：展平后沿第一维分组。
每组选残差最大的点进入 \(\bm{X}_e\)。

实验关键数据¶

2D 彩色图像拟合（Kodak 数据集）¶

方法	PSNR ↑	SSIM ↑	MS-SSIM ↑	LPIPS ↓
ReLU (Vanilla)	21.78	0.4833	0.6521	0.6302
ReLU + FR	22.14	0.4919	0.6800	0.6315
ReLU + BN	22.55	0.5004	0.7090	0.6182
ReLU + IGA	23.00	0.5126	0.7383	0.5549
PE (Vanilla)	28.64	0.7832	0.9466	0.2223
PE + FR	31.65	0.8167	0.9564	0.1869
PE + BN	28.78	0.8030	0.9554	0.2346
PE + IGA	32.46	0.8822	0.9752	0.0938
SIREN (Vanilla)	32.65	0.8975	0.9818	0.0807
SIREN + FR	32.61	0.8991	0.9820	0.0813
SIREN + IGA	33.48	0.9121	0.9847	0.0668

3D 形状表示¶

方法	IOU ↑	Chamfer Distance ↓
ReLU (Vanilla)	9.647e-1	5.936e-6
ReLU + IGA	9.733e-1	5.487e-6
PE (Vanilla)	9.942e-1	5.123e-6
PE + IGA	9.970e-1	5.108e-6
SIREN (Vanilla)	9.889e-1	5.688e-6
SIREN + IGA	9.897e-1	5.157e-6

关键实验发现¶

IGA 在 所有架构（ReLU / PE / SIREN）和 所有指标 上均一致优于 FR、BN。
增加均衡特征值数量 → 对高频的提升单调增强（可控性验证）。
组大小 \(p\) 增大时，IGA 性能轻微下降但始终优于 baseline，验证归纳泛化的鲁棒性。

亮点与洞察¶

理论驱动：首次从 NTK 线性动力学出发，给出调节频谱偏差的定量策略，而非 FR/BN 那样的经验发现。
可控调节：通过 \(\text{end}\) 参数精确控制对高频的提升力度，避免过度矫正。
架构无关：IGA 是训练时的梯度变换，不改变推理结构，可与任意 INR 架构（ReLU / PE / SIREN）自由组合。
高效采样：通过归纳泛化将 \(O(N^2)\) 的 eNTK 计算降到 \(O(n^2)\)（\(n \ll N\)），使百万级数据点可行。
两个定理提供严格的渐近保证：eNTK → NTK 等价性（Thm 3.1）；归纳泛化误差界（Thm 3.2）。

局限与展望¶

额外计算开销：每步需在采样子集上计算 eNTK 及其特征分解，虽然 \(n \ll N\) 但仍有非零 overhead。
理论分析局限于两层网络：Theorem 3.1/3.2 基于两层网络分析，深层网络的严格保证尚未给出。
分组策略简单：目前按相邻坐标分组，对非规则采样（如 NeRF 光线）的最优分组策略未探讨。
超参数选择：\(n\)、\(p\)、\(\text{end}\) 的最优值需任务相关调优，缺乏全自动选择机制。
SIREN + BN 不兼容问题被指出但未解决。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将 eNTK 谱调控转化为实用的训练时梯度变换，理论链条完整
实验充分度: ⭐⭐⭐⭐ — 覆盖 2D 图像、3D 形状、合成数据，与 FR/BN 全面对比
写作质量: ⭐⭐⭐⭐ — 理论推导清晰，公式到算法的转化流畅
价值: ⭐⭐⭐⭐ — INR 领域有实际应用价值，可控调节频谱偏差是重要贡献