Training-Free Determination of Network Width via Neural Tangent Kernel¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=0elvad3gEu
代码: https://github.com/Suna-D/cardinal-width
领域: 学习理论 / 神经正切核 / 网络宽度选择
关键词: Neural Tangent Kernel, 最小特征值, 泛化误差上界, 网络宽度, training-free
一句话总结¶
本文用神经正切核(NTK)的最小特征值 \(\mu_{\min}\) 在理论上界定了无限宽与有限宽网络的测试误差,并据此提出一个无需训练的指标:在初始化时扫描不同宽度的 \(\mu_{\min}\),找到它增长饱和的拐点作为"基数宽度(cardinal width)",即再加宽也不再带来泛化收益的宽度。
研究背景与动机¶
领域现状:在过参数化(overparameterized)区间,加宽网络通常会降低泛化误差,但当宽度足够大后,这种改善会饱和——再加宽只是浪费算力。如何在算力受限下确定一个"够用就好"的宽度,是一个基础问题。现有路线主要有三类:训练中调整结构的 supernet(network slimming、once-for-all 等)、免训练的 NAS 打分指标(NASWOT、TE-NAS 等)、以及模型尺度的 scaling law(Kaplan、Chinchilla)。
现有痛点:这些方法能给候选结构排序、或约束搜索空间,但缺乏一条有理论支撑的"停止规则"——没人能明确告诉你"宽度到这里就别再加了"。即便像 TE-NAS(Chen et al. 2021)用到了 NTK 作为打分工具,也没有给出把 NTK 显式连到模型性能的理论。结果就是宽度选择仍然靠反复试错(trial-and-error),ad hoc 而无原则。
核心矛盾:KRR(核岭回归)的泛化理论虽然成熟,但经典结论要用整条核谱(full eigenspectrum)来刻画风险,计算昂贵;而 NTK 文献里虽然早就知道最小特征值 \(\mu_{\min}\) 对优化和泛化都重要(它控制核的条件数),却始终没有把 \(\mu_{\min}\) 直接连到泛化误差——以往工作只证明 NTK 正定、或给 \(\mu_{\min}\) 本身定界,停在了"它很重要"的层面。
本文目标:(1) 在理论上把测试误差的上界归结到单个标量 \(\mu_{\min}\) 上;(2) 把这个理论从无限宽推广到有限宽;(3) 据此设计一个免训练、初始化即可计算的宽度选择准则。
切入角度:无限宽下,平方损失的梯度训练等价于以 NTK 为核的无岭核回归(kernel ridgeless regression)(Jacot 2018;Lee 2019)。作者从 Canatar et al. (2021) 的 KRR 闭式风险表达式出发,用"谱滤波函数随 \(\mu_k\) 单调"这一点,把整条谱的求和放缩成只依赖最小特征值的上界。
核心 idea:用 NTK 在初始化时的最小特征值 \(\mu_{\min}\) 的饱和拐点,作为"测试损失饱和拐点"的免训练代理,从而一次性、无需训练地读出 cardinal width。
方法详解¶
整体框架¶
本文是一篇"理论 + 据理论导出的算法"的工作。它要解决的是"加宽到多大就够",整体可分两段:先在理论上证明 \(\mu_{\min}\) 控制测试误差上界(无限宽 Theorem 3.2 → 有限宽 Theorem 3.7/3.8),再把这个结论变成一个可执行算法——既然测试误差被 \(\mu_{\min}\) 主导,而实验上 \(\mu_{\min}\) 随宽度增长会饱和,那么 \(\mu_{\min}\) 的饱和点就是测试损失饱和点的代理。算法侧只需在初始化时对一系列候选宽度计算经验 NTK 的最小特征值,拟合一条饱和曲线,取导数趋平的最小宽度作为 cardinal width。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["固定架构 + 数据 X<br/>初始化方案 I"] --> B["扫候选宽度 m ∈ M"]
B --> C["最小特征值控制泛化上界<br/>初始化算经验 NTK K_m^(0)"]
C --> D["高效估计 μmin<br/>LOBPCG 只取最小特征对"]
D --> E["Cardinal width 准则<br/>拟合饱和曲线 g,导数 < δ"]
E --> F["输出推荐宽度 m_card"]
关键设计¶
1. 最小特征值控制泛化误差上界:从无限宽到有限宽
这是全文理论核心,针对"以往 KRR 风险要用整条谱、且 \(\mu_{\min}\) 没被直接连到泛化误差"这个痛点。无限宽情形下,作者把 Canatar et al. (2021) 的 KRR 闭式风险写成偏差–方差的逐模分解 \(E_g=\frac{1}{1-\gamma}(B+V)\),其中谱滤波 \(\mu_k/(\kappa+\mu_k)^2\)、偏差项 \(\kappa^2 w_k^2\)、方差项 \(\sigma^2\mu_k\)。关键放缩是:由于 \(x\mapsto(\kappa/(\kappa+x))^2\) 在 \([0,\infty)\) 上单调递减,偏差项可被最小特征值统一控制,\(B\le \frac{\kappa^2}{(\kappa+\mu_{\min})^2}\|f^*\|^2\);再配合 Assumption 3.1(远离 double-descent 插值峰,使 \(1-\gamma=\Theta(1)\))得到
对固定数据集,\(n,\sigma\) 视作常数,于是 \(E_g\le C\,\mu_{\min}^{-2}\)——单个标量 \(\mu_{\min}\) 就给出了测试误差的最坏情形上界。它之所以有效,是因为只需估一个极端特征值,远比做整条谱的特征分解便宜。
有限宽情形(Theorem 3.7)则通过三角不等式把有限宽网络 \(f_m(T)\) 与无限宽 NTK 回归器 \(f_\infty\) 的差拆成三段:(G1) 网络与其自身经验 NTK 回归器之差、(G2) 训练前后经验核回归器之差、(G3) 初始化经验核与无限宽核之差。用 Duhamel 原理和 KRR 闭式解逐项放缩,最终
直觉上:lazy training 下核几乎不变、分子很小;feature learning 下 \(\|K^{(T)}_m-K^{(0)}_m\|\) 变大,差距才显著。进一步在 lazy training(Assumption 3.6,核漂移 \(\le C\phi(m)\),可取 \(\phi(m)=m^{-1/2}\))下退化为 Theorem 3.8:
即初始化经验 NTK 的最小特征值就同时控制了无限宽与有限宽的泛化,且修正项 \(\phi(m)\) 随 \(m\to\infty\) 消失。据作者所知,这是首个把有限宽经验 NTK 的最小特征值直接连到泛化误差上界的工作。
2. Cardinal width:用 \(\mu_{\min}\) 的饱和点做免训练宽度代理
有了 Theorem 3.8,作者把理论翻译成可操作准则,针对的是"宽度选择缺乏停止规则"的痛点。由于 \(E^{(m)}_g\) 被 \(\mu_{\min}(K^{(0)}_m)^{-2}\) 主导,而实验观察到 \(\mu_{\min}\) 随宽度 \(m\) 增大会单调上升并饱和,因此 \(E^{(m)}_g\) 随宽度下降也会随之饱和。于是定义 cardinal width 为"泛化性能饱和处的宽度",并用 \(\mu_{\min}\) 的饱和拐点作为它的免训练代理。
具体算法(Algorithm 1):给定固定架构、数据 \(X\)(不用标签)、初始化方案 \(I\) 和宽度网格 \(M\),对每个 \(m\) 在初始化时计算经验 NTK \((K^{(0)}_m)_{ij}=\nabla_\theta f_{\theta_0}(x_i)^\top\nabla_\theta f_{\theta_0}(x_j)\),估其最小特征值 \(\hat\mu_{\min}(m)\)。把散点 \(\{(m,\hat\mu_{\min}(m))\}\) 用一条简单饱和曲线最小二乘拟合:
再取拟合曲线导数 \(\frac{d}{dm}\hat g(m)<\delta\)(阈值)的最小宽度作为 \(m_{\text{card}}\)。这样模型设计者无需训练任何模型、不需要标签,就能读出"再加宽不划算"的拐点。
3. 高效估计:只取最小特征对的 LOBPCG + 子集采样
完整的 NTK 特征分解很贵,本设计针对"要把方法做到实际可用"的算力痛点。作者用 LOBPCG(Locally Optimal Block Preconditioned Conjugate Gradient,Knyazev 2001)在小子空间上最小化 Rayleigh 商,只求若干极端特征对,从而只估最小特征值而非整条谱。文中报告:在约 20K 样本的 California Housing 上,每个宽度估一次 \(\mu_{\min}\) 约一分钟量级。此外,在数据子集上计算 \(\mu_{\min}\) 还能进一步降本,且"跨宽度的相对饱和趋势"在适度子采样下保持稳定——这保证了准则真正可落地。
损失函数 / 训练策略¶
理论侧基于平方损失 + 梯度流(gradient flow)训练,权重用 Lee et al. 的 NTK 参数化初始化。方法本身无需训练:cardinal width 只依赖初始化时的经验 NTK,不涉及优化目标。验证实验中实际训练用 SGD(学习率 0.001、batch 32、1000 epoch)来画"测试损失 vs 宽度"曲线,与预测拐点对照。
实验关键数据¶
主实验¶
两层网络的理论验证(合成回归数据,2000 样本 × 20 特征,噪声 std=10,宽度 \(\{16,32,\dots,1024\}\)):
| 验证项 | 观察结果 | 与理论的关系 |
|---|---|---|
| 测试损失 vs 宽度 | 随宽度下降并饱和 | 与 \(E_g\) 随 \(\mu_{\min}\) 上升而下降一致 |
| \(\mu_{\min}\) vs 宽度 | 随宽度上升并饱和 | 饱和点与测试损失饱和点重合 |
| \(E_g\) vs \(\mu_{\min}^{-2}\) | 所有经验点落在斜率为 1 的虚线下方 | 满足 Theorem 3.8 的 \(O(\mu_{\min}^{-2})\) 最坏上界 |
| 实际斜率 | 更接近 \(O(1/\sqrt{\mu_{\min}})\) | 真实依赖比最坏界温和得多 |
cardinal width 预测(多架构 × 多数据集):
| 架构 | 数据集 | 结果 |
|---|---|---|
| DNN | UCI Diabetes / California Housing | 拟合 \(g\) 导数 < δ 的绿线宽度,与测试损失 plateau 处重合 |
| CNN | MNIST / CIFAR-10 | 同上,\(\mu_{\min}\) 饱和点对齐测试损失饱和点 |
| ResNet | MNIST / CIFAR-10 | 同上 |
所有 \(\mu_{\min}\) 与测试损失均为 5 次独立运行取平均。
消融实验¶
| 配置 / 分析 | 关键发现 | 说明 |
|---|---|---|
| Lazy training vs Feature learning | feature learning 区也对齐 | Theorem 3.8 只在 lazy training 成立,但实验不加 lazy 约束时 \(\mu_{\min}\) 饱和仍与测试损失饱和重合 |
| 训练配方扰动(optimizer/lr) | cardinal width 变化很小(Appendix D.1) | 推荐宽度对实际超参广泛稳定 |
| 子集采样估 \(\mu_{\min}\) | 跨宽度相对饱和趋势稳定(Appendix D.2) | 进一步降算力 |
关键发现¶
- 最坏界 vs 实际:理论给的是 \(O(\mu_{\min}^{-2})\) 最坏上界,但实际经验关系温和得多(约 \(1/\sqrt{\mu_{\min}}\)),说明 \(\mu_{\min}\) 作为指示器比理论界更"好用"。
- 超出 lazy training 仍有效:尽管 Theorem 3.8 形式上只覆盖 lazy training,feature learning 区 \(\mu_{\min}\) 饱和依然对齐测试损失饱和;作者借 Bordelon & Pehlevan (2023) 的 DMFT 结果论证:feature learning 下核漂移收敛到一个小常数(而非 0),因此"\(\mu_{\min}\) 控制泛化上界"的主信息在两种区间都成立。
- per-recipe 定义:NTK 依赖架构/数据/初始化,所以推荐宽度是"按架构、按数据、按初始化"给出的;但跨训练配方经验上变化很小。
亮点与洞察¶
- 把整条谱压成一个标量:以往 KRR 风险界要用 full eigenspectrum,本文用"谱滤波单调"这一简单单调性,把界归结到单个 \(\mu_{\min}\),让估计成本从特征分解降到只求最小特征对——理论简化直接换来工程可行性,很优雅。
- 理论拐点 = 工程停止规则:把抽象的"\(\mu_{\min}\) 控制泛化"翻译成"监测 \(\mu_{\min}\) 饱和",给宽度选择第一次提供了有理论背书的 stopping rule,可迁移到任何"加资源边际递减"的场景(如深度、通道数选择)。
- 首次连接有限宽经验 NTK 与泛化误差:三角拆分 (G1)/(G2)/(G3) 把"网络 ↔ 其经验核回归器 ↔ 无限宽核回归器"的偏差逐段控制,是把无限宽理论落到有限宽的可复用范式。
- 不用标签即可选宽度:cardinal width 只依赖初始化 NTK 与输入,连标签都不需要,特别适合算力/数据受限的早期架构设计。
局限与展望¶
- 理论受限于 lazy training + 平方损失 + 梯度流:作者承认理论不直接覆盖强 feature learning、其他损失、实际优化器;虽实验上 feature learning 区仍对齐,但缺严格保证。
- 主要限于回归任务:分类任务虽然 NTK 也能算、方法技术上可扩展,但目前无理论保证。
- 依赖远离插值峰的假设(Assumption 3.1):靠近 double-descent 峰时 \(1-\gamma\to 0\),上界会爆,准则可能失效。
- 拟合形式非唯一:饱和曲线 \(g(x)=-ax/(b+x)+c\) 是作者选的一种,导数阈值 \(\delta\) 也是超参,换函数族/阈值可能影响读出的拐点。
- 改进思路:把分析推到 feature-learning 理论与分类任务;研究 \(\delta\) 与拟合族的鲁棒性;探索把同一"最小特征值饱和"思想用于深度/其他容量维度的选择。
相关工作与启发¶
- vs 训练中调结构(network slimming / once-for-all 等):它们在训练中改尺寸或并行训多个尺寸,成本高;本文完全免训练、初始化即出结果。
- vs 免训练 NAS 打分(NASWOT / TE-NAS / KNAS):它们用免训练指标给结构排序,TE-NAS 虽也用 NTK 但没把 NTK 显式连到性能;本文给的是有理论的绝对停止规则而非相对排名。
- vs scaling law(Kaplan / Chinchilla):scaling law 基于经验拟合、指导随数据量缩放尺寸,缺乏"何时停止加宽"的理论停止规则;本文用 NTK 理论补上这一规则。
- vs 经典 KRR 谱理论(Caponnetto、Canatar、Simon、Cheng):它们用整条核谱给紧界;本文证明单个最小特征值即可控制上界,换来计算高效。
- vs NTK 最小特征值文献(Nguyen 2021、Montanari & Zhong 2022、Karhadkar 2024):它们证 NTK 正定或给 \(\mu_{\min}\) 定界,但停在"\(\mu_{\min}\) 重要";本文首次把它直接连到泛化误差。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次把有限宽经验 NTK 的最小特征值直接连到泛化误差上界,并据此给出有理论背书的宽度停止规则。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 DNN/CNN/ResNet 与多数据集、含理论验证与配方/子集消融;但仅限回归任务,分类缺验证。
- 写作质量: ⭐⭐⭐⭐⭐ 理论推导清晰、放缩动机明确,理论→算法的桥接讲得很顺。
- 价值: ⭐⭐⭐⭐ 给"加宽到多大就够"提供了实用且廉价(免训练、不用标签)的判据,对算力受限的架构设计很有用。