跳转至

Finite-Width Neural Tangent Kernels from Feynman Diagrams

会议: ICML2026
arXiv: 2508.11522
代码: https://github.com/PhilippMisofCH/ntk-unlimited
领域: 学习理论 / 神经正切核 / 有限宽度修正
关键词: 神经正切核, 有限宽度, 费曼图, 1/n 展开, 临界初始化

一句话总结

把量子场论里的费曼图搬到神经网络分析中,给"NTK 的有限宽度统计修正"提供一套图形化计算规则,让原本极繁琐的逐层递归推导变成"画图 + 套规则翻译",并据此证明了 NTK 的临界稳定性、ReLU 等尺度不变激活在对角线上无有限宽度修正,数值上在宽度 \(n\gtrsim 20\) 即与采样网络吻合。

研究背景与动机

领域现状:神经正切核 \(\Theta(x,x')=J(x)J(x')^\top\)\(J\) 是网络对参数的雅可比)刻画了网络一阶训练动力学。在无限宽度极限下,NTK 坍缩到其均值、训练中冻结不变(frozen NTK),可对所有常见层用逐层递归关系闭式算出,于是梯度下降和贝叶斯推断都能解析求解。

现有痛点:无限宽度的便利恰恰也是它的硬伤——此时网络对参数被有效线性化、退化成高斯过程,只有最后一层在训练中演化,即没有特征学习(no feature learning)。多项研究发现有限宽度网络的实际行为与无限宽度 NTK 的预测有明显偏差。

核心矛盾:要把特征学习、NTK 演化等真实现象纳入理论,就得在严格无限宽度之外做 \(1/n\) 泰勒展开(\(n\) 是隐层宽度),把高斯统计往非高斯方向修正。但这种展开的代数推导极其冗长,且用的是机器学习社区不熟悉的语言,导致很难被采用。

本文目标:提供一套能系统、简洁地计算 NTK(及相关高阶张量)有限宽度统计修正的工具,使任意阶 \(1/n\) 修正的逐层递归关系都能被机械地推导出来。

切入角度:无限宽度的统计是高斯的,\(1/n\) 展开本质上就是"在高斯分布周围做微扰展开"——这正是微扰量子场论(QFT)的标准套路:把作用量(对数概率)在高斯主项(无相互作用粒子)附近展开,非高斯修正对应相互作用。而物理学家算这类微扰用的是费曼图这种直观速记。

核心 idea:为 NTK 统计量身定制一套"费曼规则"——把要算的期望值画成所有相容的图,再按规则把图翻译成代数表达式求和,从而把繁琐的递归推导降维成画图。

方法详解

整体框架

论文研究 \(L\) 层 MLP 在初始化时的两个核:经验 NTK \(\widehat\Theta^{(\ell)}_{ij}(x,x')=\sum_\mu \frac{\partial z_i^{(\ell)}(x)}{\partial\theta_\mu}\frac{\partial z_j^{(\ell)}(x')}{\partial\theta_\mu}\)(捕捉梯度相关)和 NNGP 核 \(\widehat K^{(\ell)}_{ij}(x,x')=z_i^{(\ell)}(x)z_j^{(\ell)}(x')\)(捕捉预激活相关)。两者都因初始化随机而是随机变量。无限宽度下 NTK 冻结、涨落 \(\widehat{\Delta\Theta}=0\);要超越它就在 \(1/n\) 上展开,用联合累积量(physics 里的 connected correlator)刻画混合矩,并按神经指标把累积量分解成一组秩-4 张量(\(A,B,D,F\) 等)+ 四点累积量 \(V\) + 一阶均值修正 \(K^{\{1\}},\Theta^{\{1\}}\),这些对象在 \(1/n\) 阶完全确定预激活与 NTK 的统计。整套方法就是给这些累积量配一套费曼规则,使其逐层递归关系可被图形化导出;再用这套工具去解三个应用问题,最后数值验证。这是纯理论 + 数值验证型工作,不存在数据驱动的多阶段 pipeline,故不强配流程图。

关键设计

1. \(1/n\) 展开 + 累积量的张量分解:把统计降维成可数的几块

针对"无限宽度无特征学习、有限宽度行为偏离",论文在隐层宽度 \(1/n\) 上做泰勒展开:领头项 \(1/n\to 0\) 是高斯过程行为,一阶修正引入非线性与特征演化。因为 NTK 涨落 \(\widehat{\Delta\Theta}=0\) 在无限宽度下成立,所以像 \(\mathbb{E}_\theta[z_{i_1}^{(\ell)}z_{i_2}^{(\ell)}\widehat{\Delta\Theta}^{(\ell)}_{i_3i_4}]\) 这样的混合矩天然是 \(1/n\) 阶;更高阶矩对应更高阶 \(1/n\),于是有限个混合矩就能把统计算到指定阶。论文不直接算矩,而是用联合累积量 \(\mathbb{E}^c\)(减去所有因子分解项),并按神经指标把它分解成秩-4 张量。例如把预激活-NTK 联合累积量写成

\[\mathbb{E}^c_\theta[z^{(\ell+1)}_{i_1},z^{(\ell+1)}_{i_2},\widehat{\Delta\Theta}^{(\ell+1)}_{i_3i_4}]=\tfrac{1}{n_\ell}\big(D^{(\ell+1)}_{1234}\delta_{i_1i_2}\delta_{i_3i_4}+F^{(\ell+1)}_{1324}\delta_{i_1i_3}\delta_{i_2i_4}+F^{(\ell+1)}_{1423}\delta_{i_1i_4}\delta_{i_2i_3}\big),\]

其中 \(D,F\) 是在样本指标上的 Gram 张量,捕捉联合预激活-NTK 统计,\(A,B\) 捕捉 NTK 涨落。这套分解把"一大堆混合矩"压成有限组可逐层递归的张量——是后面图形化的对象基础。

2. NTK 费曼规则:把期望值计算变成"画图 + 翻译"

之前 Banta et al. (2024) 的预激活费曼规则重度依赖条件分布 \(P(z^{(\ell+1)}\mid z^{(\ell)})\) 的高斯性,而 NTK 对权重是二次的,那套规则失效。本文改用上面的累积量-张量分解,重新定义一套规则:外部顶点用实心点表示(实线=预激活 \(z_\alpha\),点线=NTK 涨落 \(\widehat{\Delta\Theta}_{\alpha\beta}\),不同 NTK 用不同颜色);外线接到三次相互作用顶点(两条外线 + 一条内线,携带 \(C_W^{(\ell+1)}/n_\ell\) 量级因子);内线接到代表高斯期望 \(\langle\cdot\rangle_{K^{(\ell)}}\)传播子(白色 blob),并满足一组选择规则(如成对点线给出 \(\Theta_{\alpha\beta}\) 因子);秩-4 张量 \(D,F,A,B\) 等用四次相互作用顶点表示。算某个期望值时,就画出所有外线匹配、且到指定 \(1/n\) 阶的相容图,按规则乘上顶点与传播子、对未定神经/样本指标求和,再把所有图求和。冗长的代数被"枚举图"替代。

3. 完备性定理:规则在所有阶都给出正确递归

这套规则不是启发式凑出来的。论文用三条定理夯实其严谨性:定理 4.1 证明 (i)–(v) 的费曼规则在 \(1/n\)唯一确定 \(D,F,A,B\) 的逐层递归关系(证明里直接用图重现了已知的 \(F\) 递归式 (5));定理 4.2 把规则扩展到高阶导数张量 dNTK / ddNTK(\(P,Q,R,S,T,U\)),它们是预测一阶训练动力学所必需;定理 4.3 进一步说明只要给张量加上任意条外线的高阶推广,规则就能在所有阶 \(1/n\) 完备刻画 NTK 及其衍生量的统计。这意味着用同一套简单规则,原则上能机械地推到 \(1/n^2\)(论文附录里演示了 \(D_6\) 张量的递归)乃至更高,而直接代数法在这些阶会变得不可承受。

4. 三个应用:用费曼图导出新递归、稳定性与 ReLU 精确性

为展示威力,论文用规则解了三个问题: - NTK 均值递归(5.1):图形化导出 NTK 均值一阶修正 \(\Theta^{\{1\}}\) 的逐层递归——从代表 \(\Theta^{\{1\}}_{12}/n_\ell\) 的二次顶点出发,只有五张相容图(含 \(K^{\{1\}},\Theta^{\{1\}}\) 的二次顶点和 \(D,F,V\) 的四次顶点),据作者所知此递归此前从未被推导过。 - 有限宽度梯度稳定性(5.2):无限宽度下临界初始化(susceptibility \(\chi=1\))使预激活/梯度不随深度指数爆炸/消失。定理 5.1 证明若 NNGP 临界,则任何涉及 NTK 的累积量也临界,从而把 Banta et al. 的预激活前向稳定性结论扩展到反向(梯度)。 - 尺度不变激活无修正(5.3):定理 5.2 证明对 ReLU、LeakyReLU 这类满足 \(\sigma(\lambda z)=\lambda\sigma(z)\) 的尺度不变激活,NTK 均值的对角分量不接受任何有限宽度修正,即 \(\Theta(x,x)\) 的无限宽度结果对有限宽度精确成立。

损失函数 / 训练策略

本文是初始化时的统计分析,不涉及训练损失。数值实现上:递归关系含大量最高四维的高斯积分,无解析解,论文用自定义 SymPy 例程把符号表达式约化、利用多元高斯边缘分布把 4d 积分降成低维积分之和、剔除求值为零的偏导并用张量缩并/对称性减少项数,再转成数值函数——得到一个对激活函数无关、可扩展到其他递归关系的灵活框架。

实验关键数据

主实验

数值求解递归、计算一阶修正,并与采样网络的统计对比。

验证项 设置 结果
NNGP/NTK 一阶修正 GeLU-MLP 第 4 层 off-diagonal,MC 采样 \(10^6\)/\(10^5\) \(K+K^{\{1\}}/n\)\(\Theta+\Theta^{\{1\}}/n\) 修正后曲线明显比无限宽度更贴采样均值
收敛宽度 不同隐层宽度 \(n\) 修正后统计在 \(n\gtrsim 20\) 即与采样网络吻合
临界稳定性 临界以下/处/以上采样张量随深度变化 临界初始化把所有含 NTK 的统计稳定到全阶 \(1/n\)

消融 / 对照实验

激活函数 是否尺度不变 \(\Theta(x,x)\) 有限宽度修正
ReLU 无修正(采样验证,符合定理 5.2)
LeakyReLU 无修正(采样验证)
GeLU 有修正(采样验证,作为反例对照)

关键发现

  • 一阶修正确实抓住了有限宽度行为:加上 \(1/n\) 修正的核比无限宽度结果显著更贴近采样网络的真实统计,且这种吻合在相当小的宽度(\(n\gtrsim 20\))就成立,说明微扰展开在实用宽度区间有效。
  • 临界初始化的稳定性可扩展到反向:以前只证明了前向(预激活)在有限宽度仍临界稳定,本文用费曼图把它升级为"任何含 NTK 的累积量在 NNGP 临界时都临界",覆盖了训练真正依赖的梯度统计。
  • 尺度不变性是结构性的精确性来源:ReLU/LeakyReLU 的对角 NTK 无任何有限宽度修正,而非尺度不变的 GeLU 有修正——这个对照既验证了定理,也提示激活函数的代数性质直接决定了无限宽度近似在哪些量上"免费精确"。

亮点与洞察

  • 跨学科的方法迁移:把 QFT 的费曼图引入 NTK 有限宽度分析,是真正"换了一套算账方式"——原来要手推几页纸的递归,现在变成枚举有限张图再翻译,且可机械推到任意阶 \(1/n\)。这种"把繁琐代数图形化"的思路对任何高阶微扰展开都有借鉴价值。
  • 不止预激活,覆盖到 NTK 与联合统计:以往用费曼图的工作(Banta et al. 等)都限于预激活统计,只能描述初始化;本文扩到 NTK 和预激活-NTK 联合统计,而 NTK 才是描述训练动力学所必需的——这是实质性的能力跃升。
  • 全阶完备性 + 可执行实现:三条定理保证规则在所有阶正确,且配了通用的 SymPy 数值框架(开源),不是纸面理论,能直接算任意输入的一阶修正。

局限与展望

  • 限于 MLP:全文张量递归与费曼规则都针对全连接网络推导,卷积/注意力等结构的费曼规则尚未给出。
  • 聚焦初始化统计:分析的是初始化时的核,训练中的 NTK 演化虽被一阶动力学涉及,但完整的训练轨迹统计仍需更高阶/更多张量。
  • 数值代价随阶数上升:尽管降维技巧有效,最高四维高斯积分与张量缩并在更高 \(1/n\) 阶仍可能昂贵,论文也主要演示到一阶(附录涉 \(1/n^2\)\(D_6\))。
  • 对角 NTK 的无修正结论只对尺度不变激活成立,主流的 GeLU/SiLU 等仍需逐项算修正。

相关工作与启发

  • vs Roberts et al. (2022) / Yaida (2020): 他们用直接代数方法系统发展了 \(1/n\) 有限宽度展开(书中含大量结果),但推导冗长;本文提供等价但大幅简化的图形化工具,并复现了其 \(F\) 递归式作为正确性检验。
  • vs Banta et al. (2024): 他们首次从第一性原理给出预激活的费曼规则,依赖条件高斯性;本文因 NTK 对权重二次而改用累积量-张量分解,把规则扩展到 NTK 及联合统计——这是从"只能描述初始化"到"能描述训练所需统计"的关键拓展。
  • vs Dyer & Gur-Ari (2020): 他们也用费曼图研究 NTK 修正,但只给出相关函数的标度行为;本文能显式求值这些相关函数,给出可数值实现的递归。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次把费曼图扩展到 NTK 及预激活-NTK 联合统计,并证明全阶完备性。
  • 实验充分度: ⭐⭐⭐⭐ 数值验证一阶修正、临界稳定性与 ReLU/GeLU 对照充分,但限于 MLP、初始化。
  • 写作质量: ⭐⭐⭐⭐ 物理直觉与定理交织清晰,但费曼规则细节对 ML 读者门槛较高。
  • 价值: ⭐⭐⭐⭐⭐ 为有限宽度理论提供可复用、可扩展、开源的计算工具,降低该方向的推导门槛。