Finite-Width Neural Tangent Kernels from Feynman Diagrams¶

会议: ICML2026
arXiv: 2508.11522
代码: https://github.com/PhilippMisofCH/ntk-unlimited
领域: 学习理论 / 神经正切核 / 有限宽度修正
关键词: 神经正切核, 有限宽度, 费曼图, 1/n 展开, 临界初始化

一句话总结¶

把量子场论里的费曼图搬到神经网络分析中，给"NTK 的有限宽度统计修正"提供一套图形化计算规则，让原本极繁琐的逐层递归推导变成"画图 + 套规则翻译"，并据此证明了 NTK 的临界稳定性、ReLU 等尺度不变激活在对角线上无有限宽度修正，数值上在宽度 \(n\gtrsim 20\) 即与采样网络吻合。

研究背景与动机¶

领域现状：神经正切核 \(\Theta(x,x')=J(x)J(x')^\top\)（\(J\) 是网络对参数的雅可比）刻画了网络一阶训练动力学。在无限宽度极限下，NTK 坍缩到其均值、训练中冻结不变（frozen NTK），可对所有常见层用逐层递归关系闭式算出，于是梯度下降和贝叶斯推断都能解析求解。

现有痛点：无限宽度的便利恰恰也是它的硬伤——此时网络对参数被有效线性化、退化成高斯过程，只有最后一层在训练中演化，即没有特征学习（no feature learning）。多项研究发现有限宽度网络的实际行为与无限宽度 NTK 的预测有明显偏差。

核心矛盾：要把特征学习、NTK 演化等真实现象纳入理论，就得在严格无限宽度之外做 \(1/n\) 泰勒展开（\(n\) 是隐层宽度），把高斯统计往非高斯方向修正。但这种展开的代数推导极其冗长，且用的是机器学习社区不熟悉的语言，导致很难被采用。

本文目标：提供一套能系统、简洁地计算 NTK（及相关高阶张量）有限宽度统计修正的工具，使任意阶 \(1/n\) 修正的逐层递归关系都能被机械地推导出来。

切入角度：无限宽度的统计是高斯的，\(1/n\) 展开本质上就是"在高斯分布周围做微扰展开"——这正是微扰量子场论（QFT）的标准套路：把作用量（对数概率）在高斯主项（无相互作用粒子）附近展开，非高斯修正对应相互作用。而物理学家算这类微扰用的是费曼图这种直观速记。

核心 idea：为 NTK 统计量身定制一套"费曼规则"——把要算的期望值画成所有相容的图，再按规则把图翻译成代数表达式求和，从而把繁琐的递归推导降维成画图。

方法详解¶

整体框架¶

论文研究 \(L\) 层 MLP 在初始化时的两个核：经验 NTK \(\widehat\Theta^{(\ell)}_{ij}(x,x')=\sum_\mu \frac{\partial z_i^{(\ell)}(x)}{\partial\theta_\mu}\frac{\partial z_j^{(\ell)}(x')}{\partial\theta_\mu}\)（捕捉梯度相关）和 NNGP 核 \(\widehat K^{(\ell)}_{ij}(x,x')=z_i^{(\ell)}(x)z_j^{(\ell)}(x')\)（捕捉预激活相关）。两者都因初始化随机而是随机变量。无限宽度下 NTK 冻结、涨落 \(\widehat{\Delta\Theta}=0\)；要超越它就在 \(1/n\) 上展开，用联合累积量（physics 里的 connected correlator）刻画混合矩，并按神经指标把累积量分解成一组秩-4 张量（\(A,B,D,F\) 等）+ 四点累积量 \(V\) + 一阶均值修正 \(K^{\{1\}},\Theta^{\{1\}}\)，这些对象在 \(1/n\) 阶完全确定预激活与 NTK 的统计。整套方法就是给这些累积量配一套费曼规则，使其逐层递归关系可被图形化导出；再用这套工具去解三个应用问题，最后数值验证。这是纯理论 + 数值验证型工作，不存在数据驱动的多阶段 pipeline，故不强配流程图。

关键设计¶

1. \(1/n\) 展开 + 累积量的张量分解：把统计降维成可数的几块

针对"无限宽度无特征学习、有限宽度行为偏离"，论文在隐层宽度 \(1/n\) 上做泰勒展开：领头项 \(1/n\to 0\) 是高斯过程行为，一阶修正引入非线性与特征演化。因为 NTK 涨落 \(\widehat{\Delta\Theta}=0\) 在无限宽度下成立，所以像 \(\mathbb{E}_\theta[z_{i_1}^{(\ell)}z_{i_2}^{(\ell)}\widehat{\Delta\Theta}^{(\ell)}_{i_3i_4}]\) 这样的混合矩天然是 \(1/n\) 阶；更高阶矩对应更高阶 \(1/n\)，于是有限个混合矩就能把统计算到指定阶。论文不直接算矩，而是用联合累积量 \(\mathbb{E}^c\)（减去所有因子分解项），并按神经指标把它分解成秩-4 张量。例如把预激活-NTK 联合累积量写成

\[\mathbb{E}^c_\theta[z^{(\ell+1)}_{i_1},z^{(\ell+1)}_{i_2},\widehat{\Delta\Theta}^{(\ell+1)}_{i_3i_4}]=\tfrac{1}{n_\ell}\big(D^{(\ell+1)}_{1234}\delta_{i_1i_2}\delta_{i_3i_4}+F^{(\ell+1)}_{1324}\delta_{i_1i_3}\delta_{i_2i_4}+F^{(\ell+1)}_{1423}\delta_{i_1i_4}\delta_{i_2i_3}\big),\]

其中 \(D,F\) 是在样本指标上的 Gram 张量，捕捉联合预激活-NTK 统计，\(A,B\) 捕捉 NTK 涨落。这套分解把"一大堆混合矩"压成有限组可逐层递归的张量——是后面图形化的对象基础。

2. NTK 费曼规则：把期望值计算变成"画图 + 翻译"

之前 Banta et al. (2024) 的预激活费曼规则重度依赖条件分布 \(P(z^{(\ell+1)}\mid z^{(\ell)})\) 的高斯性，而 NTK 对权重是二次的，那套规则失效。本文改用上面的累积量-张量分解，重新定义一套规则：外部顶点用实心点表示（实线=预激活 \(z_\alpha\)，点线=NTK 涨落 \(\widehat{\Delta\Theta}_{\alpha\beta}\)，不同 NTK 用不同颜色）；外线接到三次相互作用顶点（两条外线 + 一条内线，携带 \(C_W^{(\ell+1)}/n_\ell\) 量级因子）；内线接到代表高斯期望 \(\langle\cdot\rangle_{K^{(\ell)}}\) 的传播子（白色 blob），并满足一组选择规则（如成对点线给出 \(\Theta_{\alpha\beta}\) 因子）；秩-4 张量 \(D,F,A,B\) 等用四次相互作用顶点表示。算某个期望值时，就画出所有外线匹配、且到指定 \(1/n\) 阶的相容图，按规则乘上顶点与传播子、对未定神经/样本指标求和，再把所有图求和。冗长的代数被"枚举图"替代。

3. 完备性定理：规则在所有阶都给出正确递归

这套规则不是启发式凑出来的。论文用三条定理夯实其严谨性：定理 4.1 证明 (i)–(v) 的费曼规则在 \(1/n\) 阶唯一确定 \(D,F,A,B\) 的逐层递归关系（证明里直接用图重现了已知的 \(F\) 递归式 (5)）；定理 4.2 把规则扩展到高阶导数张量 dNTK / ddNTK（\(P,Q,R,S,T,U\)），它们是预测一阶训练动力学所必需；定理 4.3 进一步说明只要给张量加上任意条外线的高阶推广，规则就能在所有阶 \(1/n\) 完备刻画 NTK 及其衍生量的统计。这意味着用同一套简单规则，原则上能机械地推到 \(1/n^2\)（论文附录里演示了 \(D_6\) 张量的递归）乃至更高，而直接代数法在这些阶会变得不可承受。

4. 三个应用：用费曼图导出新递归、稳定性与 ReLU 精确性

为展示威力，论文用规则解了三个问题： - NTK 均值递归（5.1）：图形化导出 NTK 均值一阶修正 \(\Theta^{\{1\}}\) 的逐层递归——从代表 \(\Theta^{\{1\}}_{12}/n_\ell\) 的二次顶点出发，只有五张相容图（含 \(K^{\{1\}},\Theta^{\{1\}}\) 的二次顶点和 \(D,F,V\) 的四次顶点），据作者所知此递归此前从未被推导过。 - 有限宽度梯度稳定性（5.2）：无限宽度下临界初始化（susceptibility \(\chi=1\)）使预激活/梯度不随深度指数爆炸/消失。定理 5.1 证明若 NNGP 临界，则任何涉及 NTK 的累积量也临界，从而把 Banta et al. 的预激活前向稳定性结论扩展到反向（梯度）。 - 尺度不变激活无修正（5.3）：定理 5.2 证明对 ReLU、LeakyReLU 这类满足 \(\sigma(\lambda z)=\lambda\sigma(z)\) 的尺度不变激活，NTK 均值的对角分量不接受任何有限宽度修正，即 \(\Theta(x,x)\) 的无限宽度结果对有限宽度精确成立。

损失函数 / 训练策略¶

本文是初始化时的统计分析，不涉及训练损失。数值实现上：递归关系含大量最高四维的高斯积分，无解析解，论文用自定义 SymPy 例程把符号表达式约化、利用多元高斯边缘分布把 4d 积分降成低维积分之和、剔除求值为零的偏导并用张量缩并/对称性减少项数，再转成数值函数——得到一个对激活函数无关、可扩展到其他递归关系的灵活框架。

实验关键数据¶

主实验¶

数值求解递归、计算一阶修正，并与采样网络的统计对比。

验证项	设置	结果
NNGP/NTK 一阶修正	GeLU-MLP 第 4 层 off-diagonal，MC 采样 \(10^6\)/\(10^5\)	\(K+K^{\{1\}}/n\)、\(\Theta+\Theta^{\{1\}}/n\) 修正后曲线明显比无限宽度更贴采样均值
收敛宽度	不同隐层宽度 \(n\)	修正后统计在 \(n\gtrsim 20\) 即与采样网络吻合
临界稳定性	临界以下/处/以上采样张量随深度变化	临界初始化把所有含 NTK 的统计稳定到全阶 \(1/n\)

消融 / 对照实验¶

激活函数	是否尺度不变	\(\Theta(x,x)\) 有限宽度修正
ReLU	是	无修正（采样验证，符合定理 5.2）
LeakyReLU	是	无修正（采样验证）
GeLU	否	有修正（采样验证，作为反例对照）

关键发现¶

一阶修正确实抓住了有限宽度行为：加上 \(1/n\) 修正的核比无限宽度结果显著更贴近采样网络的真实统计，且这种吻合在相当小的宽度（\(n\gtrsim 20\)）就成立，说明微扰展开在实用宽度区间有效。
临界初始化的稳定性可扩展到反向：以前只证明了前向（预激活）在有限宽度仍临界稳定，本文用费曼图把它升级为"任何含 NTK 的累积量在 NNGP 临界时都临界"，覆盖了训练真正依赖的梯度统计。
尺度不变性是结构性的精确性来源：ReLU/LeakyReLU 的对角 NTK 无任何有限宽度修正，而非尺度不变的 GeLU 有修正——这个对照既验证了定理，也提示激活函数的代数性质直接决定了无限宽度近似在哪些量上"免费精确"。

亮点与洞察¶

跨学科的方法迁移：把 QFT 的费曼图引入 NTK 有限宽度分析，是真正"换了一套算账方式"——原来要手推几页纸的递归，现在变成枚举有限张图再翻译，且可机械推到任意阶 \(1/n\)。这种"把繁琐代数图形化"的思路对任何高阶微扰展开都有借鉴价值。
不止预激活，覆盖到 NTK 与联合统计：以往用费曼图的工作（Banta et al. 等）都限于预激活统计，只能描述初始化；本文扩到 NTK 和预激活-NTK 联合统计，而 NTK 才是描述训练动力学所必需的——这是实质性的能力跃升。
全阶完备性 + 可执行实现：三条定理保证规则在所有阶正确，且配了通用的 SymPy 数值框架（开源），不是纸面理论，能直接算任意输入的一阶修正。

局限与展望¶

限于 MLP：全文张量递归与费曼规则都针对全连接网络推导，卷积/注意力等结构的费曼规则尚未给出。
聚焦初始化统计：分析的是初始化时的核，训练中的 NTK 演化虽被一阶动力学涉及，但完整的训练轨迹统计仍需更高阶/更多张量。
数值代价随阶数上升：尽管降维技巧有效，最高四维高斯积分与张量缩并在更高 \(1/n\) 阶仍可能昂贵，论文也主要演示到一阶（附录涉 \(1/n^2\) 的 \(D_6\)）。
对角 NTK 的无修正结论只对尺度不变激活成立，主流的 GeLU/SiLU 等仍需逐项算修正。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把费曼图扩展到 NTK 及预激活-NTK 联合统计，并证明全阶完备性。
实验充分度: ⭐⭐⭐⭐ 数值验证一阶修正、临界稳定性与 ReLU/GeLU 对照充分，但限于 MLP、初始化。
写作质量: ⭐⭐⭐⭐ 物理直觉与定理交织清晰，但费曼规则细节对 ML 读者门槛较高。
价值: ⭐⭐⭐⭐⭐ 为有限宽度理论提供可复用、可扩展、开源的计算工具，降低该方向的推导门槛。