跳转至

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

会议: ICLR2026
arXiv: 2602.09988
代码: 未开源
领域: 科学计算/物理信息神经网络
关键词: KAN, physics-informed, oscillator, HRPINN, neural ODE, 残差发现

一句话总结

在硬约束递归物理信息架构(HRPINN)中系统评估vanilla KAN替代MLP作为残差分支的效果——通过3项互补研究×100随机种子发现KAN在单变量可分残差(Duffing的 \(-0.3x^3\))上的表现具有竞争力,但在乘法耦合残差(Van der Pol的 \((1-x^2)v\))上系统性失败且超参数极度脆弱,标准MLP在几乎所有配置下稳定性远优。

研究背景与动机

领域现状:硬约束递归物理信息架构(HRPINN)将已知物理嵌入递归积分器,神经网络只学习残差动力学——这确保了物理一致性并已在网络物理系统中验证有效。同时,Kolmogorov-Arnold Networks(KAN)基于Kolmogorov-Arnold表示定理,将多元函数分解为单变量函数之和 \(\Phi(\mathbf{x}) = \sum_q \phi_q(\sum_p \psi_{q,p}(x_p))\),用可学习的B-样条替代MLP的固定激活函数,在科学ML中展现潜力。

现有痛点: - KAN在Neural ODE和灰箱设置中展现了符号发现潜力(KAN-ODEs、SKANODEs),但这些工作使用的是无约束的连续ODE设置 - 没有人在硬约束递归架构中测试过KAN——递归设置中误差会累积,对稳定性要求更高 - KAN的加法归纳偏置(\(\phi(x) + \phi(v)\))理论上适合可分物理定律,但在实际中是否成立?

核心矛盾:KAN的加法结构天然适合加法可分函数,但许多物理定律包含乘法耦合项(如Van der Pol的 \((1-x^2)v\))。理论上KAN可通过深层组合表示乘法(\(xy = \frac{1}{4}((x+y)^2 - (x-y)^2)\)),但这需要更深的层→深层KAN在递归误差累积下是否仍然稳定?

本文目标:为vanilla KAN在硬约束递归物理架构中建立基线评估。

切入角度:选择两个具有对比残差结构的经典振荡器——Duffing(单变量多项式)和Van der Pol(乘法耦合)——作为加法可分性的边界测试。

核心 idea:通过精心对照的实验设计,揭示KAN的加法归纳偏置在递归物理约束下的实际成功边界。

方法详解

整体框架:HRPINN + KAN/MLP残差分支对照

HRPINN框架中,残差分支 \(R_\theta(x, v)\) 接收归一化状态 \([x, v]\),分别用标准ReLU MLP和B-spline KAN实现。已知物理和积分器固定在递归更新规则中,网络仅学习残差流形。Performance用测试MSE和Discovery \(R^2\)(网格密度相关性)评估,后者在 \(100 \times 100\) 网格上对 \(x, v \in [-2.5, 2.5]\) 的相空间计算。采用统一的候选拟合方法(非KAN特有的符号剪枝)确保公平对比。

关键设计1:配置消融——超参数敏感性系统评估

设计7种KAN网格配置(grid size \(G\) 和 spline order \(k\) 的不同组合),固定训练设置,每种配置100个随机种子。结果揭示:

  • 粗网格配置(Config F, \(G=3, k=3\))在Duffing上达到 \(R^2 = 0.862\),与MLP(\(0.957\))缩小差距
  • 但多数配置在Van der Pol上产生负 \(R^2\)(发散解),如Config C的 \(R^2 = -5.229 \pm 5.091\)
  • MLP(337参数)稳定达到 Duffing \(R^2 = 0.957\)、VdP \(R^2 = 0.768\),方差极小

设计动机:通过穷举配置空间并用大量种子统计,区分"KAN的某个配置碰巧好"和"KAN作为架构宽鲁棒地好"→结论是前者。

关键设计2:参数规模消融×两种训练范式

固定配置、变化参数量(Very Small 120 → Deep 880),分别在单步Teacher Forcing和BPTT两种训练范式下测试:

训练范式 KAN行为 MLP行为
Teacher Forcing 小KAN在Duffing竞争力强、VdP随规模迅速退化 平稳扩展
BPTT 最小KAN达到VdP最佳 \(R^2 \approx 0.74\)(长时域监督有帮助)、深KAN不稳定 所有规模稳定优越

对比揭示了关键瓶颈:MLP的稠密矩阵乘法在第一层就实现变量交互(\(w_i x + w_j v\)),而KAN的加法偏置(\(\phi(x) + \phi(v)\))需要通过深层组合来近似乘法→在递归误差累积下深层组合不稳定。

关键设计3:定性验证——残差流形可视化

展示KAN和MLP学到的残差曲面与真实解的对比: - Duffing:KAN准确再现立方流形,候选拟合得到 \(-0.234x^3\)(真值 \(-0.3x^3\)),\(R^2 = 0.91\) - Van der Pol:KAN曲面坍缩为近似线性形式→未能捕捉 \((1-x^2)v\) 的抛物线调制结构

这种定性验证与定量统计互相印证:KAN的加法偏置在单变量上是优势,在变量耦合上是瓶颈。

实验关键数据

配置消融主表(95% Bootstrap CI, N=100 seeds)

配置 Duffing \(R^2\) Van der Pol \(R^2\)
KAN Config A (\(G=5, k=3\)) 0.835 ± 0.030 0.667 ± 0.037
KAN Config C (Sparse-Low) 0.595 ± 0.033 -5.229 ± 5.091
KAN Config E (Aggressive-Grid) 0.794 ± 0.067 0.699 ± 0.065
KAN Config F (Coarse-Grid) 0.862 ± 0.037 0.639 ± 0.302
KAN Config G (Fine-Grid) 0.745 ± 0.099 -0.174 ± 0.691
MLP (337 params) 0.957 ± 0.009 0.768 ± 0.015

参数规模消融(Mean ± 95% CI, N=100 seeds)

架构 参数 Duffing(TF) VdP(TF) Duffing(BPTT) VdP(BPTT)
KAN Very Small 120 0.836±0.032 0.464±0.166 0.914±0.061 0.743±0.061
KAN Small 240 0.777±0.079 0.322±0.292 0.874±0.080 0.785±0.073
KAN Wide 480 0.845±0.025 0.232±0.570 0.468±0.773 -0.602±2.842
KAN Deep 880 -3.146±7.106 -0.303±1.579 (不稳定) 0.754±0.079
MLP Tiny 105 0.914±0.026 0.593±0.048 0.906±0.092 0.622±0.173
MLP Small 337 0.957±0.009 0.768±0.015 0.937±0.047 0.879±0.032
MLP Medium 1185 0.960±0.013 0.805±0.014 0.951±0.033 0.879±0.019
MLP Large 4417 0.965±0.009 0.843±0.010 0.932±0.063 0.898±0.017

关键发现

  • KAN在Duffing上可发现立方结构(\(-0.234x^3\),真值 \(-0.3x^3\)\(R^2=0.91\)),38%种子成功→有潜力但不可靠
  • KAN在Van der Pol上系统性失败→加法偏置无法稳定学习乘法耦合
  • BPTT的长时域监督帮助最小KAN缓解VdP问题(\(R^2\) 从0.464升至0.743),但MLP仍全面占优
  • KAN超参数敏感度远高于MLP——VdP上从0.699到-5.229→实践中不实用
  • 深层KAN(880参数)在递归设置中灾难性不稳定(\(R^2 = -3.146\)

亮点与洞察

  • 诚实的"负面结果"——清楚展示了当前vanilla KAN在物理约束递归架构中的实际边界,为KAN社区提供了重要警示
  • 加法偏置vs乘法耦合的精准诊断:选择Duffing和Van der Pol作为恰好跨越加法可分性边界的测试对→诊断直击KAN设计核心假设
  • 大规模种子统计的可信度:每项实验100个随机种子+95%置信区间→结论不依赖于幸运的初始化
  • 递归误差累积的独特洞察:KAN在无约束ODE中可能表现尚可,但在硬约束递归设置中误差快速放大→揭示了设置依赖性

局限与展望

  • 仅测试vanilla KAN——改进变体(SKANODEs、Hybrid KAN-MLP、DeepOKAN)可能克服乘法限制
  • 仅两个振荡器系统——更复杂/混沌系统(Lorenz吸引子)待测试
  • 未与SINDy等成熟符号发现方法对比
  • 未探究KAN独有的符号剪枝能力——直接通过样条结构提取符号表达式
  • 未分析梯度条件数/优化景观——仅展示了"什么失败"但未完全解释"为什么失败"

相关工作与启发

  • vs KAN-ODEs (Koenig et al., 2024):在无约束连续ODE中表现好→本文揭示硬约束递归设置下的脆弱性→设置依赖性是关键
  • vs SKANODEs (Liu et al., 2025):结构化KAN可能通过算子链接(分别表示 \(1-x^2\) 再与 \(v\) 交互)缓解乘法问题→启发混合方案
  • 启发:可否设计"乘法感知KAN"→在KAN基础层引入显式乘法门→保留加法偏置的可解释性同时处理耦合项?

评分

⭐⭐⭐⭐ (4/5)

综合评价:系统性的负面结果论文,100种子×3项研究的极其充分实证支撑了关于KAN加法偏置边界的精确论断——虽非新方法,但为KAN在物理信息应用中的实践提供了不可或缺的校准参考。