ICLR 2026 物理/科学计算神经算子 KAN 伪微分算子符号可解释性偏微分方程量子哈密顿量学习

KANO: Kolmogorov–Arnold Neural Operator¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=2QmiKXfsIr
代码: 待确认
领域: 应用于物理科学 / 神经算子
关键词: 神经算子, KAN, 伪微分算子, 符号可解释性, 变系数 PDE, 量子哈密顿量学习

一句话总结¶

KANO 把 KAN 子网络嵌入伪微分算子框架，在频域和空域两个基上联合参数化算子，既突破了 Fourier Neural Operator (FNO) 的纯谱瓶颈、能在变系数 PDE 上稳健泛化，又能把学到的算子读出成闭式符号公式（系数精确到小数点后第四位）。

研究背景与动机¶

领域现状：算子学习用神经网络逼近无穷维函数空间之间的映射 \(G:\mathcal{A}\to\mathcal{U}\)，是数据驱动建模物理动力学（PDE）的主力工具。FNO 把编码器硬编码为截断 Fourier 变换、用谱域对角核学习潜在映射，当目标算子在谱域稀疏时又快又准，已成事实标准。

现有痛点：现实中一大类重要问题是变系数 PDE——至少一项的系数随变量（尤其是位置）变化，本文称之为"位置依赖动力学"，例如空间变黏滞流体、带位置势的薛定谔方程。这类算子在谱域是稠密的：以量子谐振子 \(Ha=-\partial_{xx}a + x^2 a\) 为例，微分项 \(-\partial_{xx}\) 在谱域是对角乘子 \(\xi^2\)（稀疏），但乘子项 \(x^2\) 在谱域变成稠密 Toeplitz 矩阵。FNO 的谱核是对角的、无法混合模式，只能靠非线性激活去凑这些非对角项，而这些非对角项被绑死在训练输入分布上——这就是 FNO 的纯谱瓶颈：模型只在样本内映射上收敛，一出训练分布就崩。

核心矛盾：先前所有 FNO 变体（factorized / 多尺度谱核、注入局部空域核的 U-FNO、AM-FNO 等）仍然以谱基为特权，无法在空域基上取得最优稀疏；另一方面，基于 KAN 的算子网络（DeepOKAN 等）虽有性能提升，却从未报告过学到算子的符号恢复。"既能在变系数 PDE 上稳健泛化、又能符号可解释"的算子网络是缺失的。

本文目标：填补这一空白——构建一个对一般位置依赖动力学具备实用参数复杂度、且能内在符号可解释的算子网络。

核心 idea：用"每一项在它稀疏的那个基里表示"的双域参数化——微分项放谱域、局部乘子项放空域，套进伪微分算子（pseudo-differential operator）框架，并用 KAN 子网络承载可读的一元函数边，从而既稀疏又可符号读出。

方法详解¶

整体框架¶

KANO 沿用 FNO 的迭代层结构 \(G_\theta^{\text{KANO}}=L^{(\ell)}_{\text{KANO}}\circ\cdots\circ L^{(1)}_{\text{KANO}}\)，但去掉了 FNO 标志性的宽 lift-up/projection 网络（因为宽 KAN 不利于符号恢复）。每个 KANO 层用一个 KAN 子网络 \(p(x,\xi)\) 充当伪微分符号，它同时由空间 \(x\) 和频率 \(\xi\) 两个基参数化；再用另一个 KAN 子网络 \(\Phi\) 充当可学习非线性激活。所有计算都用 Kohn–Nirenberg 量化在双域上完成符号演算。

graph LR
    A["输入 a(x)"] --> F["截断 Fourier Fm"]
    F --> P["符号 p(x,ξ) ∗ (KAN, 双域参数化)<br/>Kohn–Nirenberg 量化"]
    P --> IF["逆变换 F⁻¹m"]
    IF --> PHI["KAN 激活 Φ(·, a(x))"]
    A -.残差.-> PHI
    PHI --> O["输出"]
    O -.迭代 ℓ 层.-> A

关键设计¶

1. 双域伪微分符号 \(p(x,\xi)\)：让每一项落在自己稀疏的基里。KANO 层定义为 \(L_{\text{KANO}}(a)(x)=\Phi\big(F^{-1}_m[\,p(x,\xi)*F_m(a)(\xi)\,](x),\,a(x)\big)\)，注意这里是卷积 "\(*\)" 而非 FNO 的对角乘 "\(\cdot\)"。关键在于符号 \(p(x,\xi)\) 同时吃空间和频率：由 Fourier 对偶关系，空间项在谱域表现为微分（卷积），谱项在谱域表现为乘子，于是同一个 \(p\) 能把微分项写成 \(\xi^2\) 型对角、把乘子项写成空域稀疏的位移矩阵 \(S^{(2)}_n\)。对量子谐振子，KANO 只需取 \(p(x,\xi)\approx x^2+\xi^2\) 就能精确表示 \(H\)，每一项都用它稀疏的那个表示，从根本上绕开了 FNO "稠密 Toeplitz 必须靠激活硬凑、被绑死在训练分布"的困境。

2. Kohn–Nirenberg 量化：在双域上严格做符号演算。因为 \(p(x,\xi)\) 是空频联合的，不能简单地频域逐点相乘，必须在两个域上同时量化。KANO 采用 Kohn–Nirenberg 量化把符号变成算子 \(\text{Op}_m(p):=F^{-1}_m[p(x,\xi)*F_m]\)，具体计算为双重求和 \(\frac{h}{L^d}\sum_{\xi\in\Xi}\sum_{y\in Y}e^{i(x-y)\cdot\xi}\,p(x,\xi)\,a(y)\)。这一步虽然引入了双重求和的计算量，但对目标算子类（变系数 PDE）可以被它证明的参数效率补偿；它带来的回报是理论上无输入约束：由 Demanet–Ying 的求积界，投影误差满足 \(\|G-\text{Op}_m(p_G)\|\le C\,B\,m^{-s}\)，只要输入有限能量，宽度 \(m\) 就按 \(\epsilon_{\text{proj}}\) 多项式缩放——而 FNO 必须要求输入 Fourier 尾快速衰减、且对稠密算子潜在网络规模会超指数爆炸 \(N_{\text{net}}\sim O(\epsilon_{\text{net}}^{-\epsilon_{\text{proj}}^{-d/s}})\)。

3. KAN 边带来的符号可解释性。由于符号 \(p(x,\xi)\) 和激活 \(\Phi\) 都用紧凑 KAN（每条边是可视化的一元 B 样条曲线）承载，整个网络可逐边检视，进而对学到的边做符号回归，读出闭式公式。训练收敛后冻结这些符号边、继续微调，得到 KANO symbolic 变体——它在合成算子上把真实算子的系数恢复到小数点后第四位（如 \(\tilde{G}_1 f=(x^2+0.0003)f-\partial_{xx}f\)），且 KANO 与 KANO symbolic 损失相当，证明 KANO 确实收敛到了接近真实算子的解。

4. Q-KANO：面向量子态演化的改装。为学习长时程量子动力学，符号被参数化为幺正形式 \(p_\theta=\exp(-i\Delta T\,\phi_\theta(x,\xi))\)，激活也改成带可学相位的复指数，整层为 \(G^{\text{Q-KANO}}_\theta[\psi]=\text{Op}_m(\exp(-i\Delta T\,\phi_\theta(x,\xi)))\psi\cdot e^{-i\Delta T\vartheta}\)，从而在保物理结构（幺正性）的前提下从投影测量数据学哈密顿量。

实验关键数据¶

主实验表格（合成位置依赖算子，相对 \(\ell_2\) 损失 \(\times10^{-4}\)；A=训练族内, B=未见测试族, B/A 越接近 1 泛化越稳）¶

模型 (参数量)	G1 A	G1 B	G1 B/A	G2 B/A	G3 B/A
FNO (566k)	6.36	98.8	15.53	8.21	7.14
U-FNO (579k)	2.79	22.9	8.21	41.65	3.16
AM-FNO (548k)	1.08	20.9	19.35	13.75	25.69
PDNO (538k)	1.41	6.31	4.5	6.3	6.7
KANO (152)	1.04	1.44	1.38	1.19	1.03
KANO symbolic	0.512	0.526	1.03	1.00	1.03

三个算子 \(G_1 f=x^2 f-\partial_{xx}f\)、\(G_2 f=x\partial_x f+\partial_{xx}f\)、\(G_3 f=f^3+x\partial_x f+\partial_{xx}f\)。KANO 仅用 152 个参数（FNO 的 0.03%） 就拿到低一个数量级的损失，且 B/A 接近 1（稳健泛化），而 FNO 系出训练分布损失暴涨十几倍。

消融实验表格¶

变体	说明	结果
KANO MLP (2k)	把 KAN 子网换成紧凑 MLP	B/A≈1.8–2.0，仍稳健泛化 → 泛化主要来自双域架构而非 KAN 本身
PDNO	伪微分框架但用 MLP+保留宽网络	FNO 族里最稳，但仍不如 KANO
U-FNO / AM-FNO	谱核+局部增强	反而更差

关键发现¶

泛化来自双域架构：KANO MLP 仍稳健，说明稳健泛化源于伪微分双域设计，符号可解释性才是 KAN 的额外红利。
符号恢复：KANO symbolic 把真实算子系数恢复到第四位小数（见 Table 2，如 \(\tilde{G}_3 f=1.0001 f^3+0.99997\,x\partial_x f+0.99997\,\partial_{xx}f-\dots\)）。
插值测试印证理论：把训练族 A 与测试族 B 的样本插值 100 步并施加真实算子，FNO 损失在前中段缓增（说明样本内映射尚接近真值）、在后段骤升（已远离训练分布），与 Theorem 1/2 的预测一致；KANO 全程平稳。
量子长时程基准（双阱 DW / 立方非线性薛定谔 NLSE，预测后续 90 步态保真度）：Q-KANO 用真实波函数训练得到态不保真度 \(\approx 6.3\times10^{-6}\)，比用理想完整波函数训练的 FNO（\(\approx1.5\times10^{-2}\)）低四个数量级；即便只用物理可得的位置+动量 PMF（非完整信息）也能达到 \(\approx6.3\times10^{-6}\)，而仅用位置 PMF 则退化到 \(4.7\times10^{-3}\)（DW），说明动量信息对可观测重建很关键。

亮点与洞察¶

"在稀疏的基里表示每一项"是核心洞见：FNO 失败不在逼近能力（普适逼近定理仍成立），而在泛化——把稠密 Toeplitz 强塞进对角谱核会把非对角项绑死在训练分布上。双域稀疏让投影误差 \(\epsilon_{\text{proj}}\) 与网络误差 \(\epsilon_{\text{net}}\) 解耦，破除超指数缩放。
理论扎实：Lemma 1 + Theorem 1 证明位置算子会拉长 Fourier 尾、导致 FNO 维度灾难；Theorem 2 证明只要 KANO 符号光滑，模型规模就按精度多项式缩放。
极致参数效率：合成基准上 KANO 仅 152 个参数即超越数十万参数的 FNO 族，这种"小而准"对可解释科学建模尤为关键。
范式转移：从算子学习的"普适逼近"转向"普适泛化"，并首次量化算子学习中经由 KAN 的符号恢复。
实用价值：量子哈密顿量学习能从投影测量（实际可测）而非理想全波函数中重建闭式哈密顿量，对实验物理极有吸引力。

局限与展望¶

计算开销：Kohn–Nirenberg 量化需双重求和，单层计算偏重；作者称对变系数 PDE 类可被参数效率补偿，但通用场景成本仍是问题。
去掉宽 lift-up/projection 网络牺牲了高维大基准上的性能——作者明确把 KANO 定位为"优先符号恢复+稳健泛化"，与 FNO 互补，高维扩展留作未来工作。
符号恢复依赖光滑符号假设：面对高度不规则系数需借助 KAN 符号恢复的近期进展（非光滑、不连续目标）。
lift-up/projection 网络的理论作用本身仍是开放问题。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把 KAN 嵌入伪微分算子框架实现双域稀疏 + 算子级符号恢复，理论上破除 FNO 纯谱瓶颈，范式从普适逼近转向普适泛化。
实验充分度: ⭐⭐⭐⭐ 合成算子（含泛化/插值测试）+ 量子长时程基准 + 多消融，结论清晰；但高维真实 PDE 与计算成本未系统评估。
写作质量: ⭐⭐⭐⭐ 理论推导严谨、动机—瓶颈—方法逻辑顺畅，公式密度高对读者要求较高。
价值: ⭐⭐⭐⭐⭐ 在变系数 PDE/量子哈密顿量学习上既稳健又可解释，参数量降到 FNO 的 0.03%，对科学 AI 有方法论意义。