FS-KAN: Permutation Equivariant Kolmogorov-Arnold Networks via Function Sharing¶

ICLR 2026 图学习置换等变 Kolmogorov-Arnold Networks 参数共享函数共享 DeepSets 数据高效

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=l4m4HK6gJN
代码: 待确认
领域: 几何深度学习 / 等变网络 / Kolmogorov-Arnold Networks
关键词: 置换等变, Kolmogorov-Arnold Networks, 参数共享, 函数共享, DeepSets, 数据高效

一句话总结¶

把等变网络里经典的"参数共享"方案推广到 KAN 上，提出按群作用共享可学习单变量函数（而非标量权重）的 FS-KAN，统一了已有各种等变 KAN，并证明其表达力与参数共享 MLP 等价，从而在低数据场景下取得显著更高的样本效率。

研究背景与动机¶

领域现状：在数据带有对称性（集合、图、图像、点云、用户-物品矩阵等）的任务上，等变网络是主流。构造等变性的最通用、最可扩展的办法是 Wood & Shawe-Taylor 提出的参数共享（parameter-sharing）方案——让线性层的权重按群作用绑定在一起（如卷积的循环矩阵对应循环群 \(C_n\)、DeepSets 对应 \(S_n\)）。与此同时，Kolmogorov-Arnold Networks (KAN) 把 MLP 中的标量权重换成可学习的单变量函数 \(\phi\)，带来了更好的可解释性、参数效率和表达力。

现有痛点：已有工作只为少数特定数据类型做出了等变 KAN（Graph-KAN 用于图、PointNet-KAN 用于集合、Convolutional-KAN 用于图像），彼此孤立、各自为政；最近 Hu et al. (2025) 处理连续群但需要数值求解等变层、且无法处理变长输入（集合/图）。一句话：缺一个能对任意置换对称群构造等变 KAN 层的统一原则性框架。诸如多重集交互、带对称元素的集合、权重空间、层级结构、高阶关系数据等大量重要数据类型还完全没有对应的等变 KAN。

核心矛盾：参数共享方案的"共享对象"是标量权重，而 KAN 的基本单元是函数——如何把"共享权重"自然地推广成"共享函数"，并保证这样做不会损失表达力，是把成熟的等变理论搬到 KAN 上的关键缺口。

本文目标：给出一个对任意置换子群 \(G \le S_n\) 都成立的等变/不变 KA 层构造法，统一并显著扩展已有等变 KAN，并从理论上把参数共享网络的表达力结论一并迁移过来。

核心 idea：函数共享（Function Sharing） —— 把"权重按群作用绑定"直接升级为"单变量函数按群作用绑定"，即约束 \(\phi_{q,p}=\phi_{\sigma(q),\sigma(p)}\)。

方法详解¶

整体框架¶

一个 KA 层写成函数矩阵作用在输入向量上：\(\Phi(x)_q=\sum_{p}\phi_{q,p}(x_p)\)。FS-KAN 的核心是给这个函数矩阵施加和参数共享一模一样的"按群绑定"约束，只不过绑定的是整条单变量函数而非一个标量。在此基础上，论文给出不变层、多通道、效率优化三个层面的具体构造，并把它实例化到集合（\(S_n\)）、直积群（\(G\times H\)，如图像、用户-物品）、高阶张量（图/超图）三类典型对称性。

flowchart TD
    A[输入 x：带置换对称性的数据] --> B[等变 FS-KA 层<br/>按群作用共享单变量函数 φ]
    B --> C[逐点非线性 / 多层堆叠]
    C --> D[不变 FS-KA 层<br/>nout=1，共享读出函数]
    D --> E[输出：G-不变预测]
    B -.高效变体.-> F[先按 FS 结构聚合再过共享 KA 子层<br/>省内存/加速]

关键设计¶

1. 函数共享约束：把"参数绑定"升级成"函数绑定"。 对参数共享的等变线性层，权重需满足 \(W_{i,j}=W_{\sigma(i),\sigma(j)}\)。FS-KAN 把它平移到函数层面：一个 \(n\times n\) 的 KA 层是 \(G\)-等变 FS-KA 层，当且仅当 \(\phi_{q,p}=\phi_{\sigma(q),\sigma(p)},\ \forall \sigma\in G\)（Prop. 1）。直观上，循环群下的 FS-KA 层在矩阵形式上就是一个"函数版循环矩阵"，和 1D 卷积的循环结构一一对应。对不变层（\(n_{out}=1\)）则退化为 \(\phi_p=\phi_{\sigma(p)}\)（Prop. 3）。一个值得强调的微妙之处是：等变 KA 层未必天然是 FS 结构的——论文给了一个 \(S_2\) 等变层的反例，两个不同写法算出同一函数但只有其一是 FS 层；不过 Prop. 2/4 证明任何等变（不变）KA 层都存在一个等价的 FS 层表示。这条"无损归约"是整套理论的地基，它让我们在设计等变 KAN 时可以只考虑 FS 层而不损失一般性。

2. 多通道下的"内外两级共享"。 真实数据往往每个元素带多维特征（如图像的颜色通道）。此时把每个 \(\Phi_{q,p}:\mathbb{R}^{d_{in}}\to\mathbb{R}^{d_{out}}\) 本身做成一个小 KA 子层，整层就成了 \(n\times n\) 的 KA 子层矩阵（Prop. 5）。共享发生在两个层级：子层之间按群作用外部共享（\(\hat\Phi_{q,p}=\hat\Phi_{\sigma(q),\sigma(p)}\)），子层内部的函数再按对应位置内部共享。这与多通道等变线性层的共享方案完全对齐——例如 \(S_n\) 情形下层结构正好写成 \(\Phi(x)_q=\Phi_1(x_q)+\sum_{p\ne q}\Phi_2(x_p)\)，这就是 DeepSets 层的 KAN 版，也正是 PointNet-KAN 的推广；\(G\times H\) 直积群（图像、用户-物品矩阵）则表现为"外部按 \(G\) 共享子层、内部按 \(H\) 共享函数"的嵌套结构；高阶张量（图的二阶邻接、超图）通过对张量下标 \(\sigma(i)=(\sigma(i_1),\dots,\sigma(i_k))\) 施加同样的绑定即可推广，从而可构造出对标 \(k\)-IGN 的表达力。

3. 高效 FS-KA 层：把聚合与非线性对调。 标准 KA 层对所有输入-输出对独立施加函数，计算和显存开销大。借鉴线性层里"求和池化可与矩阵乘法交换次序"的技巧，论文提出先按 FS 结构聚合、再过一个共享 KA 子层。以 \(S_n\) 等变层为例，高效变体计算 \(\tilde\Phi(x)_q=\tilde\Phi_1(x_q)+\tilde\Phi_2\big(\sum_{p=1}^n x_p\big)\)——第二项对全集只需算一次再广播复用。代价是它不再与原层严格等价（是一种松弛），但参数量不变、等变性保持，且训练时计算图更小、显存更省。对任意群 \(G\)，高效层都按"把元素聚合（sum/mean 池化）与共享函数应用交换次序"这一原则导出，效率由群结构决定。

4. 表达力等价定理：搭起 KAN 与参数共享网络之间的桥。 论文证明在均匀逼近意义下，对给定置换群 \(G\)，FS-KAN 与参数共享 MLP 表达力等价：一方面任何参数共享 MLP（\(l\) 层、ReLU）都能被至多 \(2l\) 层的样条 FS-KAN 精确实现（Prop. 6，利用"MLP 层可由两个 KA 层——仿射 + 逐点 ReLU——实现"）；另一方面任何 FS-KAN 也能被参数共享 MLP 任意精度逼近（Prop. 7）。这条等价的威力在于直接迁移已有结论（Cor. 4.1）：FS-KAN 因此继承了 CNN 的平移等变万能逼近、DeepSets 对集合置换不变函数的万能性，高阶 FS-KAN 对任意 \(G\le S_n\) 不变函数的万能性，以及图上 \(k\)-阶 FS-KAN 等同于 \(k\)-IGN、判别力达到 \(k\)-WL 的结论。

实验关键数据¶

主实验设置与结果¶

在三类对称性任务上对比 FS-KAN / 高效 FS-KAN 与参数共享 MLP 基线（尽量对齐参数量）：

任务	对称群	数据集	基线	关键结论
多测量信号分类	\(S_n\times C_T\)	合成周期信号（n=25, T=100）	DSS / scaled DSS	低数据区（60–1200 样本）显著超越，高数据区持平；FS-KAN 仅 3e4 参数 vs DSS 3e6
点云分类	\(S_n\)	ModelNet40（无增广）	DeepSets / Point Transformer / 非等变 KAN	样本数与点数都受限时全面领先；非等变 KAN 表现极差
半监督评分预测	\(S_n\times S_m\)	MovieLens-100K / Flixster / Douban / Yahoo	SSEM / scaled SSEM	低数据区 RMSE 更优，数据充足时差距收窄

持续学习实验（点云，ModelNet40 → 旋转/平移损坏版）¶

Train Size	Model	Forgetting ↓	Avg Acc ↑
200	FS-KAN	0.034	0.420
200	Efficient FS-KAN	0.040	0.395
200	DeepSets	0.059	0.380
600	FS-KAN	0.045	0.501
600	DeepSets	0.055	0.475
800	FS-KAN	0.038	0.535
800	DeepSets	0.036	0.516
1000	FS-KAN	0.040	0.553
1000	DeepSets	0.027	0.555

FS-KAN 在低数据区遗忘更少、平均精度更高；数据充足（1000）时与 DeepSets 持平。

关键发现¶

数据效率是核心卖点：所有任务在低数据区 FS-KAN 都大幅领先参数共享 MLP，且参数量往往低一两个数量级（如信号任务 3e4 vs 3e6）。
等变性不可省：非等变 KAN 在点云上表现"灾难性"地差，印证了把对称性显式编进架构的必要性。
可解释性增强：FS-KAN 在对称边上共享同一条样条函数，使等变结构"可视化即可见"，比标准 KAN 为每条边学独立样条更简洁、更尊重数据对称性。
效率仍是短板：高效变体比完整 FS-KAN 快约 1.4–1.5×，但仍比 DSS/DeepSets 慢（信号任务约慢 4 倍）。

亮点与洞察¶

"参数共享 → 函数共享"是一个干净且可推广的概念升级：只把绑定对象从标量换成函数，就把整个等变深度学习的方法论无缝迁移到了 KAN。
理论与统一性并重：不仅给框架，还用表达力等价定理把 CNN/DeepSets/\(k\)-IGN/\(k\)-WL 等一大批经典结论"免费"迁移给 FS-KAN，同时证明已有等变 KAN（PointNet-KAN、Conv-KAN）都是其特例。
Prop. 2 的"无损归约"很关键：等变 KA 层未必天生是 FS 的，但总能等价改写成 FS 层，这让"只设计 FS 层"在理论上站得住脚。
定位清晰：明确把 FS-KAN 推荐为低数据 + 有对称性场景下的优选，而非全场景替代 MLP。

局限与展望¶

计算成本高：即便有高效变体，仍比线性参数共享层慢，高数据区尤其明显；作者把"更快的实现"列为重要 future work。
理论只覆盖表达力：泛化能力、优化性质、可扩展性等尚未分析。
效率变体非等价：高效 FS-KA 是松弛而非等价层，虽实验中常更好，但缺乏理论保证其逼近误差。
高数据区优势消失：数据充足时线性模型因训练快反而更可取，FS-KAN 的价值高度依赖"低数据"前提。

评分¶

新颖性: ⭐⭐⭐⭐ —— "参数共享→函数共享"的概念升级简洁优雅，且首次给出任意置换群下等变 KAN 的统一框架，统一了多条孤立工作。
实验充分度: ⭐⭐⭐⭐ —— 覆盖集合/直积/高阶三类对称性、四个数据集、含持续学习与可解释性可视化，多种子带误差棒；但都偏中小规模、缺大规模/真实图任务。
写作质量: ⭐⭐⭐⭐ —— 命题—证明思路—示例衔接清晰，图示（循环矩阵/内外共享）直观，理论与实验定位明确。
价值: ⭐⭐⭐⭐ —— 为"对称数据 + 低数据"场景提供了原则化且可解释的新选择，并把等变理论搬进 KAN，蓝图意义强；主要受限于计算效率与高数据区优势收窄。