跳转至

Fixed Aggregation Features Can Rival GNNs

会议: ICML2026
arXiv: 2601.19449
代码: 未公开
领域: 图学习 / GNN / 表格学习
关键词: 固定聚合, 多跳特征拼接, Kolmogorov-Arnold, MLP baseline, 节点分类

一句话总结

本文提出 Fixed Aggregation Features (FAF):把多跳邻域用 mean/sum/max/min/std 等不可训练的聚合算子压成表格特征再喂给 MLP,在 14 个节点分类基准中有 12 个能与精调过的 GCN/GAT/GraphSAGE 乃至 Graph Transformer 打平甚至超越,从而对"GNN 的可训练邻域聚合到底有多必要"提出系统性质疑。

研究背景与动机

领域现状:节点分类几乎被 message-passing GNN 垄断。从 GCN/GAT/GraphSAGE 到 Graph Transformer 与异质性专用模型,主流叙事是"每一层都要学习一次邻域聚合 + 线性变换",由此带来的高复杂度被默认为是表达能力所必需的代价。

现有痛点:(1) Luo et al. 2024 已经发现,只要超参精调,经典 GNN 与 SOTA Graph Transformer 几乎打平——这暗示新模型加的复杂度并未真正吃到收益;(2) 注意力机制存在已知的可训练性问题(梯度小、无法静音邻居);(3) GNN 普遍在训练集上很快过拟合,验证集最优往往出现在"聚合还没真正学好"时。

核心矛盾:表达能力(expressiveness)与可学习性(learnability)被长期混为一谈。理论上 GNN 能学到信息保持的聚合,但实际优化是否真的学到了?还是说,固定的、甚至非信息保持的聚合就已经够用?

本文目标:用一个极简到接近 baseline 的方案探针式回答两个子问题——(a) 不学聚合还能做多好?(b) 现有 benchmark 是否真的"必须学聚合"才能解?

切入角度:作者从 Kolmogorov-Arnold 表示定理出发,证明存在固定的、单变量的、信息无损邻域聚合 \(\Phi\),使得任意多重集函数都能写成 \(f = g \circ \Phi^{-1}\),把"学聚合 + 学分类器"还原为只学一个 \(g\)。但 \(\Phi\) 不连续、数值脆弱、产生"粗糙"的嵌入难以被 MLP 处理;于是退一步看简单 reducer(mean/sum/max/min/std)——它们虽不可逆,却经验上反而更好优化。

核心 idea:把 GNN 的"可训练多层聚合"替换成"预处理阶段的多跳固定聚合 + 拼接 + 表格 MLP",让图学习问题退化成表格学习问题,从而获得可解释性、可调参性和效率上的全面收益。

方法详解

整体框架

FAF 的 pipeline 极其简洁,分两步:

  1. 离线预处理(无参数):给定图 \(G=(V,E)\) 和节点特征 \(x_v\),对每个节点 \(v\)、每个 reducer \(r \in \mathcal{R} \subset \{\text{mean}, \text{sum}, \text{max}, \text{min}, \text{std}, \ldots\}\) 和每个跳数 \(k \in \{1, \ldots, K\}\),递归地计算 \(h_v^{(0,r)} = x_v\)\(h_v^{(k,r)} = r(\{h_u^{(k-1,r)} : u \in N(v)\})\)。最后把所有跳、所有 reducer 的结果与原始特征拼接:\(z_v = x_v \oplus \bigoplus_{r \in \mathcal{R}} \bigoplus_{k=1}^{K} h_v^{(k,r)}\),得到维度为 \(|x_v| \cdot (1 + |\mathcal{R}| \cdot K)\) 的表格特征。

  2. 在线训练(只有 MLP):把 \(z_v\) 当普通表格行喂给一个精调过的 MLP做节点分类。整个流程里没有任何可学习的聚合参数,所有"图结构信息"都在预处理阶段一次性烘焙进特征向量。

输入是图 + 节点特征,输出是节点类别;中间没有 message-passing 层、没有 attention、没有可训练的传播矩阵。

关键设计

  1. 多跳 × 多 reducer 拼接(而非替换)

    • 功能:把第 \(0, 1, \ldots, K\) 跳的所有 reducer 输出全部 concat 给 MLP,让分类器自己挑跳数和算子组合。
    • 核心思路:作者证明(Thm 4.1)当节点特征正交时,1 跳 sum 聚合是单射的,可以无损表达任意多重集函数;mean 在节点度数已知时与 sum 等价。但 \(k \geq 2\) 之后正交性不再成立,single reducer 必然丢信息,不同 reducer 抓住分布的不同侧面(sum 数个数、mean 加度数权重、max/min 看 tail)。所以拼接而非选其一,让 MLP 当"软 feature selection"。消融(Tab 10/11)显示只用最后一跳或只用单层线性都明显掉点,证明拼接 + MLP 缺一不可。
    • 设计动机:直接解决"非单射聚合必然有信息损失"的问题——既然单个 reducer 不可逆,那就用多个互补 reducer 在表格空间里"近似单射"。
  2. 用 Kolmogorov-Arnold 构造说明理论上限

    • 功能:给出一个理论上无损的固定聚合 \(\Phi(x_1, \ldots, x_d) = 3 \sum_{p=1}^{d} 3^{-p} \phi(x_p)\)(基于 Cantor 集的三进制展开,沿用 Schmidt-Hieber 2021),用来界定 FAF 框架的表达能力上界。
    • 核心思路:\(\Phi\)\([0,1]^d \to \mathbb{R}\) 的单射,所有"学聚合"的负担被推给一个可学的单变量 \(g\);任意连续 \(f\) 都能写成 \(g \circ \Phi^{-1}\) 并继承 \(f\) 的逼近率。但 \(\Phi\) 不连续、把相近输入推到很远的地方,导致下游 MLP 学不动——Roman-Empire 上 KA 版 FAF 反而能达到 \(80.33\) 的最高分,但其他数据集上 KA 训练困难。
    • 设计动机:把"表达能力够不够"和"实际能不能学"彻底分开——理论保证 FAF 框架不输给 GNN,实证再说明简单 reducer 之所以胜出靠的是"易优化"而非"更强表达"。
  3. 彻底的表格化视角带来三重红利

    • 功能:把图问题转成表格问题,可以直接套用整个表格学习工具箱——SHAP 可解释性、feature importance、特征选择、类别不平衡处理、噪声鲁棒方法等。
    • 核心思路:作者在 Minesweeper 上跑 SHAP 发现模型最重要的信号是 "hop-1 mean of feature 1"(即邻居中本地炸弹计数为 0 的比例),完美对应游戏的真实推理逻辑;Pubmed/Amazon-Ratings 上也得到类似可读的归因。还可在表格层面拼接 graph rewiring(如基于特征余弦相似度删边)后的额外聚合,作为对比性诊断而非破坏原信息。
    • 设计动机:GNN 的端到端结构让"哪一层学到了什么"几乎无法归因;而 FAF 把"特征" "跳数" "reducer 选择"三者解耦,使图数据集本身可以被独立审视——哪些跳真正有信号、哪些 reducer 互补、哪些是冗余的,这是 GNN 评估范式长期缺失的能力。

损失函数 / 训练策略

下游 MLP 用标准交叉熵 + dropout + LayerNorm;超参网格沿用 Luo et al. 2024 以保证与 Graph Transformer 直接可比。值得注意的是 FAF 偏好较大的学习率(带来更快收敛和稀疏化的隐式正则),dropout 水平却与 GNN 相当——后者表明 dropout 收益主要来自数据集本身而非图卷积特性。

实验关键数据

主实验

14 个标准节点分类基准上,FAF 最佳变体 vs 经典 GNN(节选 Table 1):

数据集 GCN GAT SAGE FAF\(_\text{bestval}\) 结论
Amazon-Computer 93.58 93.91 93.31 94.01 FAF 略胜
Amazon-Photo 95.77 96.45 96.17 96.54 FAF 略胜
Amazon-Ratings 53.86 55.51 55.26 55.09 持平
Pubmed 80.00 79.80 77.42 80.96 FAF 略胜
Questions 78.44 77.72 76.75 78.69 FAF 略胜
WikiCS 80.06 81.01 80.57 80.25 持平
Coauthor-CS 95.73 96.14 96.21 95.37 略低 1%
Cora 84.38 83.02 83.18 82.84 略低 1.5%
Minesweeper 97.48 97.00 97.72 90.00 明显落后
Roman-Empire 91.05 90.38 90.41 78.11 明显落后

整体战绩:5 个数据集超越 GNN、5 个持平(差距 ≤1%)、4 个落后,其中 Minesweeper/Roman-Empire 落差最大。

消融实验

配置 关键现象 说明
FAF4 (mean+sum+max+min) 多数据集最佳 默认配置
单 reducer (Tab 7) mean 最常胜出 Citeseer 喜欢 sum、Amazon-Ratings 喜欢 max
只用最后一跳 (Tab 11) 明显掉点 证实拼接所有跳必要
单层线性分类器 (Tab 10) 显著低于 MLP 证实 MLP 非线性是关键
KA 聚合 (Tab 12) Roman-Empire 反而最高 80.33 印证落后数据集是信息丢失而非"必须学聚合"
增加跳数 (Tab 8) 多数 \(k=2\) 达峰,后续平/降 信号集中在前两跳

关键发现

  • 最好的 FAF 普遍只用 2-4 跳就够,而 Minesweeper/Roman-Empire 上 GNN 需要 10-15 层;这两个特殊数据集靠的恰是 GNN 的线性残差连接(Luo et al. 2024),换句话说 FAF 与 GNN 之间的差距与"加不加残差"的差距高度吻合。
  • mean 单独使用就经常进 top,暗示邻域分布信息是任务信号的主体,而度数信息(隐含在 mean 与 sum 的比值中)足以区分邻居贡献。
  • GNN 常见的 over-smoothing、深层退化、对 dropout 敏感等现象在 FAF 这种纯表格设定下同样出现——说明这些"病症"未必是 message-passing 本身的锅,更可能源于数据集特性。
  • KA 聚合在 Roman-Empire 上反超所有简单 reducer,证明那里的差距是 reducer 信息丢失,而非"必须靠可训练聚合"。

亮点与洞察

  • "训练-free 也能打 SOTA" 的强反例:以最直白的 baseline 形式正面挑战"GNN 需要学习聚合"这一隐含信念,方法朴素到不可能被认为是过拟合 benchmark 的产物,因此说服力极强。
  • 理论与实验形成漂亮的双向印证:Kolmogorov-Arnold 构造说明"理论上 FAF 已足够",而简单 reducer 战胜 KA 聚合又说明"实际可学习性比表达能力更重要",两个方向的发现互为支撑。
  • 可解释性是真正的免费午餐:用 SHAP 直接看到 Minesweeper 上模型在用什么特征做决策,这种粒度的归因在 GNN 上几乎不可能;这给"诊断 graph benchmark 是否真有结构信号"提供了可复用工具。
  • 对整个领域 benchmarking 的拷问:作者明确呼吁后续工作必须把"精调 FAF"作为标准基线——任何声称自己利用了复杂图结构的新模型,如果赢不了 FAF,那"赢的就不是图结构"。这种范式压力是这篇论文最持久的贡献。

局限与展望

  • 作者承认 FAF 在 Minesweeper/Roman-Empire 上确实落后,根因是长程依赖 + reducer 信息丢失;这两个数据集恰好是少数真正"GNN 不可替代"的场景。
  • 自身局限:当 reducer/跳数/原始特征维度都大时,拼接后的输入维度爆炸,MLP 第一层参数与训练成本随之上升,需要特征选择;本文未给出系统化的降维方案。
  • 实验集中在节点分类,未触及链接预测、图分类、动态图等任务,FAF 是否在这些任务上也通用尚未验证。
  • 改进思路:(a) 设计既单射又"光滑"的聚合(介于 mean 和 \(\Phi\) 之间);(b) 把 FAF 与部分可学习聚合混合,让模型自动决定哪些跳/reducer 要学;(c) 把这套表格化诊断方法反向用于设计真正"必须学聚合"的新 benchmark。

相关工作与启发

  • vs SGC (Wu et al. 2019):SGC 同样剥离非线性、固定传播,但只用线性 readout 且只考虑线性扩散;FAF 引入 max/min/std 等非线性 reducer,并用 MLP 而非线性分类器,因此覆盖范围更广、表达更强。
  • vs SIGN/GAMLP/HOGA:这些工作也预计算多跳特征,但仍学习复杂 attention/gating 决定跳数权重,定位是"可扩展性优化";FAF 把 MLP 当成软 feature selector,完全不学传播侧任何参数,定位是baseline 与诊断工具
  • vs G2T-FM / TabPFN-GN / Hayler et al. 2025:并行的"表格化 + 表格基础模型"路线,目标是把 TFM 适配到图;FAF 的目标相反——用最简表格学习探测"图任务到底需不需要学聚合",两者构成互补的实证证据。
  • vs PNA (Corso et al. 2020):PNA 也强调多 reducer 组合 + degree scaler 来提升表达能力,但仍是端到端可训练 GNN;FAF 把同样的"多 reducer"思想推到极致——完全 freeze 聚合层。

评分

  • 新颖性: ⭐⭐⭐⭐ 方法本身极简,但提出的视角(用 KA 解释 + 表格化诊断)和系统性的反例价值很高
  • 实验充分度: ⭐⭐⭐⭐⭐ 14 个标准 benchmark + 多组消融 + SHAP 可解释 + KA 对照,覆盖完整
  • 写作质量: ⭐⭐⭐⭐⭐ 论证逻辑清晰,理论与实验互为支撑,限制承认坦率
  • 价值: ⭐⭐⭐⭐⭐ 对整个 GNN 评估范式构成长期压力,会被广泛引用作为标准 baseline 和 benchmark 设计参考