ICLR 2026 图学习 Prior-Fitted Networks 节点分类合成图先验上下文学习后验预测分布图基础模型

Learning Posterior Predictive Distributions for Node Classification from Synthetic Graph Priors¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=FmxRzlu0rT
代码: https://github.com/jeongwhanchoi/NodePFN
领域: 图学习 / 图基础模型 / 节点分类
关键词: Prior-Fitted Networks, 节点分类, 合成图先验, 上下文学习, 后验预测分布, 图基础模型

一句话总结¶

把表格领域的 Prior-Fitted Network（PFN）范式搬到图上，只在数千张由可控先验生成的合成图上预训练一个模型 NodePFN，就能对任意真实图做免训练、单次前向的通用节点分类，在 23 个 benchmark 上拿到 71.27% 平均准确率。

研究背景与动机¶

领域现状：GNN（GCN/GAT/GraphSAGE）在节点分类上很强，但它有个写死的工作方式——每来一张新图就得用这张图的标注节点重新训练一个模型。

现有痛点：真实世界的图差异极大——同配性（homophily）水平、社区结构、特征分布、度分布各不相同。一个在 Cora 上训得很好的 GNN 换到异配图 Wisconsin 上就崩，根本谈不上"一个模型通吃"。近期把 LLM 搬到图上的工作（GraphGPT、OFA 等）依赖文本属性，擅长语义而非拓扑结构；GraphAny 虽是 inductive 框架，但仍需在特定源数据集上训练，性能强烈依赖训练集的选择。

核心矛盾：LLM 靠"海量多样数据预训练 → 上下文学习"实现了免微调泛化，可图领域既没有这样的海量统一语料，又被结构异质性卡住，迟迟没有真正"一次预训练、处处可用"的节点分类基础模型。

本文目标：训练单个预训练模型，对任意图免训练、单前向地预测查询节点标签，且对同配/异配图都稳。

核心 idea：[合成先验替代真实数据] 借鉴 TabPFN——既然 PFN 能在精心设计的合成先验上学到逼近后验预测分布（PPD）的能力，那就为图设计一套可控合成先验（控同配度、社区结构、特征-标签关系），让模型在这些合成图上学会"从标注上下文节点抽取规律并应用到查询节点"，从而把节点分类的普适规律从合成数据里学出来，而非依赖任何真实训练图。

方法详解¶

整体框架¶

NodePFN 把节点分类重写为"在线学 PPD"问题：训练时从先验 \(p(\mathcal{G})\) 采样合成图，把节点划成上下文集 \(\mathcal{D}_{train}\)（带标签）和查询集 \(\mathcal{D}_{test}\)（不带标签），学一个 \(f_\theta:(x_{test},\mathcal{D}_{train},\mathcal{G})\mapsto p(y_{test}\mid \mathcal{D}_{train},\mathcal{G})\)，用交叉熵逼近真实 PPD；推理时直接把真实图的"标注节点当上下文、未标注节点当查询"喂进去，一次前向出预测，无需任何梯度更新。整条管线由两块拼成：合成图先验生成器（造训练数据）+ 双分支层（注意力做上下文学习 + MPNN 做局部拓扑）。

flowchart LR
    A[合成先验<br/>cSBM/ER + SCM造特征标签] --> B[采样数千张<br/>可控同配度合成图]
    B --> C[NodePFN ×L 层]
    subgraph C[每层双分支]
        D[Context-Query<br/>Attention 分支] 
        E[Local MPNN<br/>GCN 分支]
    end
    C --> F[残差+LayerNorm融合]
    F --> G[softmax 输出 PPD]
    H[真实图<br/>标注=上下文/未标注=查询] -.单次前向.-> C

关键设计¶

1. 合成图先验：用因果模型造特征-标签、用随机图模型造结构　训练数据完全由先验合成，这是整套方法成立的根基。特征与标签由结构因果模型（SCM）生成——为每张图采样一个随机 MLP 并随机剪边变成 DAG，让高斯噪声穿过网络，中间层输出当节点特征 \(X\)、后层输出当标签 \(y\)，从而制造复杂非线性的特征-标签依赖。结构侧用两种随机图：cSBM 通过类内/类间连边概率 \(p_{in},p_{out}\) 控制社区与同配度 \(h=p_{in}/(p_{in}+p_{out})\)，作者把 \(h\) 从 0.1 扫到 0.9，覆盖强同配到强异配；ER 图则提供无社区结构的"非结构化基线"，逼模型学到社区模式之外的规律。关键巧思是：对 cSBM，SCM 生成的标签反过来决定社区归属，社区再经 \(h\) 控制连边——特征、标签、结构因此被串成一条因果链，而非各自独立采样。

2. 双分支层：注意力学上下文 + MPNN 学拓扑　每层并行跑两条互补支路。注意力支路沿用 PFN 的非对称设计：上下文节点 \(H_{train}\) 初始表征里同时编码特征和标签，查询节点 \(H_{test}\) 只编码特征；训练节点之间做自注意力建立标签分布的整体认识 \(H^{(\ell+1,attn)}_{train}=\mathrm{SelfAttention}(H^{(\ell)}_{train})\)，查询节点则对训练节点做交叉注意力 \(H^{(\ell+1,attn)}_{test}=\mathrm{CrossAttention}(H^{(\ell)}_{test},H^{(\ell)}_{train},H^{(\ell)}_{train})\)——这种不对称保证查询节点能借用训练信息，又互不干扰彼此预测。MPNN 支路则用 GCN 在对称归一化邻接 \(\tilde A=D^{-1/2}AD^{-1/2}\) 上聚合邻域 \(H^{(\ell+1,mpnn)}=\mathrm{MPNN}(H^{(\ell)},\tilde A)\)，专门抓与 train/test 划分无关的局部拓扑。两支路与输入经残差融合 \(H^{(\ell+1)}=\mathrm{LayerNorm}(H^{(\ell)}+H^{(\ell+1,attn)}+H^{(\ell+1,mpnn)})\)，让模型同时从标注样本和图结构两条线学习。

3. 训练即逼近 PPD、推理即单次前向　训练目标是在合成先验上最小化查询节点的期望交叉熵 \(\mathcal{L}(\theta)=\mathbb{E}_{D\sim p(D)}[-\frac{1}{|V_{test}|}\sum_{v\in V_{test}}\sum_c y_{v,c}\log f_\theta(y_{v,c}\mid x_v,\mathcal{D}_{train},\mathcal{G})]\)，每张合成图随机重划上下文/查询，使模型学到的不是某张图的规律而是"如何从上下文学规律"。推理时对真实图先做轻量预处理，过 \(L\) 层后用 \(f_\theta(y_v\mid\cdots)=\mathrm{softmax}(W_{out}h_v^{(L)})\) 直接出每个查询节点的标签分布——因为训练阶段已逼近真实 PPD，这个输出自带校准的不确定性估计，且全程零梯度更新。作者一共预训练在约 25 万张合成图上，这笔计算开销被后续所有推理任务摊销（amortized），换来对新图的零成本泛化。

实验关键数据¶

主实验表格（23 个真实 benchmark，准确率 / 平均排名）¶

类型	MLP	GCN	GAT	GraphAny(Cora)	GraphAny(Wisc.)	NodePFN
同配图平均Acc	56.43	73.05	74.39	71.45	70.86	77.39
同配图平均Rank	7.62	4.92	4.54	4.15	4.31	1.69
异配图平均Acc	58.17	58.84	59.11	60.56	61.62	65.14
异配图平均Rank	7.20	6.80	6.60	4.60	4.50	1.70
总体平均Acc	57.30	66.63	67.67	66.00	66.24	71.27
总体平均Rank	7.41	5.86	5.57	4.38	4.40	1.70

单个预训练 NodePFN 在同配/异配两类图上都拿第一，平均排名 1.70；GraphAny 需逐数据集训练且对训练集选择敏感（Cora 版强在同配、弱在异配），NodePFN 则两类都稳。

训练免训练方法对比 + 消融实验表格¶

Training-free	Cora	Pubmed	Wisconsin	Texas
SGC	78.20	72.98	57.64	46.03
LabelProp	60.30	63.44	16.08	23.53
NodePFN	82.06	78.00	81.18	76.22

消融	Cora	Wisconsin	Tolokers
w/o ER	81.26	78.82	77.30
w/o cSBM	80.62	80.39	77.18
TabPFN（去掉图先验+MPNN）	53.10	72.94	78.18
NodePFN-L6（29.01M→14.80M）	53.10	72.94	78.00
NodePFN-Seq（串行而非并行）	80.64	78.82	77.88
NodePFN（完整）	82.06	81.18	78.61

关键发现¶

合成 Cora 上同配度全扫描：MLP 全程平稳、GCN/GAT 在低同配区暴跌，NodePFN 全程最优且无骤降，证明合成先验赋予了对同配/异配的稳健性。
退化为 TabPFN 即崩：去掉图先验和 MPNN 后 NodePFN 退化成 TabPFN，准确率均值从 71.2% 掉到 55.5% 且方差更大——验证"图感知建模"相对"把节点当独立表格行"的必要性。
先验冗余但互补：去掉 ER 或 cSBM 单项性能仅轻微下降，说明两种先验对不同图特性各有适配、删一个另一个能兜底；但容量不能省，L6 减半参数在强同配 Cora 上大跌。
结构角色分类：在仅靠拓扑（特征为 one-hot ID）的 Airport 数据上，NodePFN 超过 Node2Vec/LINE 等结构嵌入专门方法，说明它真学到了可迁移的结构模式。

亮点与洞察¶

范式迁移干净利落：把"合成先验 + 单前向逼近 PPD"的 TabPFN 思路完整搬到图，是已知第一个把 PFN 范式扩到图的工作，且不依赖任何 LLM 或文本属性，对任意数值特征都work。
先验设计是真正的护城河：把 SCM（造特征-标签因果链）和 cSBM（造可控同配度结构）串成因果链而非独立采样，是模型能覆盖真实图多样性的关键，比单纯堆数据更聪明。
双分支各司其职：非对称注意力负责"从上下文学"、GCN 负责"读局部拓扑"，二者残差融合，把上下文学习和图结构两件事解耦又合流。
摊销视角说服力强：25 万张合成图的预训练开销一次性付清，之后对所有新图零成本，把"通用 vs 专用"的成本账算清楚了。

局限与展望¶

类别数和特征维写死：当前固定最大类别数（实测到 20 类）和特征维度，超出范围需重新设计，离真正"任意图"还有距离。
注意力二次复杂度：上下文-查询注意力是 \(O(n^2)\)，大规模图上吃不消，缺少对超大图的扩展方案。
预训练成本高：25 万张合成图的预训练对算力要求不低，复现门槛偏高（虽然作者论证可摊销）。
个别异配数据未夺冠：在 Questions、Amazon-Ratings 等少数异配图上并非最好，先验覆盖仍有盲区。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把 PFN 范式扩到图、用合成先验实现免训练通用节点分类，路线清晰且有概念突破。
实验充分度: ⭐⭐⭐⭐ 23 benchmark + 同配/异配分层 + 训练免训练对比 + 结构角色 + 充分消融（退化为 TabPFN、参数减半、串/并行），覆盖到位；大规模图缺位。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑顺畅，图 1/图 3 清楚交代范式差异和架构，公式与 RQ 组织清晰。
价值: ⭐⭐⭐⭐ 为图基础模型提供了不依赖 LLM/文本的新范式，单模型通吃同配异配，实用与启发兼具；类别/维度写死和复杂度限制了即时落地。