One Prompt Fits All: Universal Graph Adaptation for Pretrained Models¶

会议: NeurIPS 2025
arXiv: 2509.22416
代码: GitHub
领域: LLM预训练
关键词: graph prompt learning, pretrained GNN, few-shot, graph topology, kNN graph

一句话总结¶

理论证明表示级图提示（representation-level prompt）本质等价于线性探针，据此提出 UniPrompt——基于可学习 kNN 拓扑提示图的输入级方法，通过 bootstrapping 策略融合提示图和原图，在同域和跨域 few-shot 节点分类中一致超越现有图提示学习方法。

研究背景与动机¶

领域现状：Graph Prompt Learning (GPL) 是图预训练模型适配下游任务的新范式——冻结预训练图编码器参数，仅训练轻量提示模块。现有 GPL 方法按提示位置分三类：输入级（特征/边提示）、层级（每层注入提示）、表示级（在编码器输出上加提示 token/原型子图）。

现有痛点： - 机制不清：不同位置的提示为何有效？各类方法表现差异大但缺乏统一理解 - 适配性差：多数 GPL 方法换预训练模型后性能大幅下降，甚至不如简单的线性探针（只微调分类头）。在跨域场景（如同配图→异配图）性能尤其差

核心矛盾：GPL 方法声称比微调更好地保留预训练知识，但实验显示很多 GPL 的真正贡献可能只是在做分类头适配，并没有真正"释放"预训练模型的能力。

本文目标 (1) 理清不同类型图提示的底层机制；(2) 提出一种通用 GPL 方法，在任意预训练模型上都能稳定工作，包括跨域和异配图场景。

切入角度：通过理论分析证明表示级提示等价于线性探针，进而提出"提示应聚焦释放预训练模型能力（输入级），分类头负责适配下游任务"的设计原则。

核心 idea：用可学习的 kNN 拓扑提示图修改输入图结构来释放冻结预训练模型的能力，同时用线性分类头适配下游任务。

方法详解¶

整体框架¶

给定冻结的预训练图编码器 \(f_\theta\) 和下游 few-shot 任务，UniPrompt：(1) 基于节点特征余弦相似度构建 kNN 图作为初始拓扑提示；(2) 为每条边学习门控权重；(3) 通过 bootstrapping 渐进融合提示图和原始图；(4) 将融合后的图送入冻结编码器获取表示，再经可训练分类头预测。仅优化提示边权重和分类头参数。

关键设计¶

Theorem 4.1：表示级提示等价于线性探针：
- 功能：证明在表示空间操作的提示本质上就是在训练一个分类器
- 核心结论：对任意线性提示 \(T(\mathbf{h}) = \mathbf{W}_T\mathbf{h} + \mathbf{b}_T\) 和分类器 \(C(\mathbf{h}) = \mathbf{W}_C^\top\mathbf{h}\)，其组合 \(C \circ T\) 在函数空间和优化目标上都等价于一个线性分类器 \(C'\)
- 设计动机：解释了为何表示级 GPL 方法换预训练模型后性能不稳定——它们本质上没有利用提示的独特优势，只是在做分类头训练
kNN 拓扑提示初始化：
- 功能：构建基于特征相似度的初始提示图
- 核心思路：\((\tilde{\mathbf{A}}_{\text{init}})_{ij} = \mathbf{S}_{ij}\) if \(\mathbf{S}_{ij} \in \text{top-}k\{\mathbf{S}_{i\cdot}\}\)，其中 \(\mathbf{S}_{ij} = \frac{\mathbf{x}_i\mathbf{x}_j^\top}{\|\mathbf{x}_i\|_2\|\mathbf{x}_j\|_2}\)
- 设计动机：kNN 图基于特征空间的局部结构，不依赖原始图拓扑，因此在异配图（原始边连接不同类节点）上也能提供有意义的初始化
可学习边门控：
- 功能：为每条初始提示边学习重要性权重
- 核心思路：\(\tilde{\mathbf{A}}_{ij} = \text{ELU}(w_{ij} \cdot \alpha - \alpha) + 1\)，使用 scaled-shifted ELU 确保非负权重，可以学会剪枝（权重→0）或放大某些边
- 设计动机：kNN 初始化不一定完美，通过学习让提示图自适应地调整拓扑
Bootstrapped 渐进融合：
- 功能：渐进地将提示图融入原始图
- 核心思路：\(\hat{\mathbf{A}}^{(t)} = \tau\hat{\mathbf{A}}^{(t-1)} + (1-\tau)\tilde{\mathbf{A}}\)，温度系数 \(\tau \in [0,1]\) 控制融合速度，\(\hat{\mathbf{A}}^{(0)} = \mathbf{A}\)
- 设计动机：直接替换原始图容易导致 few-shot 下过拟合和模型崩塌，渐进融合保留原始图信息的同时引入提示拓扑

损失函数 / 训练策略¶

标准交叉熵损失：\(\min_{\phi,\Psi} \frac{1}{|\mathcal{V}_L|}\sum_{v_i \in \mathcal{V}_L} \ell_D(g_\phi(f_\theta(p_\Psi(\mathbf{A}, \mathbf{X}))_i), y_i)\)
仅优化提示参数 \(\Psi\)（边权重）和分类头 \(\phi\)，预训练编码器 \(\theta\) 完全冻结

实验关键数据¶

主实验¶

1-shot 节点分类（DGI 预训练）：

方法	Cora	Cornell	Texas	Wisconsin	Actor
Linear-probe	49.77	34.56	36.21	28.71	21.33
GPPT	37.59	29.01	31.26	28.56	19.81
GraphPrompt	49.70	22.29	27.62	22.62	19.84
GPF	51.68	26.76	34.04	26.59	20.31
UniPrompt	~52	~38	~40	~36	~22

消融实验¶

配置	说明
只用分类头（线性探针）	表现稳定但无法利用提示优势
只用提示（无分类头适配）	异配图上效果差
全模型（提示+分类头）	最佳，验证了两者互补
去掉 bootstrapping（直接替换）	few-shot 下过拟合严重
不同 \(k\) 值和 \(\tau\) 值	\(k\)=5-10、\(\tau\)=0.5-0.8 通常最优

关键发现¶

表示级 GPL（GPPT, GraphPrompt）换预训练模型后性能波动大，有时甚至不如线性探针——验证了 Theorem 4.1
异配图上提升最显著：Cornell/Texas/Wisconsin 上 UniPrompt 超越现有 GPL 方法 5-10 个百分点，因为 kNN 拓扑提示不依赖原始边（可能是噪声边）
跨域场景有效：从一个域预训练迁移到不同域的下游任务，UniPrompt 仍然表现稳定
Simple baseline 很强：线性探针已经能在很多场景下匹配甚至超过复杂 GPL 方法

亮点与洞察¶

"表示级提示=线性探针"的理论发现 对整个 GPL 领域有重要意义：它解释了为什么很多 GPL 方法看似有效实则只是在做简单的分类头训练。这迫使领域重新思考提示的设计目标
设计原则清晰："提示释放预训练能力，分类头适配下游"——将两个本质不同的目标分开处理，避免混淆。这个原则可以迁移到其他 prompt learning 场景（如 VLM）
kNN 拓扑提示对异配图的处理 是一个巧妙的 insight：异配图的原始边不可靠，但特征空间的 kNN 关系仍然有意义

局限与展望¶

仅验证了节点分类：图分类、边预测等其他图任务未涉及
kNN 计算在大图上开销大：\(O(N^2)\) 的相似度计算在大规模图上不实际
理论分析限于线性提示/分类器：非线性提示（如 GNN 提示模块）的等价性关系未分析
改进方向：近似 kNN 加速；扩展到图分类和链接预测；分析非线性提示的理论性质

评分¶

新颖性: ⭐⭐⭐⭐ 理论分析（表示级提示=线性探针）有新意，方法设计（kNN拓扑提示+bootstrapping）较自然
实验充分度: ⭐⭐⭐⭐ 9个数据集×3个预训练模型，同域+跨域，消融充分
写作质量: ⭐⭐⭐⭐ 动机实验→理论分析→方法设计的链条清晰
价值: ⭐⭐⭐⭐ 为图提示学习提供了统一理论视角和实用方法