跳转至

One Prompt Fits All: Universal Graph Adaptation for Pretrained Models

会议: NeurIPS 2025
arXiv: 2509.22416
代码: GitHub
领域: LLM预训练
关键词: graph prompt learning, pretrained GNN, few-shot, graph topology, kNN graph

一句话总结

理论证明表示级图提示(representation-level prompt)本质等价于线性探针,据此提出 UniPrompt——基于可学习 kNN 拓扑提示图的输入级方法,通过 bootstrapping 策略融合提示图和原图,在同域和跨域 few-shot 节点分类中一致超越现有图提示学习方法。

研究背景与动机

领域现状:Graph Prompt Learning (GPL) 是图预训练模型适配下游任务的新范式——冻结预训练图编码器参数,仅训练轻量提示模块。现有 GPL 方法按提示位置分三类:输入级(特征/边提示)、层级(每层注入提示)、表示级(在编码器输出上加提示 token/原型子图)。

现有痛点: - 机制不清:不同位置的提示为何有效?各类方法表现差异大但缺乏统一理解 - 适配性差:多数 GPL 方法换预训练模型后性能大幅下降,甚至不如简单的线性探针(只微调分类头)。在跨域场景(如同配图→异配图)性能尤其差

核心矛盾:GPL 方法声称比微调更好地保留预训练知识,但实验显示很多 GPL 的真正贡献可能只是在做分类头适配,并没有真正"释放"预训练模型的能力。

本文目标 (1) 理清不同类型图提示的底层机制;(2) 提出一种通用 GPL 方法,在任意预训练模型上都能稳定工作,包括跨域和异配图场景。

切入角度:通过理论分析证明表示级提示等价于线性探针,进而提出"提示应聚焦释放预训练模型能力(输入级),分类头负责适配下游任务"的设计原则。

核心 idea:用可学习的 kNN 拓扑提示图修改输入图结构来释放冻结预训练模型的能力,同时用线性分类头适配下游任务。

方法详解

整体框架

给定冻结的预训练图编码器 \(f_\theta\) 和下游 few-shot 任务,UniPrompt:(1) 基于节点特征余弦相似度构建 kNN 图作为初始拓扑提示;(2) 为每条边学习门控权重;(3) 通过 bootstrapping 渐进融合提示图和原始图;(4) 将融合后的图送入冻结编码器获取表示,再经可训练分类头预测。仅优化提示边权重和分类头参数。

关键设计

  1. Theorem 4.1:表示级提示等价于线性探针

    • 功能:证明在表示空间操作的提示本质上就是在训练一个分类器
    • 核心结论:对任意线性提示 \(T(\mathbf{h}) = \mathbf{W}_T\mathbf{h} + \mathbf{b}_T\) 和分类器 \(C(\mathbf{h}) = \mathbf{W}_C^\top\mathbf{h}\),其组合 \(C \circ T\) 在函数空间和优化目标上都等价于一个线性分类器 \(C'\)
    • 设计动机:解释了为何表示级 GPL 方法换预训练模型后性能不稳定——它们本质上没有利用提示的独特优势,只是在做分类头训练
  2. kNN 拓扑提示初始化

    • 功能:构建基于特征相似度的初始提示图
    • 核心思路:\((\tilde{\mathbf{A}}_{\text{init}})_{ij} = \mathbf{S}_{ij}\) if \(\mathbf{S}_{ij} \in \text{top-}k\{\mathbf{S}_{i\cdot}\}\),其中 \(\mathbf{S}_{ij} = \frac{\mathbf{x}_i\mathbf{x}_j^\top}{\|\mathbf{x}_i\|_2\|\mathbf{x}_j\|_2}\)
    • 设计动机:kNN 图基于特征空间的局部结构,不依赖原始图拓扑,因此在异配图(原始边连接不同类节点)上也能提供有意义的初始化
  3. 可学习边门控

    • 功能:为每条初始提示边学习重要性权重
    • 核心思路:\(\tilde{\mathbf{A}}_{ij} = \text{ELU}(w_{ij} \cdot \alpha - \alpha) + 1\),使用 scaled-shifted ELU 确保非负权重,可以学会剪枝(权重→0)或放大某些边
    • 设计动机:kNN 初始化不一定完美,通过学习让提示图自适应地调整拓扑
  4. Bootstrapped 渐进融合

    • 功能:渐进地将提示图融入原始图
    • 核心思路:\(\hat{\mathbf{A}}^{(t)} = \tau\hat{\mathbf{A}}^{(t-1)} + (1-\tau)\tilde{\mathbf{A}}\),温度系数 \(\tau \in [0,1]\) 控制融合速度,\(\hat{\mathbf{A}}^{(0)} = \mathbf{A}\)
    • 设计动机:直接替换原始图容易导致 few-shot 下过拟合和模型崩塌,渐进融合保留原始图信息的同时引入提示拓扑

损失函数 / 训练策略

  • 标准交叉熵损失:\(\min_{\phi,\Psi} \frac{1}{|\mathcal{V}_L|}\sum_{v_i \in \mathcal{V}_L} \ell_D(g_\phi(f_\theta(p_\Psi(\mathbf{A}, \mathbf{X}))_i), y_i)\)
  • 仅优化提示参数 \(\Psi\)(边权重)和分类头 \(\phi\),预训练编码器 \(\theta\) 完全冻结

实验关键数据

主实验

1-shot 节点分类(DGI 预训练):

方法 Cora Cornell Texas Wisconsin Actor
Linear-probe 49.77 34.56 36.21 28.71 21.33
GPPT 37.59 29.01 31.26 28.56 19.81
GraphPrompt 49.70 22.29 27.62 22.62 19.84
GPF 51.68 26.76 34.04 26.59 20.31
UniPrompt ~52 ~38 ~40 ~36 ~22

消融实验

配置 说明
只用分类头(线性探针) 表现稳定但无法利用提示优势
只用提示(无分类头适配) 异配图上效果差
全模型(提示+分类头) 最佳,验证了两者互补
去掉 bootstrapping(直接替换) few-shot 下过拟合严重
不同 \(k\) 值和 \(\tau\) \(k\)=5-10、\(\tau\)=0.5-0.8 通常最优

关键发现

  • 表示级 GPL(GPPT, GraphPrompt)换预训练模型后性能波动大,有时甚至不如线性探针——验证了 Theorem 4.1
  • 异配图上提升最显著:Cornell/Texas/Wisconsin 上 UniPrompt 超越现有 GPL 方法 5-10 个百分点,因为 kNN 拓扑提示不依赖原始边(可能是噪声边)
  • 跨域场景有效:从一个域预训练迁移到不同域的下游任务,UniPrompt 仍然表现稳定
  • Simple baseline 很强:线性探针已经能在很多场景下匹配甚至超过复杂 GPL 方法

亮点与洞察

  • "表示级提示=线性探针"的理论发现 对整个 GPL 领域有重要意义:它解释了为什么很多 GPL 方法看似有效实则只是在做简单的分类头训练。这迫使领域重新思考提示的设计目标
  • 设计原则清晰:"提示释放预训练能力,分类头适配下游"——将两个本质不同的目标分开处理,避免混淆。这个原则可以迁移到其他 prompt learning 场景(如 VLM)
  • kNN 拓扑提示对异配图的处理 是一个巧妙的 insight:异配图的原始边不可靠,但特征空间的 kNN 关系仍然有意义

局限与展望

  • 仅验证了节点分类:图分类、边预测等其他图任务未涉及
  • kNN 计算在大图上开销大\(O(N^2)\) 的相似度计算在大规模图上不实际
  • 理论分析限于线性提示/分类器:非线性提示(如 GNN 提示模块)的等价性关系未分析
  • 改进方向:近似 kNN 加速;扩展到图分类和链接预测;分析非线性提示的理论性质

相关工作与启发

  • vs GPPT: 表示级提示,理论上等价于线性探针,且换预训练模型后不稳定
  • vs GPF/GPF+: 特征级输入提示,同属输入级但只改特征不改拓扑
  • vs EdgePrompt: 也是边级提示,但用固定策略而非可学习 kNN + bootstrapping
  • vs Linear probe: UniPrompt 在异配图上显著优于线性探针,证明输入级提示的额外价值

评分

  • 新颖性: ⭐⭐⭐⭐ 理论分析(表示级提示=线性探针)有新意,方法设计(kNN拓扑提示+bootstrapping)较自然
  • 实验充分度: ⭐⭐⭐⭐ 9个数据集×3个预训练模型,同域+跨域,消融充分
  • 写作质量: ⭐⭐⭐⭐ 动机实验→理论分析→方法设计的链条清晰
  • 价值: ⭐⭐⭐⭐ 为图提示学习提供了统一理论视角和实用方法