Message Tuning Outshines Graph Prompt Tuning: A Prismatic Space Perspective¶

会议: ICML 2026
arXiv: 2606.03290
代码: https://github.com/CYCUCAS/MTG
领域: 图学习 / 图基础模型适配
关键词: 图基础模型, 图提示微调, 棱镜空间理论, 消息微调, 几何测度论

一句话总结¶

本文提出 Prismatic Space Theory (PS-Theory)，把冻结 GNN 基础模型视为对输入流形做"棱镜式"折射的逐层分段线性映射，由此严格证明图提示微调 (graph prompt tuning) 的适配能力存在上界；进一步提出 Message Tuning (MTG)，在每层注入可学习的"消息原型"并与原生消息做动态融合，理论上可突破该上界，实验在 15 个数据集 / 6 种预训练策略上全面优于现有图提示方法。

研究背景与动机¶

领域现状：图基础模型 (Graph Foundation Models, GFMs) 普遍走"自监督预训练 + 下游适配"路线。GNN backbone（MPNN 或 Graph Transformer）在大规模图数据上预训练，到下游任务时常用三类适配方式：全参微调、graph prompt tuning（在输入空间插入可学习 token 或子图），以及更激进的结构调整。其中 graph prompt tuning 由于只更新少量参数、可缓解 few-shot 下的负迁移，成为目前最主流的适配范式。

现有痛点：虽然 GPF、All-in-One、Gprompt 等图提示方法在实验上表现不错，已有工作（Wang et al., 2025a）也从"输入数据等价变换"的角度解释了它为什么 work，但没有人能严格刻画图提示微调的能力上限：到底它最多能把冻结模型的输出空间"撑开"多大？是不是无论如何调 prompt 都会被某个理论上界卡住？这个问题不回答清楚，就既无法判断现有方法离上限还有多远，也无从设计能突破该上限的新方法。

核心矛盾：图提示微调本质上只在输入层做加性扰动 \(\bm{X}_\omega = \tilde{\bm{X}} + \bm{c}\bm{p}^\top\)，而冻结的 GFM 是一个复合的逐层非线性收缩映射——每层 ReLU 都会把输入流形中的部分维度"折叠"或"投影"掉。这意味着 prompt 的影响必然被层层 Jacobian 的奇异值乘积压缩，存在一个由 backbone 几何结构决定的"刚性"上界。

本文目标：(1) 建立一个能定量刻画任意适配方法"适配能力"的数学框架；(2) 用该框架严格导出 graph prompt tuning 的能力上界；(3) 基于上界揭示的瓶颈，设计一个能突破上界的轻量适配方法。

切入角度：从几何测度论的视角，把每层 GFM 看作把输入流形折射、压缩到低维棱镜空间的分段线性映射。这样适配能力就转化为"被适配后输出流形的内蕴维度、Hausdorff 测度和直径"三个几何量。

核心 idea：既然 prompt 只能在输入层"撬动"被冻结网络的几何，那不如直接到每层 backbone 内部去注入可学习参数，对消息融合过程本身做扰动——这正是 MTG 的出发点。

方法详解¶

整体框架¶

本文要解决的核心问题是：图提示微调（graph prompt tuning）的适配能力到底有没有天花板，以及怎样设计一个能突破它的轻量方法。作者先用几何测度论建立 PS-Theory，把冻结的 \(L\) 层 GFM \(\Phi=F^{(L)}\circ\cdots\circ F^{(1)}\) 看作对输入流形逐层折射、压缩的棱镜，从而严格导出 graph prompt tuning 的能力上界；再据此提出 MTG，把可学习参数从输入层挪进每一层的消息传递过程，理论上突破该上界。整套方法只在每层注入少量原型参数，backbone 始终冻结，且对 GCN、GAT、GIN、Graph Transformer 等不同骨架都适用。

关键设计¶

1. PS-Theory：把 GFM 看作棱镜，刻画 graph prompt tuning 的能力上界

要回答"prompt 能不能突破上界"，必须先把"上界是什么"用数学说清楚。PS-Theory 的做法是把每层 \(F^{(\ell)}\) 抽象成连续分段线性映射（命题 3.3、3.4），于是输入流形 \(\mathcal{M}_0\) 被层层 Jacobian 折射到逐层下降的"棱镜空间" \(\mathcal{M}^{(\ell)}=F^{(\ell)}\circ\cdots\circ F^{(1)}(\mathcal{M}_0)\)（定义 3.6）。对每层 Jacobian 做 SVD 提取奇异值 \(\sigma_i^{(\ell)}\)，定理 3.9 给出局部 Hausdorff 测度的收缩因子 \(\mathcal{H}^s(F^{(\ell)}(\mathbb{S}))=(\prod_{i=1}^s \sigma_i^{(\ell)})\mathcal{H}^s(\mathbb{S})\)，也就是说每过一层，流形测度就被该层奇异值乘积压缩一次。

这一刻画把"输入空间扰动的所有形式"统一成"对输入流形的几何加性变形"，于是 prompt 的能力问题就转化成几何收缩问题。最终定理 3.15 证明：对任意 prompt \(\bm{P}\)，被适配输出流形的测度都被冻结骨架决定的奇异值乘积牢牢卡住，

\[\mathcal{H}^{d_{\text{int}}}(\mathcal{M}^{(L)}(\bm{P})) \le \Big(\sup_k \prod_{\ell=1}^L \prod_{i=1}^{d_{\text{int}}}\sigma_{i,k}^{(\ell)}\Big)\cdot \mathcal{H}^{d_{\text{int}}}(\mathcal{M}_0(\bm{P}))\]

无论怎么调 prompt，都撑不破这个由 backbone 几何"刚性"决定的天花板——这正是 graph prompt tuning 只在输入层做加性扰动的代价。

2. 可学习消息原型 + 动态消息融合：MTG 的核心机制

既然 PS-Theory 揭示"只在输入层撬动"必被上界卡死，突破口就是直接到每层 backbone 内部去注入可学习参数。MTG 对每层 \(\ell\) 注入 \(m\) 个消息原型 \(\bm{M}^{(\ell)}\in\mathbb{R}^{m\times d_{\ell-1}}\)，用一次线性投影加行向 Softmax 算出每个节点对各原型的注意力，再加性融合回原表示：

\[\mathfrak{F}^{(\ell)}(\bm{H}^{(\ell-1)},\bm{M}^{(\ell)}) = \bm{H}^{(\ell-1)} + \text{Softmax}(\bm{H}^{(\ell-1)}\bm{W}_p^{(\ell)})\cdot \bm{M}^{(\ell)}\]

融合后的 \(\bm{H}_{\bm{M}}^{(\ell-1)}\) 再喂回原层的"注意力算子 \(\mathfrak{A}\) + 消息融合算子 \(\mathfrak{M}\) + 更新算子 \(\mathfrak{U}\)"三元组（公式 (15)），等价于按当前样本把该层的输入动态重塑了一遍。可学习参数只有 \(\{\bm{M}^{(\ell)}, \bm{W}_p^{(\ell)}\}\)，规模远小于 backbone。

这套机制借了 prefix-tuning"逐层加可学习参数"的思路，但作者强调它不是把 NLP 方案直接搬到 GNN：prefix 是为 Transformer 序列预置的静态外部 token，而 MTG 的融合是逐节点、逐样本动态的，且只用线性投影以保证效率，因此能适配任意 GNN 骨架而非依赖序列结构。

3. 理论证明 MTG 严格超越 graph prompt 上界

PS-Theory 不止是分析工具，也是检验新方法是否真有效的设计指南：一个想突破 prompt 上界的方法，必须在 Jacobian 里真正多出"非压缩"的几何自由度。MTG 恰好满足——它在每层引入新的可学习方向，把每层奇异值乘积的上确界 \(\sup_k \prod_\ell \prod_i \sigma_{i,k}^{(\ell)}\) 撑大，同时让网络的线性区域划分（定义 3.11）更细。

由此定理 4.1 证明：MTG 最终表示空间在内蕴维度、Hausdorff 测度、直径三个几何量上同时不小于 graph prompt tuning 在任意 \(\bm{P}\) 下能达到的水平，且存在配置使其严格更大，例如内蕴维度满足 \(d_{\text{int}}(\mathcal{M}^{(L)}_{\text{MTG}})\ge d_{\text{int}}(\mathcal{M}^{(L)}_{\text{PT}}(\bm{P}))\)。这把 MTG 的优越性从经验观察提升为可证明的结论。

损失函数 / 训练策略¶

Backbone 完全冻结，仅训练 \(\{\bm{M}^{(\ell)}, \bm{W}_p^{(\ell)}\}_{\ell=1}^L\)。下游任务沿用 ProG 基准（Zi et al., 2024）的 few-shot 节点 / 图分类损失，采样重复 5 次取均值与标准差，超参随机搜索。

实验关键数据¶

主实验¶

基于 ProG 基准，覆盖 15 个数据集（7 个节点分类 + 8 个图分类，含同质 / 异质 / 大规模图，及生物、分子、社交三大领域），6 种预训练策略（DGI、GraphMAE、EdgePreGPPT、EdgePreGprompt、GraphCL、SimGRACE），与监督学习、全参微调、GPPT、Gprompt、All-in-One、GPF、GPF-plus 对比。

任务 / 数据集（示例）	shot	MTG	次优方法	结论
Cora 节点分类	5-shot	最优	Gprompt 69.03	MTG 取胜
Citeseer 节点分类	5-shot	最优	Gprompt 66.13	MTG 取胜
Wisconsin 节点分类	3-shot	最优	Gprompt 92.52	异质图领先
ogbn-arxiv 大图	5-shot	最优	Gprompt 量级最近	大规模可扩展
8 个图分类数据集	1/3/5-shot	最优	All-in-One	All-in-One 次优

注：原表横向覆盖 1/3/5-shot 三档共 21 列，本表压缩为代表性场景；论文报告 MTG 在全部 15 个数据集上拿到 best，参数效率显著高于监督和全参微调（节点级最接近的是 GPF-plus，图级最接近的是 All-in-One）。

消融实验¶

配置 / 视角	关键指标	说明
Full MTG	15/15 best	完整方法
替换 backbone（GCN→GraphSAGE/GAT/GIN/GT）	仍领先	验证 MTG 与 backbone 无关，附录 F.2
不同预训练策略（6 种）	一致缓解负迁移	回答 Q3：负迁移定义为劣于监督基线，MTG 在所有策略下均优于该基线
原型数 \(m\) 敏感性	平缓	附录 F.4，对超参不敏感
计算效率（时间 / 显存）	接近 GPF	附录 F.3，几乎不增加额外开销

关键发现¶

MTG 在 15/15 数据集上取得 best，且贡献来源是"每层都能扰动"——这正对应 PS-Theory 中每层多出的奇异值自由度，实验与理论闭环吻合。
few-shot 下 MTG 全面优于全参微调，验证"少参数 + 适配 backbone 几何"比"全参数但破坏预训练几何"更稳。
即便换到 Graph Transformer 等差异极大的 backbone，MTG 仍领先，说明"消息原型 + 动态融合"是 backbone 无关的通用机制，而非依赖 GCN 的局部聚合假设。

亮点与洞察¶

把 GFM 比作棱镜的几何隐喻非常贴切：ReLU 的 Jacobian 在可微点是 0/1 对角的幂等矩阵（推论 3.10），等价于局部投影，正是"折射 + 折叠"的数学形式化。这一图像让"为什么 prompt 永远撑不破上界"变得直观。
从"分析工具"到"设计指南"：PS-Theory 不止刻画了 graph prompt 的上界，还给出了"想突破上界就必须在每层引入新的几何自由度"的必要条件，把方法设计从启发式推进到几何驱动。
MTG 的工程极简：每层只多 \(\bm{M}^{(\ell)}\in\mathbb{R}^{m\times d_{\ell-1}}\) 和 \(\bm{W}_p^{(\ell)}\in\mathbb{R}^{d_{\ell-1}\times m}\)，融合公式 (17) 一行写完，却能 backbone 无关；这种"理论指导下的最小动作"很值得 NLP / 多模态 PEFT 方法借鉴。
prefix-tuning 类比有边界：作者明确指出 MTG ≠ prefix-tuning 直接搬运，因为 MTG 修改的是"消息传递的核心算子"，而 prefix 只静态预置外部上下文。这种"概念近似但机制不同"的辨析能避免后续工作误判 baseline。

局限与展望¶

PS-Theory 的若干上界（如定理 3.13）需要假设映射在线性区分割上单射，否则只能给出上界估计；现实中 GFM 的 ReLU 折叠经常违反单射，意味着实际差距可能比理论更紧。
实验全部在 few-shot 分类上，且数据规模偏小（最大 ogbn-arxiv）；MTG 在 full-shot、链路预测、生成式下游任务中的优势是否依然成立，论文未展示。
引入 \(L\cdot m\cdot d_{\ell-1}\) 量级新参数，虽然总量小，但对极深 GFM 仍线性增长；对资源极受限场景，是否每层都需要原型（能否选择性插入）值得后续研究。
PS-Theory 当前仅刻画 backbone 的几何收缩，对下游任务损失景观和优化动力学没有结论；"几何能力强 = 实际能学到"是经验性的，理论闭环并未完成。

评分¶

新颖性: ⭐⭐⭐⭐⭐ PS-Theory 把几何测度论引入图基础模型适配分析，理论框架原创且自洽。
实验充分度: ⭐⭐⭐⭐ 15 数据集 × 6 预训练策略 × 多 backbone 覆盖面广，但缺少 full-shot / 生成式任务。
写作质量: ⭐⭐⭐⭐ 理论部分推导链条清晰，配 Prism 隐喻易读；正文受限于篇幅大量推到附录，独立阅读略吃力。
价值: ⭐⭐⭐⭐⭐ 既给出图提示微调能力的理论天花板，又提供突破天花板的简洁方法，对 GFM 适配范式有方向性指导意义。