Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision?¶

会议: ACL 2025
arXiv: 2412.08174
代码: Violet24K/Morpher
领域: 图学习
关键词: 图神经网络, 多模态提示学习, 图文对齐, 少样本学习, 零样本分类

一句话总结¶

本文提出Morpher，一种多模态提示学习范式，在极弱文本监督（仅几个token的标签名）下，通过同时学习图提示和文本提示将预训练GNN嵌入到LLM的语义空间中，实现跨任务、跨领域的图分类迁移以及首个CLIP风格的GNN零样本分类原型。

研究背景与动机¶

研究背景： CLIP通过图文联合预训练构建了高质量的视觉-语言对齐模型，但将此范式扩展到图数据面临重大挑战。图数据天然稀缺，文本监督极弱（标签名仅几个token），任务涉及节点/边/图三个层级，且相同图结构在不同领域可能有截然不同的语义。

现有方法的局限性： (1) 图文联合预训练仅在分子领域和文本属性图上可行，通用图数据上因数据不足而不可行；(2) 现有图提示方法（如GPF）在实际应用中存在交叉连接淹没原始图结构的问题，导致训练不稳定；(3) 仅对单一模态做提示会限制另一模态的调整灵活性。

核心动机： 利用LLM编码器已有的高质量语义空间，通过双模态提示学习在冻结GNN和LLM参数的条件下，将图嵌入对齐到语义空间。

方法详解¶

整体框架¶

Morpher由三个可学习组件构成：图提示 $\mathbf{P}_\theta^g$、文本提示 $\mathbf{P}_\theta^t$ 和跨模态投影器 $\text{Proj}_\theta$。GNN和LLM参数完全冻结，仅通过提示和投影器实现对齐。

关键设计¶

1. 改进的图提示设计： 分析了现有图提示（Sun et al., 2023）的根本问题——由于prompt token初始化接近零向量，sigmoid值接近0.5，导致交叉连接过密，prompt图的特征淹没原始图。解决方案：将交叉连接数量约束为不超过原始图边数 $n_e$，每个节点最多连接 $\lfloor n_e/a \rfloor$ 个prompt token，并使用余弦相似度替代sigmoid计算连接权重。

2. 跨模态投影器： 使用tanh激活的线性层将图嵌入空间映射到文本嵌入空间： $$\widetilde{\mathbf{v}} = \text{Proj}_\theta(\mathbf{v}) := \tanh(\mathbf{W}\mathbf{v} + \mathbf{b}) \in \mathbb{R}^{1 \times d_t}$$

3. 文本嵌入归一化： 考虑到少量标签文本可能语义接近，先减去均值 $\mu$ 再L2归一化，分离语义相近的类别嵌入。

损失函数¶

采用batch内对比损失进行图-文对齐训练：

\[\mathcal{L}_{G \rightarrow T} = -\frac{1}{B}\sum_{i=1}^{B} \log \frac{\exp(\mathbf{z}_i^{\mathcal{G}} \cdot \mathbf{z}_i^t / \tau)}{\sum_{j=1}^{B} \exp(\mathbf{z}_i^{\mathcal{G}} \cdot \mathbf{z}_j^t / \tau)}\]

推理时通过计算图嵌入与各类别文本嵌入的余弦相似度进行分类。

实验¶

主实验结果（Few-shot图分类）¶

训练方式	GNN预训练	MUTAG	ENZYMES	PROTEINS	MSRC_21C
Supervised	N/A+GCN	66.00	16.67	65.89	38.85
Pre-train+FT	GraphCL+GCN	70.00	17.91	65.89	40.00
Graph Prompt	GPF+GCN	64.67	17.02	63.50	43.46
Morpher	GCN+LLaMA	75.33	22.39	68.32	50.86

消融实验¶

组件	效果
无图提示改进	训练不稳定，部分数据集无法收敛
无文本提示	性能下降2-5%，单模态调整灵活性不足
无跨模态投影器	维度不匹配无法训练
原始GPF图提示	交叉连接过密导致性能退化

关键发现¶

极弱监督有效： 仅用类名（几个token）作为文本监督，Morpher即可显著提升GNN分类性能
跨领域迁移： 在分子→社交网络等跨领域设置下，Morpher仍保持竞争力
零样本原型： 首次在GNN上实现CLIP风格的零样本分类——将图嵌入投射到文本空间后，可直接用未见过的类名进行分类
图提示问题诊断： 揭示了现有图提示中交叉连接淹没原始图信息的根本原因，并提出了有效的修复方案

亮点¶

首个在极弱文本监督下的图-文多模态提示学习框架，GNN和LLM参数完全冻结
深入分析并修复了现有图提示设计中交叉连接过密的核心缺陷
实现了首个GNN的CLIP风格零样本分类原型，展示了图模型语言理解的可能性
在少样本、多任务和跨领域三种设置下均表现优异

局限性¶

依赖预训练GNN和LLM的质量，两者的预训练领域偏差可能影响结果
跨模态投影器仅使用简单的线性层+tanh，表达能力有限
零样本分类仅在有限场景下验证，泛化能力有待进一步评估
实验主要在中小规模图数据集上进行，未在大规模工业级图上验证

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
总评	7.5/10