Can Graph Neural Networks Learn Language with Extremely Weak Text Supervision?¶
会议: ACL 2025
arXiv: 2412.08174
代码: Violet24K/Morpher
领域: 图学习
关键词: 图神经网络, 多模态提示学习, 图文对齐, 少样本学习, 零样本分类
一句话总结¶
本文提出Morpher,一种多模态提示学习范式,在极弱文本监督(仅几个token的标签名)下,通过同时学习图提示和文本提示将预训练GNN嵌入到LLM的语义空间中,实现跨任务、跨领域的图分类迁移以及首个CLIP风格的GNN零样本分类原型。
研究背景与动机¶
研究背景: CLIP通过图文联合预训练构建了高质量的视觉-语言对齐模型,但将此范式扩展到图数据面临重大挑战。图数据天然稀缺,文本监督极弱(标签名仅几个token),任务涉及节点/边/图三个层级,且相同图结构在不同领域可能有截然不同的语义。
现有方法的局限性: (1) 图文联合预训练仅在分子领域和文本属性图上可行,通用图数据上因数据不足而不可行;(2) 现有图提示方法(如GPF)在实际应用中存在交叉连接淹没原始图结构的问题,导致训练不稳定;(3) 仅对单一模态做提示会限制另一模态的调整灵活性。
核心动机: 利用LLM编码器已有的高质量语义空间,通过双模态提示学习在冻结GNN和LLM参数的条件下,将图嵌入对齐到语义空间。
方法详解¶
整体框架¶
Morpher由三个可学习组件构成:图提示 \(\mathbf{P}_\theta^g\)、文本提示 \(\mathbf{P}_\theta^t\) 和跨模态投影器 \(\text{Proj}_\theta\)。GNN和LLM参数完全冻结,仅通过提示和投影器实现对齐。
关键设计¶
1. 改进的图提示设计: 分析了现有图提示(Sun et al., 2023)的根本问题——由于prompt token初始化接近零向量,sigmoid值接近0.5,导致交叉连接过密,prompt图的特征淹没原始图。解决方案:将交叉连接数量约束为不超过原始图边数 \(n_e\),每个节点最多连接 \(\lfloor n_e/a \rfloor\) 个prompt token,并使用余弦相似度替代sigmoid计算连接权重。
2. 跨模态投影器: 使用tanh激活的线性层将图嵌入空间映射到文本嵌入空间: $\(\widetilde{\mathbf{v}} = \text{Proj}_\theta(\mathbf{v}) := \tanh(\mathbf{W}\mathbf{v} + \mathbf{b}) \in \mathbb{R}^{1 \times d_t}\)$
3. 文本嵌入归一化: 考虑到少量标签文本可能语义接近,先减去均值 \(\mu\) 再L2归一化,分离语义相近的类别嵌入。
损失函数¶
采用batch内对比损失进行图-文对齐训练:
推理时通过计算图嵌入与各类别文本嵌入的余弦相似度进行分类。
实验¶
主实验结果(Few-shot图分类)¶
| 训练方式 | GNN预训练 | MUTAG | ENZYMES | PROTEINS | MSRC_21C |
|---|---|---|---|---|---|
| Supervised | N/A+GCN | 66.00 | 16.67 | 65.89 | 38.85 |
| Pre-train+FT | GraphCL+GCN | 70.00 | 17.91 | 65.89 | 40.00 |
| Graph Prompt | GPF+GCN | 64.67 | 17.02 | 63.50 | 43.46 |
| Morpher | GCN+LLaMA | 75.33 | 22.39 | 68.32 | 50.86 |
消融实验¶
| 组件 | 效果 |
|---|---|
| 无图提示改进 | 训练不稳定,部分数据集无法收敛 |
| 无文本提示 | 性能下降2-5%,单模态调整灵活性不足 |
| 无跨模态投影器 | 维度不匹配无法训练 |
| 原始GPF图提示 | 交叉连接过密导致性能退化 |
关键发现¶
- 极弱监督有效: 仅用类名(几个token)作为文本监督,Morpher即可显著提升GNN分类性能
- 跨领域迁移: 在分子→社交网络等跨领域设置下,Morpher仍保持竞争力
- 零样本原型: 首次在GNN上实现CLIP风格的零样本分类——将图嵌入投射到文本空间后,可直接用未见过的类名进行分类
- 图提示问题诊断: 揭示了现有图提示中交叉连接淹没原始图信息的根本原因,并提出了有效的修复方案
亮点¶
- 首个在极弱文本监督下的图-文多模态提示学习框架,GNN和LLM参数完全冻结
- 深入分析并修复了现有图提示设计中交叉连接过密的核心缺陷
- 实现了首个GNN的CLIP风格零样本分类原型,展示了图模型语言理解的可能性
- 在少样本、多任务和跨领域三种设置下均表现优异
局限性¶
- 依赖预训练GNN和LLM的质量,两者的预训练领域偏差可能影响结果
- 跨模态投影器仅使用简单的线性层+tanh,表达能力有限
- 零样本分类仅在有限场景下验证,泛化能力有待进一步评估
- 实验主要在中小规模图数据集上进行,未在大规模工业级图上验证
相关工作¶
- CLIP与视觉-语言对齐: Radford et al. (2021)的CLIP框架是本文灵感来源
- 图提示学习: GPF (Sun et al., 2023) 首创图提示概念,本文发现并修复了其设计缺陷
- 图自监督预训练: GraphCL (You et al., 2020), GCC (Qiu et al., 2020) 等提供预训练GNN
- 多模态提示学习: CoCoOp (Zhou et al., 2022), MaPLe (Khattak et al., 2023) 在视觉-语言中使用双模态提示
评分¶
| 维度 | 分数 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐⭐ |
| 实验充分性 | ⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 实用价值 | ⭐⭐⭐⭐ |
| 总评 | 7.5/10 |