跳转至

Towards Effective, Stealthy, and Persistent Backdoor Attacks Targeting Graph Foundation Models

会议: AAAI2026
arXiv: 2511.17982
代码: RingBDStack/GFM-BA
领域: AI安全
关键词: backdoor attack, graph foundation model, GNN security, trigger generation, adversarial ML

一句话总结

提出 GFM-BA,首个系统性地针对 Graph Foundation Models (GFMs) 预训练阶段的后门攻击方法,通过 label-free trigger 关联、node-adaptive trigger 生成和 persistent backdoor anchoring 三个模块,同时解决有效性、隐蔽性和持久性三大挑战。

研究背景与动机

GFMs 在多域图数据上预训练后适配下游任务,用户常直接使用开源预训练模型。这创造了后门攻击的现实威胁面:攻击者控制预训练阶段,注入后门后发布模型。

传统 GNN 后门攻击与 GFM 场景的根本差异:

条件 传统 GNN GFM
下游标签可用
同域训练/推理 ✗(跨域)
模型参数不变 ✗(下游 fine-tune)

由此引出三大挑战:

有效性:预训练时无法获知下游标签,如何确保 trigger 导致预期的分类错误?

隐蔽性:不同域的节点特征分布差异大,固定 trigger 易被异常检测发现

持久性:下游 fine-tuning 可能擦除后门行为(backdoor forgetting)

现有方法局限:GCBA 需要下游标签;CrossBA 无法控制目标标签,退化为对抗逃逸攻击。

方法详解

模块1:Label-Free Trigger Association

  • 用预训练 GNN 提取预训练图的节点嵌入,通过 Farthest Point Sampling (FPS) 选取 \(k\) 个 prototype embeddings
  • FPS 的贪心策略确保 prototype 分散覆盖嵌入空间,理论证明(Proposition 1)当类间分离度足够大时,FPS 更可能覆盖多个下游类别
  • 下游注入时,攻击者通过少量试探查询找到对应目标标签的 prototype

模块2:Node-Adaptive Trigger Generator

  • 用 MLP 根据目标节点特征 \(\mathbf{x}_i\) 和目标嵌入 \(\mathbf{e}_j\) 动态生成 trigger 特征:\(\mathbf{x}_{ij}^{tri} = \text{MLP}([\mathbf{x}_i \| \mathbf{e}_j])\)
  • Trigger 设计为 3 节点全连接子图,插入目标节点邻域
  • 双目标优化:\(\mathcal{L}_{eff}\) 确保 triggered 节点嵌入对齐目标 prototype;\(\mathcal{L}_{ste}\) 确保 trigger 特征与目标节点特征相似(保持 graph homophily)
  • 关键:不修改预训练模型参数,利用编码器中已有的 latent backdoor logic

模块3:Persistent Backdoor Anchoring

  • 实验观察:大部分预训练参数在下游 fine-tuning 中变化极小
  • 用 graph mixup 合成跨域图模拟潜在下游分布
  • 基于 model pruning 的重要性估计识别 fine-tuning 敏感参数
  • 对敏感参数施加随机扰动 \(\theta_k \leftarrow \theta_k + \epsilon|\theta_k|\),训练 trigger generator 在扰动下仍保持有效性
  • 持久性损失:\(\mathcal{L}_{per} = \text{Var}(\{\mathcal{L}_{eff}^j\}) + \text{Mean}(\{\mathcal{L}_{eff}^j\})\)

实验关键数据

攻击有效性(ASR %,Target-Controlled 场景)

方法 Cora CiteSeer PubMed Photo Computers
GCBA_M (GCOPE) 4.77 5.98 21.65 3.48 4.62
CrossBA (GCOPE) 14.29 16.67 33.33 9.25 7.98
GFM-BA (GCOPE) 90.40 89.06 100.00 84.53 78.54
CrossBA (SAMGPT) 13.61 16.67 33.33 12.10 9.20
GFM-BA (SAMGPT) 100.00 100.00 100.00 99.80 100.00

Target-Controlled ASR 比最强基线 CrossBA 提升 66-91%

隐蔽性(边净化后 ASR)

GFM-BA 在边净化防御后仍保持高 ASR(GCOPE 上 100%),平均超越基线 36.81%(GCOPE)、19.98%(MDGPT)、36.73%(SAMGPT)。清洁准确率不下降。

持久性(fine-tuning 后 ASR 下降)

方法 Cora Drop Photo Drop Computers Drop
CrossBA (SAMGPT) ↓4.74 ↓9.40 ↓0.60
GFM-BA (SAMGPT) ↓1.34 ↓4.00 ↓1.40
CrossBA (MDGPT) ↓1.36 ↓4.60 ↓2.40
GFM-BA (MDGPT) ↓0.68 ↓0.60 ↓0.80

Fine-tuning 后 ASR 下降极小(多数 <2%),持久性显著优于基线。

亮点

  • Label-free 攻击范式:通过 FPS 选取 prototype embeddings 绕过对下游标签的依赖,是 GFM 后门攻击的关键突破
  • 自适应 trigger 生成:node-adaptive 设计保持 graph homophily,显著提升隐蔽性
  • 无需修改模型参数:利用预训练编码器的 latent logic,清洁准确率不受影响
  • 理论支撑:Proposition 1/2 分别为 FPS 覆盖性和参数不敏感性锚定提供理论基础

局限性

  • 仅验证节点分类任务,图分类/链接预测场景未涉及
  • FPS 的 prototype 覆盖性在类别极不均衡时可能失效
  • 攻击假设需要下游少量试探查询来匹配 prototype 与标签,部分场景下可能不可行
  • 防御评估仅用简单边净化,缺少对 spectral filtering、model pruning 等更强防御的测试
  • 3 节点固定 trigger 结构的最优性未探讨

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次系统解决 GFM 后门攻击三大挑战,label-free 设计有突破性
  • 实验充分度: ⭐⭐⭐⭐ — 5 数据集 x 3 victim GFMs x 3 基线,含消融和超参分析
  • 写作质量: ⭐⭐⭐⭐ — 问题动机和挑战分析清晰,方法描述严谨
  • 价值: ⭐⭐⭐⭐ — 揭示 GFM 安全隐患,推动可信 AI 研究