Towards Effective, Stealthy, and Persistent Backdoor Attacks Targeting Graph Foundation Models¶

会议: AAAI2026
arXiv: 2511.17982
代码: RingBDStack/GFM-BA
领域: AI安全
关键词: backdoor attack, graph foundation model, GNN security, trigger generation, adversarial ML

一句话总结¶

提出 GFM-BA，首个系统性地针对 Graph Foundation Models (GFMs) 预训练阶段的后门攻击方法，通过 label-free trigger 关联、node-adaptive trigger 生成和 persistent backdoor anchoring 三个模块，同时解决有效性、隐蔽性和持久性三大挑战。

研究背景与动机¶

GFMs 在多域图数据上预训练后适配下游任务，用户常直接使用开源预训练模型。这创造了后门攻击的现实威胁面：攻击者控制预训练阶段，注入后门后发布模型。

传统 GNN 后门攻击与 GFM 场景的根本差异：

条件	传统 GNN	GFM
下游标签可用	✓	✗
同域训练/推理	✓	✗（跨域）
模型参数不变	✓	✗（下游 fine-tune）

由此引出三大挑战：

有效性：预训练时无法获知下游标签，如何确保 trigger 导致预期的分类错误？

隐蔽性：不同域的节点特征分布差异大，固定 trigger 易被异常检测发现

持久性：下游 fine-tuning 可能擦除后门行为（backdoor forgetting）

现有方法局限：GCBA 需要下游标签；CrossBA 无法控制目标标签，退化为对抗逃逸攻击。

方法详解¶

模块1：Label-Free Trigger Association¶

用预训练 GNN 提取预训练图的节点嵌入，通过 Farthest Point Sampling (FPS) 选取 \(k\) 个 prototype embeddings
FPS 的贪心策略确保 prototype 分散覆盖嵌入空间，理论证明（Proposition 1）当类间分离度足够大时，FPS 更可能覆盖多个下游类别
下游注入时，攻击者通过少量试探查询找到对应目标标签的 prototype

模块2：Node-Adaptive Trigger Generator¶

用 MLP 根据目标节点特征 \(\mathbf{x}_i\) 和目标嵌入 \(\mathbf{e}_j\) 动态生成 trigger 特征：\(\mathbf{x}_{ij}^{tri} = \text{MLP}([\mathbf{x}_i \| \mathbf{e}_j])\)
Trigger 设计为 3 节点全连接子图，插入目标节点邻域
双目标优化：\(\mathcal{L}_{eff}\) 确保 triggered 节点嵌入对齐目标 prototype；\(\mathcal{L}_{ste}\) 确保 trigger 特征与目标节点特征相似（保持 graph homophily）
关键：不修改预训练模型参数，利用编码器中已有的 latent backdoor logic

模块3：Persistent Backdoor Anchoring¶

实验观察：大部分预训练参数在下游 fine-tuning 中变化极小
用 graph mixup 合成跨域图模拟潜在下游分布
基于 model pruning 的重要性估计识别 fine-tuning 敏感参数
对敏感参数施加随机扰动 \(\theta_k \leftarrow \theta_k + \epsilon|\theta_k|\)，训练 trigger generator 在扰动下仍保持有效性
持久性损失：\(\mathcal{L}_{per} = \text{Var}(\{\mathcal{L}_{eff}^j\}) + \text{Mean}(\{\mathcal{L}_{eff}^j\})\)

实验关键数据¶

攻击有效性（ASR %，Target-Controlled 场景）¶

方法	Cora	CiteSeer	PubMed	Photo	Computers
GCBA_M (GCOPE)	4.77	5.98	21.65	3.48	4.62
CrossBA (GCOPE)	14.29	16.67	33.33	9.25	7.98
GFM-BA (GCOPE)	90.40	89.06	100.00	84.53	78.54
CrossBA (SAMGPT)	13.61	16.67	33.33	12.10	9.20
GFM-BA (SAMGPT)	100.00	100.00	100.00	99.80	100.00

Target-Controlled ASR 比最强基线 CrossBA 提升 66-91%。

隐蔽性（边净化后 ASR）¶

GFM-BA 在边净化防御后仍保持高 ASR（GCOPE 上 100%），平均超越基线 36.81%（GCOPE）、19.98%（MDGPT）、36.73%（SAMGPT）。清洁准确率不下降。

持久性（fine-tuning 后 ASR 下降）¶

方法	Cora Drop	Photo Drop	Computers Drop
CrossBA (SAMGPT)	↓4.74	↓9.40	↓0.60
GFM-BA (SAMGPT)	↓1.34	↓4.00	↓1.40
CrossBA (MDGPT)	↓1.36	↓4.60	↓2.40
GFM-BA (MDGPT)	↓0.68	↓0.60	↓0.80

Fine-tuning 后 ASR 下降极小（多数 <2%），持久性显著优于基线。

亮点¶

Label-free 攻击范式：通过 FPS 选取 prototype embeddings 绕过对下游标签的依赖，是 GFM 后门攻击的关键突破
自适应 trigger 生成：node-adaptive 设计保持 graph homophily，显著提升隐蔽性
无需修改模型参数：利用预训练编码器的 latent logic，清洁准确率不受影响
理论支撑：Proposition 1/2 分别为 FPS 覆盖性和参数不敏感性锚定提供理论基础

局限性¶

仅验证节点分类任务，图分类/链接预测场景未涉及
FPS 的 prototype 覆盖性在类别极不均衡时可能失效
攻击假设需要下游少量试探查询来匹配 prototype 与标签，部分场景下可能不可行
防御评估仅用简单边净化，缺少对 spectral filtering、model pruning 等更强防御的测试
3 节点固定 trigger 结构的最优性未探讨

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次系统解决 GFM 后门攻击三大挑战，label-free 设计有突破性
实验充分度: ⭐⭐⭐⭐ — 5 数据集 x 3 victim GFMs x 3 基线，含消融和超参分析
写作质量: ⭐⭐⭐⭐ — 问题动机和挑战分析清晰，方法描述严谨
价值: ⭐⭐⭐⭐ — 揭示 GFM 安全隐患，推动可信 AI 研究