跳转至

ATEX-CF: Attack-Informed Counterfactual Explanations for Graph Neural Networks

会议: ICLR 2026
arXiv: 2602.06240
代码: https://github.com/zhangyuo/ATEX_CF
领域: AI Safety / GNN Explainability
关键词: 图神经网络, 反事实解释, 对抗攻击, 可解释性, 图结构扰动

一句话总结

提出 ATEX-CF 框架,首次将对抗攻击的边添加策略与反事实解释的边删除策略统一起来,通过联合优化预测翻转、稀疏性和合理性,为 GNN 生成更忠实、更简洁、更合理的实例级反事实解释。

研究背景与动机

GNN 可解释性需求迫切:GNN 在医疗、金融等关键领域广泛应用,但其黑箱推理损害了信任,推动了反事实解释研究的发展。

传统反事实方法局限于边删除:CF2、GCFExplainer 等经典方法主要依赖边删除来识别支撑预测的关键子结构,忽略了"添加缺失关系"也能大幅改变预测的可能性。

对抗攻击揭示边添加的力量:图对抗学习研究已证明,添加少量(如 2 条)精心选择的边即可有效翻转目标节点的预测,这些边往往对应语义合理的结构关系。

两大方向长期割裂:反事实解释和对抗攻击虽然共享"翻转预测"的目标,但扰动策略截然不同——前者偏删除,后者偏添加——现有方法未将二者统一。

边添加带来互补解释覆盖:边删除解释揭示"哪些已有关系是关键的",而边添加解释揭示"哪些缺失关系可能改变结果",二者互补才能完整理解模型决策。

搜索空间爆炸问题:将边添加纳入反事实搜索时,候选空间组合爆炸,需要利用对抗攻击的高效策略来约束搜索范围。

方法详解

整体框架

ATEX-CF 将反事实生成建模为约束优化问题,核心流程: 1. 候选边选择:分两路——边删除候选 \(\mathcal{S}^-\) 来自目标节点 \((l+1)\)-hop 邻域内的已有边;边添加候选 \(\mathcal{S}^+\) 来自 GOttack 对抗攻击方法提供的高影响力边。 2. 签名掩码优化:为每条候选边引入连续参数 \(M_e \in [-1,1]\)\(M_e > 0\) 表示添加,\(M_e < 0\) 表示删除,通过梯度下降优化。 3. 前向离散化:阈值化 + Top-\(\kappa\) 稀疏化,保留最多 \(\kappa\) 条扰动边。 4. 联合损失优化\(\mathcal{L} = \lambda_1 \mathcal{L}_{pred} + \lambda_2 \mathcal{L}_{dist} + \lambda_3 \mathcal{L}_{plau}\)。 5. 最小化后剪枝:贪心移除冗余边,确保解释的最小性。

关键设计

  • 理论桥梁(Hypothesis 1):成功的逃逸攻击中添加的边与目标节点的反事实解释子图具有高图相似性,为统一二者提供理论依据。
  • 预测损失 \(\mathcal{L}_{pred}\):利用指示函数 + 负对数似然,仅在预测未翻转时激活,推动扰动图远离原始类别。
  • 稀疏损失 \(\mathcal{L}_{dist}\)\(\ell_0\) 范数约束扰动边数量,保证简洁可解释。
  • 合理性损失 \(\mathcal{L}_{plau}\):包含度数异常惩罚 DegAnom(抑制度数突变)和 Motif 违规惩罚 MotifViol(保持局部聚类系数稳定)。
  • 直通估计器(STE):在反向传播中将离散化操作近似为恒等函数,使梯度可以穿过非可微操作流动。
  • 非对称代价扩展:引入标量权重 \(C\) 控制添加/删除的代价不对称性,适应不同领域约束。

实验关键数据

表1:Meta Results — 六个数据集上的平均排名(越低越好)

方法 Misclass. Fidelity ΔE Plausibility Time Overall Avg. Wins
CF-GNNExplainer 4.7 4.8 2.0 2.3 9.5 4.67 1
PGExplainer 8.2 7.7 4.2 5.8 1.0 5.37 6
Nettack 3.3 2.5 8.8 8.0 4.5 5.43 2
GOttack 4.8 4.3 8.8 8.0 3.0 5.80 0
ATEX-CF (ours) 1.2 1.3 1.0 1.2 7.3 2.40 20

ATEX-CF 在 30 个 metric-dataset 组合中赢得 20 次第一,远超第二名 PGExplainer 的 6 次。

表2:非对称添加代价实验(Cora, GCN, κ=20)

Addition Cost \(C\) Misclass. Fidelity ΔE (E+, E-) Plausibility Time
0.5 0.70 0.23 1.78 (0.78, 1.00) 0.72 6.1s
1.0 (对称) 0.70 0.23 1.78 (0.77, 1.01) 0.71 10.3s
5.0 0.70 0.23 1.82 (0.65, 1.17) 0.69 10.9s
20.0 0.54 0.15 1.42 (0.49, 0.93) 0.68 11.5s
21.0 (删除-only) 0.42 0.10 1.78 (0.00, 1.78) 0.62 11.7s

当添加代价 \(C\) 过高(≥20)时退化为纯删除,性能显著下降,验证了边添加策略的重要性。

亮点与洞察

  • 首次建立理论桥梁:通过 Hypothesis 1 将对抗攻击子图与反事实解释子图的高相似性形式化,为两大方向的统一提供了原则性基础。
  • 互补解释范式:边删除回答"什么已有关系是关键的",边添加回答"什么缺失关系能改变结果",二者结合提供更完整的模型理解。
  • 实用案例驱动:贷款审批场景中删除边无法翻转预测,而合理的边添加可以成功,直观展示了方法的实际价值。
  • 搜索空间高效约束:利用 GOttack 的图轨道理论缩小边添加候选范围,解决了组合爆炸问题。
  • 后剪枝策略有效:运行时间从 6.12s 降至 3.00s,边数从 1.71 降至 1.62,且预测准确性不损失。

局限性

  1. 仅针对结构扰动:当前框架仅处理边的添加/删除,未考虑节点特征扰动,无法捕获特征层面的反事实。
  2. 时间开销偏高:虽然排名整体最优,但 Time 指标排名 7.3(倒数),在大规模图上的效率仍需改善。
  3. 依赖 GOttack 作为攻击源:候选边添加完全依赖 GOttack 的质量,缺乏对其他攻击方法的探索和比较。
  4. 仅支持静态图:未扩展到动态图、时序图等更复杂的图结构场景。
  5. 合理性度量有限:仅使用度数异常和聚类系数作为合理性指标,可能不足以捕获领域特定的语义约束。

相关工作与启发

  • CF-GNNExplainer (Lucic et al., 2022):经典反事实 GNN 解释器,仅通过边删除,是本文的直接改进对象。
  • GOttack (Alom et al., 2025, ICLR):基于图轨道学习的通用对抗攻击,被 ATEX-CF 用作边添加候选生成器。
  • C2Explainer (Ma et al., 2025):可定制的掩码反事实解释器,支持边和特征扰动,但联合优化效果不如 ATEX-CF。
  • 启发:对抗攻击和模型解释两个看似对立的方向可以互相借力——攻击策略提供高效的搜索机制,解释需求提供合理性约束,这种统一视角可推广到其他领域(如 NLP 对抗样本解释)。

评分

维度 分数 (1-5) 说明
新颖性 4 首次统一对抗攻击与反事实解释,理论贡献清晰
技术深度 4 联合优化框架设计完整,理论假设有实验支撑
实验充分性 4 6 数据集 + 3 GNN 架构 + 10 baseline,消融和敏感性分析全面
写作质量 4 动机清晰,案例生动,框架图直观
实用价值 3 代码开源,但时间开销偏高,领域适用性需验证
总分 3.8 扎实的 ICLR 工作,统一视角是核心贡献