跳转至

Sound Logical Explanations for Mean Aggregation Graph Neural Networks

会议: NeurIPS 2025
arXiv: 2511.11593
代码: 无
领域: graph_neural_networks / AI_theory
关键词: 图神经网络, 可解释性, 逻辑规则, 均值聚合, 知识图谱补全

一句话总结

针对使用均值聚合函数的 GNN(MAGNN,即非负权重的 mean-GNN),证明了能够作为其 sound 解释的单调逻辑规则的精确类别,并构造了一个一阶逻辑的受限片段来解释任意 MAGNN 预测,实验表明限制非负权重不显著影响性能且能有效提取 sound 规则。

研究背景与动机

领域现状: GNN 广泛用于知识图谱补全(KGC)、药物组合预测、推荐系统等任务。为保证输出可信,需要用 sound 逻辑规则来解释 GNN 的预测——即规则产生的推断必须是模型预测的子集。

现有痛点: 已有工作为 max 和 sum 聚合的非负权重 GNN 提供了 sound Datalog 规则和等价程序(Tena Cucala et al.),但 均值聚合(mean aggregation) 是实践中最常用的默认选择(R-GCN 等),却缺乏可解释性和表达力的理论分析。

核心矛盾: Mean-GNN 因其简洁性和训练稳定性被广泛使用,但其非单调性(即加入更多邻居可能降低聚合值)使得无法直接套用 sum/max-GNN 的理论框架,也无法找到等价的一阶逻辑程序。

本文目标: 为 mean 聚合的 GNN 建立 sound 逻辑规则的理论基础,并提供实际可用的规则提取方法。

切入角度: 限制权重为非负(与 sum/max-GNN 工作一致),将非单调性来源隔离到聚合函数本身,从而简化分析。

核心 idea: MAGNN 能表达超越 FOL 的逻辑函数,但其 sound 单调规则形式非常受限——所有 sound ELUQ 规则都可被一组极简规则子覆盖(subsume),并可用有限搜索空间枚举验证。

方法详解

整体框架

工作分为两大理论贡献: 1. Theorem 3:精确刻画哪些单调规则(ELUQ 规则)可以是 MAGNN 的 sound 规则——任何 sound ELUQ 规则都可被一组形如 ∃P₁.⊤ ⊓ ... ⊓ ∃Pⱼ.⊤ ⊓ A₁ ⊓ ... ⊓ Aₖ ⊑ Aₖ₊₁ 的简单规则子覆盖 2. Theorem 6:为任意 MAGNN 预测提供一个 sound 的解释性规则,使用受限的 FOL 片段 Ω

关键设计

  1. ELUQ 规则语言(Theorem 3):

    • 定义 ELUQ = EL + union(⊔) + 数量限制(≥n),作为 ALCQ 与 EL 之间的描述逻辑
    • 核心发现:对 MAGNN 而言,任何 sound ELUQ 规则都可退化为仅包含 ∃P.⊤(存在某种关系的邻居)和原子概念 A 的合取
    • 证明关键:利用 mean 聚合的性质——当邻居数趋于无穷时,mean 趋近于单个邻居的值,因此 ≥n 可退化为
    • 这意味着 sound 单调规则空间是有限的(δ·2^(δ·|Col|) 条),可以穷举搜索
  2. 规则 soundness 验证(Proposition 4):

    • 给定一条简单规则,只需在一个最小数据集 D_base 上运行 MAGNN 并检查输出即可判断 soundness
    • D_base 仅包含规则体要求的最少事实,验证成本极低
    • 利用 MAGNN 的单调性:D_base 的任何扩展都不会降低目标节点的输出
  3. 解释性规则(Theorem 6, Ω 语言):

    • 由于 MAGNN 无法用 FOL 等价表示(Proposition 1:判断"至少一半邻居满足条件"超越 FOL),转向提供 sound 解释
    • 定义 Ω 语言:引入新算子 ∃ₙP.(C₁,...,Cₙ)(存在 n 个不同邻居分别满足不同条件)+ ≤mP.⊤(至多 m 个邻居)
    • 对给定预测 A(a),沿 L 层 GNN 的 L-hop 邻域递归构造规则体 C_L^a
    • 保证:规则既能在原数据集上产生该预测(explain),又对所有数据集 sound
  4. 链接预测适配:

    • 通过与 Tena Cucala et al. 的编码方案结合,将节点级规则展开为链接预测规则
    • 链接预测场景下 sound 单调规则退化为 R₁(x,y) ∧ ... ∧ Rₘ₋₁(x,y) → Rₘ(x,y) 的形式

损失函数 / 训练策略

  • 使用 Binary Cross Entropy loss + Adam 优化器(lr=0.001)
  • 训练 8000 epochs,50 epochs early stopping
  • 非负权重约束:每步优化后将负权重 clamp 到 0
  • 2 层 GNN, ReLU + Sigmoid 激活, 隐藏维度 = 2×输入维度
  • 分类阈值在验证集上网格搜索(10⁸ 个候选)

实验关键数据

主实验

模型性能(Mean-GNN, 标准 vs 非负权重):

数据集 权重类型 Acc(%) Prec(%) Rec(%) F1(%)
LUBM Standard 97.1 96.9 97.2 97.1
LUBM Non-Neg 91.5 87.8 96.4 91.9
WN18RRv1 Standard 93.7 98.5 88.8 93.4
WN18RRv1 Non-Neg 95.5 98.1 92.7 95.3
FB237v1 Standard 68.7 95.4 39.3 55.7
FB237v1 Non-Neg 71.8 75.4 64.8 69.7
NELLv1 Standard 75.2 93.8 53.4 65.7
NELLv1 Non-Neg 93.4 88.8 99.4 93.8

非负权重限制在基准数据集上反而提升性能(WN18RRv1、FB237v1、NELLv1)。

消融实验

提取的 sound 单调规则数量:

数据集 总数 仅一元 仅二元 混合
LUBM 11.6 1.4 9.8 0.4
WN-hier 22.6 15.6 0 7
FB237v1 136 136 0 0
WN18RRv1 0 0 0 0
NELLv1 1 1 0 0

LUBM 解释性规则统计: - 1990 个 true positive 预测中,仅 22 个无法用 Theorem 3 形式解释 - 未优化规则平均 25 个体原子,优化后平均 11 个

关键发现

  1. 限制非负权重对 mean-GNN 性能影响较小,在部分基准(WN18RRv1, FB237v1, NELLv1)上甚至提升性能——可能因正则化效应
  2. FB237v1 提取 136 条 sound 规则但包含 29 条空体规则(如 ⊤ → R(x,y)),暴露了模型学到的荒谬推理
  3. WN18RRv1 和 NELLv1 几乎无 sound 单调规则,表明 mean-GNN 的单调规则表达力确实受限
  4. LUBM 上发现模型学到 ⊤ ⊑ Publication(万物皆论文)和 GraduateStudent ⊑ ResearchAssistant(所有研究生都是助研)等荒谬规则,证明了可解释性的重要性
  5. 与 sum-GNN 对比:sum-GNN 可恢复 WN-sym 的全部单调规则,但 mean-GNN 几乎不能,说明在需要可证 soundness 时 sum/max 可能更优

亮点与洞察

  • 理论深度: Theorem 3 揭示 MAGNN 的 sound 单调规则空间极其受限——这是关于 mean 聚合的首个刻画性结果
  • 实用价值: 提供了可操作的规则验证流程(Proposition 4, 单次前向传播即可验证)和解释生成方法
  • 反直觉发现: 尽管 mean-GNN 在测试集上表现良好,提取的 sound 规则却暴露了模型学到的荒谬推理——说明准确率不等于可信度
  • 联结理论与实践: 理论证明 MAGNN 超越 FOL(Proposition 1),但在实际基准上仍可有效提取解释

局限与展望

  1. 搜索空间指数增长: 规则空间 δ·2^(δ·|Col|) 随关系数增长指数爆炸,FB237v1 已需限制为仅 1 个体原子
  2. ELUQ 是否为最大单调片段? 这是开放问题,可能存在其他可 sound 的非 ELUQ 单调规则
  3. 分类阈值的选择: 使用 ≥ 而非 > 会产生完全不同的理论结果,论文仅处理了一种
  4. 解释性规则可能很长: 未优化时平均 25 个体原子,可读性较差
  5. 仅考虑 2 层 GNN,更深模型的规则提取尚未探索

相关工作与启发

  • Tena Cucala et al. (2023/2024): 为 sum/max 聚合 GNN 提供 sound Datalog 规则和等价程序,是本文最直接的前驱
  • Morris et al. (NeurIPS 2023): 发现 sum-GNN 在实践中常没有 sound Datalog 规则,但 WN-sym 上全部可恢复
  • Barceló et al. (ICLR 2020): 证明 GNN 捕获的规则可在 ALCQ 中表达
  • Schönherr & Lutz (2025, 同期): 刻画 mean-GNN 的 FOL 表达力(均匀/非均匀设定),但未提供实际的规则提取和解释方法
  • 启发:模型可解释性不仅用于解释预测,更为重要的是发现模型的缺陷——可信 AI 需要 sound 保证而非近似解释

评分

  • 新颖性: ⭐⭐⭐⭐ 首次为最常用的 mean 聚合 GNN 建立 sound 规则理论
  • 实验充分度: ⭐⭐⭐ 覆盖多个基准但数据集规模有限且仅 2 层模型
  • 写作质量: ⭐⭐⭐⭐ 理论叙述严谨清晰,证明草图有助理解
  • 价值: ⭐⭐⭐⭐ 填补重要理论空白,sound 解释对可信 AI 意义重大