跳转至

Cooperative Sheaf Neural Networks

会议: ICLR 2026
arXiv: 2507.00647
代码: 无
领域: 图学习 / 图神经网络
关键词: Sheaf Neural Networks, 协作行为, 有向图, 过度挤压, 异配图

一句话总结

提出在有向图上定义 cellular sheaf 的 in/out-degree Laplacian,构建 Cooperative Sheaf Neural Network (CSNN),使节点能独立选择信息传播/接收策略,从而同时缓解过度挤压(oversquashing)和处理异配(heterophilic)任务。

研究背景与动机

领域现状:Sheaf Neural Networks (SNNs) 通过在图上定义 cellular sheaf 来泛化 GNN 的扩散机制,已被证明能处理异配任务并缓解过平滑(oversmoothing)。

现有痛点:经典 SNNs 基于无向图,节点无法独立选择"仅传播信息"或"仅接收信息"。若某节点 \(i\) 要屏蔽所有邻居的输入,必须将所有关联的 restriction map 置零 \(\mathcal{F}_{i \unlhd e}=0\),这同时也阻断了 \(i\) 向外传播信息的能力。

核心矛盾:SNNs 的 sheaf Laplacian 结构使得 PROPAGATE 蕴含 LISTEN,无法实现四种协作行为(STANDARD/LISTEN/PROPAGATE/ISOLATE)的完全解耦。

本文目标 让 SNN 中的节点能独立决定是否传播和/或接收信息,实现真正的协作行为,以更好地缓解 oversquashing。

切入角度:将无向边拆分为一对有向边,在有向图上定义 cellular sheaf 及其 in/out-degree sheaf Laplacian。

核心 idea:通过有向图上的 sheaf Laplacian 分离源映射 \(\mathbf{S}_i\) 和目标映射 \(\mathbf{T}_i\),使每个节点可独立控制信息流入和流出方向。

方法详解

整体框架

CSNN 的核心改动是把输入无向图拆成有向图——每条无向边变成方向相反的一对有向边——再为每个节点 \(i\) 学习一对 conformal 映射:源映射 \(\mathbf{S}_i\) 管它往外传什么,目标映射 \(\mathbf{T}_i\) 管它往里收什么。表示更新沿用 NSD 风格的归一化扩散迭代,但把扩散算子换成由 out-degree 和转置 in-degree 两个有向 sheaf Laplacian 组合而成的非对称算子,这样信息流入和流出就被两条独立的通道分开控制了。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["无向图 + 节点特征"] --> SG
    C["Flat vector bundle 参数化<br/>每点学源映射 S_i 与目标映射 T_i"] --> SG
    subgraph SG["有向 Cellular Sheaf 与 in/out-degree Laplacian"]
        direction TB
        B["每条无向边<br/>→ 方向相反的一对有向边"] --> D["out/in-degree sheaf Laplacian<br/>S 管传出、T 管接收"]
        D --> E["非对称扩散算子<br/>(Δin)ᵀ · Δout"]
    end
    SG --> F["归一化扩散迭代(叠 t 层)"]
    F --> G["扩展感受野与选择性注意<br/>2t-hop 直达、跳过中间节点"]
    G --> H["节点表示 → 下游分类/回归"]

关键设计

1. 有向 Cellular Sheaf 与 in/out-degree Laplacian:把"传播"和"监听"解耦

经典 SNN 建在无向图上,restriction map \(\mathcal{F}_{i \unlhd e}\) 同时出现在节点 \(i\) 的传入项和传出项里。论文的 Proposition 3.1 指出,若想让节点 \(i\) 屏蔽所有邻居输入就必须令 \(\mathcal{F}_{i \unlhd e}=0\),而这一步会连带把 \(i\) 向外的传播也切断——PROPAGATE 与 LISTEN 在结构上被强行绑死,四种协作行为(STANDARD/LISTEN/PROPAGATE/ISOLATE)无法完全分离。把边拆成有向后,节点作为"源"和作为"目标"时用不同的 restriction map:out-degree sheaf Laplacian 写成 \(L_{\mathcal{F}}^{\text{out}}(\mathbf{X})_i = \sum_{j \in N(i)} (\mathbf{S}_i^\top \mathbf{S}_i \mathbf{x}_i - \mathbf{T}_i^\top \mathbf{S}_j \mathbf{x}_j)\),in-degree 形式对称但由 \(\mathbf{T}\) 控制接收端,最终扩散算子取 \((\Delta_\mathcal{F}^{\text{in}})^\top \Delta_\mathcal{F}^{\text{out}}\) 这一非对称组合。如此一来 \(\mathbf{S}_i=0\)(不传播)和 \(\mathbf{T}_i=0\)(不监听)可以各自单独设置,节点终于能独立选择传播策略。

2. Flat vector bundle 参数化:把每边一个映射压成每点两个

一般 cellular sheaf 每条边都要一组 restriction map,\(m\) 条边就有 \(2m\) 个矩阵要学,开销随边数线性膨胀。CSNN 改用 flat vector bundle:让节点 \(i\) 对它的所有邻居 \(j\) 共享同一对映射,\(\mathcal{F}_{i \unlhd ij} = \mathbf{S}_i\)\(\mathcal{F}_{i \unlhd ji} = \mathbf{T}_i\),于是整张图只需 \(2n\) 个映射(\(n\) 为节点数),参数量从 \(O(m)\) 降到 \(O(n)\)。每个映射本身用 Householder 反射构造一个正交矩阵、再乘以一个可学习的正常数,从而保证是 conformal(保角缩放)映射,在压缩参数的同时维持了扩散算子的良好谱性质。

3. 扩展感受野与选择性注意:每层够到 \(2t\)-hop 还能跳过中间点

传统 GNN 叠 \(t\) 层只能触达 \(t\)-hop 邻居,且信息沿路径被指数压缩,正是 oversquashing 的根源。论文证明在有向 sheaf 下,合理配置 \(\mathbf{S}\)\(\mathbf{T}\) 可以让 \(t\) 层 CSNN 的感受野扩到 \(2t\)-hop;更关键的是它能做"选择性注意"——通过调节这两组映射,使灵敏度 \(\partial \mathbf{x}_i^{(t)} / \partial \mathbf{x}_j^{(0)}\) 对距离为 \(t\) 的目标节点 \(j\) 保持高值,同时对路径上的中间节点趋近零。信息因此可以"穿过"无关节点直达目标,不再沿途被稀释,这是它在长距离任务上能缓解 oversquashing 的直接原因。

实验关键数据

主实验

数据集 指标 CSNN 最优对比 提升
roman-empire Acc 92.63 BuNN 91.75 +0.88
minesweeper AUROC 99.07 BuNN 98.99 +0.08
tolokers AUROC 85.45 CO-GNN 84.84 +0.61
questions AUROC 79.31 BuNN 78.75 +0.56
Wisconsin Acc 90.00 O(d)-NSD 89.41 +0.59

消融实验

配置 NeighborsMatch 准确率 说明
CSNN (r=2~8) 100% 全部深度 完美解决 oversquashing
BuNN (r≥7) 71%→42% r=7 开始退化
NSD (r≥4) 5% 严重 oversquashing
GCN/GIN (r≥4) 失败 无法处理长距离

关键发现

  • CSNN 在 NeighborsMatch 所有树深度上保持 100% 准确率,显著优于所有 sheaf 和非 sheaf 基线
  • 在 11 个节点分类数据集中 9 个取得最优,尤其在强异配数据集上表现突出
  • 在 peptides-func 图分类任务上达到 73.38 AP,超过 BuNN (72.76)、GPS、SAN 等方法

亮点与洞察

  • 从代数拓扑角度严格证明 SNNs 无法实现协作行为(Proposition 3.1),然后用有向 sheaf 优雅地解决
  • Flat vector bundle 设计使参数量从 \(O(m)\) 降到 \(O(n)\),在理论优势之外还保证了计算效率
  • 理论证明 CSNN 每层感受野为 \(2t\)-hop 而非传统 \(t\)-hop,为缓解 oversquashing 提供新思路

局限与展望

  • 协作行为的选择通过连续参数隐式决定,未显式建模离散动作
  • 在 amazon-ratings 等部分数据集上未取得最优,flat vector bundle 的简化可能牺牲了灵活性
  • 仅在中等规模图上验证,大规模图(>100K 节点)的可扩展性有待评估

相关工作与启发

  • vs CO-GNN: CO-GNN 使用离散 Gumbel-Softmax 动作网络选择协作模式,CSNN 通过连续参数自然实现,避免了训练不稳定和超参敏感问题
  • vs NSD: NSD 基于无向 sheaf,CSNN 通过有向 sheaf 扩展了表达能力,在 NeighborsMatch 上表现远超 NSD
  • vs BuNN: BuNN 也是 sheaf-based,但在 r≥7 的 oversquashing 测试中明显退化,CSNN 始终保持 100%

评分

  • 新颖性: ⭐⭐⭐⭐ 有向 sheaf Laplacian 是全新数学构造,理论贡献扎实
  • 实验充分度: ⭐⭐⭐⭐ 合成 + 11个节点分类 + 2个图分类,覆盖全面
  • 写作质量: ⭐⭐⭐⭐ 定义-命题-证明结构清晰,数学严谨
  • 价值: ⭐⭐⭐⭐ 为 sheaf-based GNN 提供了新的理论和实践方向