Sheaves Reloaded: A Directional Awakening¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=iDiiETH7Qv
代码: https://github.com/hakanaktas0/DSNN
领域: 图学习 / Sheaf 神经网络 / 有向图
关键词: 胞腔层, 有向图, 层拉普拉斯, 磁拉普拉斯, 谱图神经网络

一句话总结¶

本文提出有向胞腔层（Directed Cellular Sheaf），用复值、方向感知的限制映射把边的方向编码进相位，进而构造 Hermitian 的有向层拉普拉斯 $L_{\tilde F}$，得到第一个把方向归纳偏置嵌入架构的 Sheaf 神经网络 DSNN，在 12 个节点分类基准上 10 个取得最优。

研究背景与动机¶

领域现状：Sheaf 神经网络（SNN）是图神经网络（GNN）的代数拓扑推广。它在每个节点和每条边上挂一个向量空间（称为 stalk），并用线性限制映射 $F_{u\trianglelefteq e}: F(u)\to F(e)$ 把相邻的点-边联系起来；由限制映射可导出层拉普拉斯 $L_F=\delta^\top\delta$。相比普通 GNN，SNN 能在更高维特征空间上学习，天然缓解过平滑、并在异配图（邻居标签不同）上表现更好，是近年很有原则性的一条路线（如 NSD）。

现有痛点：但目前所有 SNN 都只能处理无向图——层拉普拉斯被构造为与边的定向无关（任意翻转一条边的符号都不改变 $L_F$）。而现实中大量图天然有向：社交网络、生物调控网络、因果/流网络，方向本身携带关键信息。GNN 这边早就证明了"显式建模方向能大幅提点"（如 DirGNN、MagNet），可 SNN 阵营完全没有对应能力。

核心矛盾：层拉普拉斯要服务于谱卷积，就必须是半正定（PSD）算子，才能保证实、非负的特征值、给出良定义的图傅里叶基与谱滤波器。但纯实数的反对称矩阵（最直接的"编码方向"方式）会产生纯虚特征值，谱滤波会发散——也就是说，"保 PSD"和"编码方向"在实数域里天生打架。

本文目标：在保持层拉普拉斯 PSD/Hermitian 谱性质的前提下，把边方向显式注入 SNN 的限制映射与拉普拉斯。

切入角度：借鉴电磁场里的磁拉普拉斯思路——用一个复 Hermitian 算子，让其幅值承载无向几何、相位承载边方向，并用参数 $q$ 调节方向分量的强度。Hermitian 矩阵恰好既能编码非对称关系、又保证实非负谱。

核心 idea：把方向写进限制映射的虚部——给尾节点的限制映射乘一个相位因子 $T^{(q)}_{uv}=\exp(i\,2\pi q\,(A-A^\top)_{uv})$，由此得到的有向层拉普拉斯既统一了经典层拉普拉斯、又统一了磁拉普拉斯/符号磁拉普拉斯。

方法详解¶

整体框架¶

DSNN 的输入是一个有向图及其节点特征，输出是节点表示（用于节点分类或边方向预测）。整条管线分四步：先在每条边上用 MLP 端到端学出复值限制映射，并把边方向通过相位因子 $T^{(q)}$ 注入尾节点的映射，构成有向胞腔层；由这套限制映射的余边界算子 $\tilde\delta$ 取共轭转置复合，得到 Hermitian 且 PSD 的有向层拉普拉斯 $L_{\tilde F}$；把它代入离散化的有向神经层扩散做若干层复数域消息传递（配复数版 ReLU 与可学缩放 $\epsilon$）；最后用 unwind 操作把复数表示拆成实部/虚部拼接、投回实数域输出。

整个方法的关键就是：普通 SNN 的所有"实值限制映射 / 实对称拉普拉斯 / 实扩散"，在这里都被升级成复数版，而升级的载体就是相位因子 $T^{(q)}$。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["有向图 G<br/>+ 节点特征 X"] --> B["有向胞腔层<br/>MLP 学复值限制映射<br/>相位 T(q) 编码边方向"]
    B --> C["有向层拉普拉斯 L_F̃<br/>Hermitian 且 PSD"]
    C --> D["DSNN 扩散层<br/>复数消息传递 + 复 ReLU + 可学 ε"]
    D -->|"逐层迭代"| C
    D --> E["unwind<br/>复数拆实部/虚部"]
    E --> F["节点表示<br/>分类 / 方向预测"]

关键设计¶

1. 有向胞腔层：把方向藏进限制映射的相位

针对"SNN 只能处理无向图"这个根本短板，本文重新定义了 stalk 与限制映射。普通胞腔层的 stalk 是实向量空间、限制映射是实矩阵，对边的定向不可见。本文把 stalk 改成复向量空间 $\tilde F(u),\tilde F(e)\in\mathbb{C}^d$，并引入一个参数化的 Hermitian 相位矩阵 $$T^{(q)} := \exp\!\big(i\,2\pi q\,(A-A^\top)\big),\quad q\in\mathbb{R}.$$ 一条边 $e$ 的两个端点中，头节点的限制映射 $\tilde F_{u\trianglelefteq e}\in\mathbb{R}^{d\times d}$ 保持实值，而尾节点的限制映射被乘上相位：$\tilde F_{v\trianglelefteq e}=\tilde F^0_{v\trianglelefteq e}\,T^{(q)}_{uv}\in\mathbb{C}^{d\times d}$。直觉上，方向就被记进了"哪一端带相位、相位符号是正是负"。举例：当 $q=\tfrac14$、$e=(u,v)$ 为有向边时 $A_{uv}=1,A_{vu}=0$，于是 $T^{(q)}_{uv}=\cos(-\tfrac{\pi}{2})+i\sin(-\tfrac{\pi}{2})=-i$，尾节点映射变成 $-\tilde F^0_{v\trianglelefteq e}\,i$，虚部的符号就指示了边的朝向；若 $e$ 是无向边则 $A_{uv}=A_{vu}=1$、$T^{(q)}_{uv}=1$，限制映射退化为纯实，和经典胞腔层一致。这正是它"既能表达方向、又能向后兼容无向情形"的来源。

2. 有向层拉普拉斯 $L_{\tilde F}$：用 Hermitian 结构同时装下拓扑与方向

有了方向感知的限制映射，本文定义有向余边界算子 $\tilde\delta(x)_e:=\tilde F_{u\trianglelefteq e}x_u-\tilde F_{v\trianglelefteq e}x_v$，再取共轭转置复合得到有向层拉普拉斯 $L_{\tilde F}:=\tilde\delta^*\tilde\delta$（$*$ 为共轭转置）。展开后，作用在 0-上链 $x$ 上的 $L_{\tilde F}(x)_u$ 自然分成入流（inflow）、出流（outflow）、无向三项之和，把入边、出边、无向边区别对待——这正是方向偏置的体现。这个算子的核心价值在于其谱性质：本文证明 $L_{\tilde F}$ 与其归一化版本 $L_{\tilde F}^N$ 都是 Hermitian 且半正定（特征值实、非负、可对角化），并且 $L_{\tilde F}^N\preceq 2I$——这和无向图的经典拉普拉斯完全一致，于是可以照搬 Kipf-Welling 的一阶 Chebyshev 近似来定义良定义的谱卷积。更妙的是它的统一性：当图无向时 $L_{\tilde F}$ 对任意 $q$ 都退回经典层拉普拉斯 $L_F$；在平凡层（$d=1$、限制映射取 1）下它退回磁拉普拉斯 $L^{(q)}$，且 $q=\tfrac14$ 时进一步退回符号磁拉普拉斯 $L_\sigma$。本文还顺带给出了一个复值的"点-边关联矩阵"分解 $L^{(q)}=\hat B\hat B^*$，为磁/符号磁拉普拉斯的半正定性提供了比原文更简洁的证明。

3. DSNN 扩散层：复数域的神经层扩散

光有算子还不够，要把它变成可训练的网络。本文把 Bodnar 的神经层扩散推广到复数域：连续过程为 $\dot X(t)=-\sigma\big(L_{\tilde F}^N(t)(I_n\otimes W_1(t))X(t)W_2(t)\big)$，离散化后得到 DSNN 的卷积更新式 $$X^{(t+1)}=\mathrm{diag}(1+\varepsilon)X^{(t)}-\sigma\big(L_{\tilde F(t)}^N(I_n\otimes W_1^{(t)})X^{(t)}W_2^{(t)}\big),$$ 其中 $W_1\in\mathbb{R}^{d\times d}$、$W_2\in\mathbb{R}^{f\times f}$ 是逐层权重，可学参数 $\epsilon\in[-1,1]^d$ 用来调每个 stalk 分量的相对幅度。由于全程在复数域，激活函数 $\sigma$ 采用复扩展 ReLU（实部 $\ge0$ 则保留、否则置零）。最后一层用 unwind 把复输出拆开拼接 $\mathrm{unwind}(X)=(\Re(X)\,\|\,\Im(X))\in\mathbb{R}^{n\times 2c}$ 投回实数域。代价上，复数运算只带来约 4 倍的常数因子开销，不改变渐近复杂度——无向情形下 DSNN 复杂度与 NSD 完全相同。

4. 端到端可学的限制映射：让数据自己挑层结构

同一张图可以配很多种 sheaf 结构，选对了才有意义。本文不手工指定限制映射，而是把它做成输入特征的函数：对每条边 $e=(u,v)$，$F_{u\trianglelefteq e}=\Phi(x_u\,\|\,x_v)$，其中 $\Phi$ 是一个 MLP，输出再 reshape 成 $d\times d$ 矩阵。这样限制映射随节点特征端到端学出来，配合 Diag / O(d) / General 三种块结构约束，得到 Diag-DSNN、O(d)-DSNN、Gen-DSNN 三个变体，让模型在不同图上自适应地选最合适的 sheaf。

损失函数 / 训练策略¶

节点分类与边方向预测均按标准监督交叉熵训练；$q$ 作为超参数搜索（实验中也初步尝试把 $q$ 设为可学参数）；stalk 维度取 $d\in\{2,5\}$。评测沿用 Bodnar 等的 10-split 协议，方向预测按 15%/5% 测试/验证、10 折交叉验证并保持图连通。

实验关键数据¶

主实验¶

真实数据集节点分类（12 个基准，覆盖异配到同配），DSNN 在 10/12 上最优；下表摘取代表性数据集（准确率 %，Questions 报 ROC AUC）：

数据集	同配度	最优 DSNN 变体	NSD（无向 SNN）	最强方向 GNN
Roman-Empire	0.05	92.08 (O(d)/Gen)	83.80	91.23 (DirGNN)
Texas	0.11	88.65 (Diag)	85.95	79.46 (MagNet)
Telegram	0.32	94.81 (Gen)	92.11	92.81 (DirGNN)
Questions	0.84	79.55 (Gen)	77.36	76.95 (SigMaNet)

相比无向 SNN 基线 NSD，在 Questions、Texas、Telegram、Roman-Empire 上提升尤为显著；相比方向感知 GNN（DirGNN/MagNet/SigMaNet）在 10/12 上更强。仅 Squirrel、Cora 上以微弱差距（0.22、0.79）屈居第二。

合成数据（DSBM 有向随机块模型，$C=5$ 类、特征极少只用入/出度）更能凸显方向的作用：

模型	$\alpha_{ij}=0.05$	$0.08$	$0.10$
Diag-DSNN	98.34	97.22	99.14
O(d)-DSNN	97.28	98.42	98.80
NSD（各变体）	~20	~20	~20
MagNet	78.64	87.52	91.58
SigMaNet	87.44	96.14	98.60

DSNN 三变体接近完美（96–99%），而无向的 NSD 只有 ~20%（恰为 5 类随机猜测水平）——直接证明它对"方向"完全无感。

消融实验¶

配置	现象	说明
DSNN（$q>0$）	取得上表增益	限制映射内含方向相位
DSNN 设 $q=0$	性能回落	丢掉边方向、退化为无向 sheaf
NSD（无向 SNN）	合成集 ~20%	完全无法利用方向社区结构

关键发现¶

增益确实来自"方向"而非"容量"：把 $q$ 置 0（即在 sheaf 内丢弃方向）会让性能掉回无向水平，$q>0$ 才恢复增益；这排除了"只是网络更复杂了所以更好"的解释。
方向越重要、优势越大：在 DSBM 这种社区天然带方向偏置、节点特征几乎无信息的设定下，DSNN 把对手甩开几十个点，说明方向编码在"特征贫瘠"时尤其值钱。
方向预测任务同样领先：在判断 $(u,v)$ 还是 $(v,u)$ 的二分类上，DSNN 在 6/10 数据集最优，其余也是紧随其后（Cora 差 0.01，Film 差 0.18）。
代价可控：复数运算只带来约 4 倍常数开销，渐近复杂度与 NSD 相同；实测小图 8–10s vs NSD 6.5–7.8s，最大图 Questions 上 107s vs 47.5s。

亮点与洞察¶

"幅值管几何、相位管方向"是核心巧思：用复 Hermitian 算子把无向几何与方向解耦到模与相位两个通道，既保住谱卷积必需的实非负谱、又塞进了方向信息，绕开了实反对称矩阵"纯虚特征值导致谱滤波发散"的死结。
一个算子统一三条线：$L_{\tilde F}$ 在不同特例下分别退回经典层拉普拉斯、磁拉普拉斯、符号磁拉普拉斯，把 SNN 与方向感知谱 GNN 两条独立发展的脉络收进同一框架，理论上很优雅。
副产品有独立价值：复值点-边关联矩阵分解 $L^{(q)}=\hat B\hat B^*$ 给出了磁/符号磁拉普拉斯 PSD 的更短证明，可独立用于谱图理论。
可迁移的思路：在任何"需要编码非对称关系又想保 PSD"的谱方法里，都可借鉴"把非对称写进相位、用 Hermitian 算子兜底"的套路，比如超图、时序图的有向推广。

局限与展望¶

$q$ 主要作为超参搜索，虽有把它设为可学参数的初步尝试，但还不是默认配置，最优 $q$ 的选取仍依赖调参。
复数运算带来约 4 倍常数开销与额外显存（Questions 上 107s/更高显存），在超大规模图上的可扩展性未充分验证（部分基线已 OOM）。
仅在 0-cell 与 1-cell（点与边）的胞腔复形上展开，未推广到含 2-cell（面）等更高阶的有向结构；方向相位也只用了单一 $T^{(q)}$ 形式。
评测集中在节点分类与方向预测两类任务，更复杂的有向图任务（如流量/因果推断）尚待检验。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 第一个把方向归纳偏置嵌入 Sheaf 神经网络，且统一了层拉普拉斯与磁/符号磁拉普拉斯。
实验充分度: ⭐⭐⭐⭐ 12 真实 + 合成 + 方向预测三类任务、大量基线，q=0 消融干净；但缺超大图可扩展性验证。
写作质量: ⭐⭐⭐⭐ 理论推导严谨、动机清晰；符号密集，对不熟悉 sheaf 的读者门槛较高。
价值: ⭐⭐⭐⭐⭐ 补上 SNN 在有向图上的空白，理论框架优雅且有可复用的谱工具（PSD 证明、复值关联矩阵分解）。

配置	现象	说明
DSNN（\(q>0\)）	取得上表增益	限制映射内含方向相位
DSNN 设 \(q=0\)	性能回落	丢掉边方向、退化为无向 sheaf
NSD（无向 SNN）	合成集 ~20%	完全无法利用方向社区结构