Copresheaf Topological Neural Networks: A Generalized Deep Learning Framework¶

会议: NeurIPS 2025
arXiv: 2505.21251
代码: 无
领域: 3D视觉
关键词: 拓扑神经网络, 余预层(copresheaf), 组合复形, 消息传递, 各向异性表示学习

一句话总结¶

本文提出 Copresheaf Topological Neural Networks (CTNNs)，基于代数拓扑中的余预层（copresheaf）概念，在组合复形（combinatorial complex）上定义方向性、异质的消息传递机制，统一了 CNN、GNN、Transformer、Sheaf Neural Networks 和拓扑神经网络等多种深度学习架构，并在物理模拟、图分类和高阶复形分类任务上超越传统基线。

研究背景与动机¶

领域现状: 深度学习在利用结构先验方面取得巨大成功——CNN 用于图像、Transformer 用于序列、GNN 用于图。然而，设计一个能跨域泛化的统一架构（尤其针对复杂、不规则、多尺度结构数据）仍是持久挑战。

现有痛点: CNN 无法捕捉局部不规则性；GNN 依赖同质性假设且随深度增加容易过平滑；Transformer 虽擅长长程依赖但假设同质嵌入空间、计算复杂度为二次方、缺乏内置的各向异性和可变局部结构概念。已有的 Sheaf Neural Networks (SNNs) 基于 cellular sheaf，需要中间的边特征空间和对称性约束（限制映射），限制了表达能力。

核心矛盾: 现有模型普遍假设单一全局隐空间和各向同性的信息传播，这与真实数据的异质性、方向性和层次性本质不匹配。需要一个能原生编码多样局部行为、尊重定向耦合、跨尺度传播信息的统一框架。

本文目标: 构建一个基于余预层的统一深度学习框架，为每个局部区域赋予独立的特征空间和可学习的信息传输映射，从而自然支持多尺度、各向异性、异质的消息传递。

切入角度: 利用代数拓扑中的余预层（copresheaf）概念——每个顶点有独立的向量空间（stalk），每条有向边有可学习的线性映射，避免了 sheaf 的对称性约束和边特征空间要求。在组合复形这一最一般的拓扑结构上构建消息传递机制。

核心 idea: 用余预层替代 sheaf 作为消息传递基础，在每条边上定义方向性可学习映射 ρ_{y→x}，将 CNN、GNN、Transformer、SNN、TNN 统一为 CTNN 的特殊情形。

方法详解¶

整体框架¶

CTNN 建立在三个层次之上： 1. 组合复形（CC）: 作为底层拓扑结构，推广图、单纯复形、胞腔复形和超图。CC 由有限顶点集 S、胞腔集合 X ⊂ P(S) 和秩函数 rk 组成，满足集合包含蕴含秩不减。 2. 邻域依赖的余预层: 由 CC 上的邻域函数 N 导出有向图 G_N，在该图上定义余预层——每个顶点（胞腔）x 赋予向量空间 F(x)，每条有向边 y→x 赋予可学习线性映射 ρ_{y→x}: F(y) → F(x)。 3. 余预层消息传递: 在余预层框架下定义高阶消息传递，支持跨秩、多邻域的聚合。

关键设计¶

余预层邻域矩阵（CNM）: 推广传统 0/1 邻域矩阵，将条目替换为余预层映射 ρ_{z_i→y_j} ∈ Hom(F(z_i), F(y_j))。进一步定义余预层邻接矩阵（CAM，编码共享上胞腔的关系）和余预层关联矩阵（CIM，编码包含关系），分别驱动不同类型的拓扑消息传递。
余预层消息传递神经网络（CMPNN）: 核心更新公式为 h_x^{(l+1)} = β(h_x^{(l)}, ⊕{(y→x)∈E} α(h_x^{(l)}, ρ）。} h_y^{(l)}))。与标准 MPNN 不同，ρ_{y→x} 是每条边独立的可学习线性映射，实现方向性、各向异性的特征变换。理论证明 SNN 是 CMPNN 在双向图上的特例（Theorem 1：ρ_{y→x} = F_{x⊲e}^T ∘ F_{y⊲e
高阶余预层消息传递: 在 CC 上定义多邻域聚合：h_x^{(l+1)} = β(h_x^{(l)}, ⊗k ⊕)))。其中 ⊕ 为置换不变聚合器，⊗ 组合来自不同邻域的信息。统一了单纯消息传递、胞腔消息传递、Hodge 稳定传递等多种架构。} α_{N_k}(h_x^{(l)}, ρ_{y→x}^{N_k}(h_y^{(l)
余预层 Transformer（CT）: 将余预层映射集成到自注意力机制中。值向量在聚合前经过余预层变换：m_x = Σ_{y∈N_k(x)} a_{xy} ρ_{y→x}(v_y)，注意力权重 a_{xy} 仍由查询-键点积计算。当 ρ = I 时退化为标准 dot-product attention。两个变体：CT-FC（直接学习全 d×d 变换矩阵）和 CT-SharedLoc（共享变换 + 局部标量调制）。

损失函数 / 训练策略¶

物理模拟: MSE 损失，AdamW 优化器，学习率 10⁻³，cosine调度
图分类: 负对数似然损失，Adam 优化器，学习率 0.01
CC分类: 交叉熵损失，Adam 优化器，学习率 10⁻³
余预层映射参数化: ρ_{ij} = I + Δ_{ij}，其中 Δ_{ij} = tanh(Linear([h_i; h_j]))（残差形式，I为恒等矩阵）

实验关键数据¶

主实验：物理模拟（Transformer vs Copresheaf Transformer）¶

任务	Classical MSE	Copresheaf MSE	改进
Heat (扩散)	2.64×10⁻⁴ ± 3.50×10⁻⁵	9.00×10⁻⁵ ± 7.00×10⁻⁶	>50% ↓
Advection (平流)	3.52×10⁻⁴ ± 7.70×10⁻⁵	1.20×10⁻⁴ ± 1.20×10⁻⁵	>50% ↓
Unsteady Stokes	1.75×10⁻² ± 1.32×10⁻³	1.48×10⁻² ± 1.48×10⁻⁴	~15% ↓

消融实验：图分类（MUTAG 数据集）¶

模型	准确率
GCN	0.674 ± 0.014
CopresheafGCN	0.721 ± 0.035
GraphSAGE	0.689 ± 0.022
CopresheafSage	0.732 ± 0.029
GIN	0.700 ± 0.039
CopresheafGIN	0.724 ± 0.021

补充实验：CC 分类¶

模型	准确率
Classic Transformer	0.940 ± 0.014
CT-FC	0.955 ± 0.009
CT-SharedLoc	0.970 ± 0.010

关键发现¶

余预层注意力在热扩散和平流任务中将 MSE 降低超50%，且跨种子稳定性显著提高。
在 MUTAG 图分类中，余预层增强的 GNN 一致优于原版，CopresheafSage 获得最大相对增益（+4.3%绝对精度）。
CT-SharedLoc 的共享变换+局部调制策略在 CC 分类中表现最优，说明在共享全局结构和局部自适应之间取得平衡很重要。
不同 GNN backbone（GCN/SAGE/GIN）均从余预层增强中获益，验证了框架的通用性。

亮点与洞察¶

理论统一性极强: 用余预层这单个数学概念统一了 CNN、GNN、Transformer、SNN、TNN 五大类架构，并严格证明了这些架构均为 CTNN 的特例。
打破单一隐空间假设: 传统深度学习假设所有节点共享同一隐空间，CTNN 允许每个节点有独立的隐空间维度和方向性映射，更符合异质数据的实际需求。
Sheaf → Copresheaf 的简化: 余预层避免了 sheaf 架构需要边特征空间和对称限制映射的复杂性，仅需定义顶点到顶点的直接映射，实现上更简洁。
残差式参数化: ρ_{ij} = I + Δ_{ij} 的设计保证了当 Δ→0 时退化为标准模型，训练稳定且易于优化。

局限与展望¶

计算开销: 每条边的余预层映射引入额外参数和计算，当前仅在中小规模数据上验证。如何扩展到大规模图和高分辨率数据是主要挑战。
实验规模有限: 物理模拟使用合成数据（100-200样本），图分类仅在 MUTAG（188图）上测试，缺少在 OGB 等大规模基准上的验证。
纯线性映射限制: 当前余预层映射 ρ_{y→x} 为线性变换，未探索非线性余预层映射的表达能力和理论性质。
动态场景未涉及: 当前框架为静态拓扑结构，对于随时间演化的图/复形结构缺少讨论。
可解释性: 学习到的余预层映射的几何和拓扑含义尚未深入分析。

评分¶

⭐⭐⭐⭐ 理论框架极其统一漂亮，用余预层和组合复形构建了深度学习的元框架；实验规模偏小但一致性好，方向感强；实际可扩展性有待验证。