跳转至

Multi-Domain Riemannian Graph Gluing for Building Graph Foundation Models

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=G3uNHQpP7J
代码: https://github.com/RiemannGraph/GraphGlue
领域: 图基础模型 / 黎曼几何表示学习 / 多域图预训练
关键词: Graph Foundation Model, Multi-domain Pre-training, Riemannian Manifold, Manifold Gluing, Holonomy, Transferability

一句话总结

本文用微分几何的"流形粘接"视角重构多域图预训练:把任意图数据集融合进一个统一、光滑的黎曼流形上,从而第一次给"知识如何跨域整合与迁移"提供了严格的理论刻画,并据此提出可量化迁移难度、带几何缩放律的 GRAPHGLUE 框架。

研究背景与动机

领域现状:图基础模型(GFM)希望复刻 NLP/CV 里"多域预训练 + 下游迁移"的成功范式。一类方法借助 LLM 抽取文本语义,但只能处理文本属性图;另一类面向无文本图,靠 graph codebook、motif、computation tree 学习共享/不变知识,再用 domain token、in-context learning 等做下游适配。

现有痛点:尽管效果不错,这些方案始终回避了一个根本问题——知识到底是怎么跨域整合和迁移的?现有的跨域相似度度量(如 GFT、Ruiz 等)并没有把"预训练"和"域适配"放进同一个一致的框架里,导致无法评估迁移难度,对没见过的图更是束手无策。

核心矛盾:多域图之间语义高度异质(社交网络 vs 生物分子),缺乏一个能同时承载"整合"与"迁移"的统一数学结构,使得迁移性既不可解释也不可量化。

本文目标:建立一个对预训练和适配都一致的理论框架,既能解释知识整合/迁移机制,又能给出可量化、可解释的迁移难度度量。

核心 idea流形粘接):把每个图的局部几何刻画成一个小的黎曼流形片,再像拓扑学里"粘接图册"那样,沿边、三角形把这些局部片粘接(gluing)成一个统一、光滑的全局黎曼流形。在这个统一流形上,不同域占据不同位置,知识迁移就变成"沿流形输运",迁移难度则由几何形变量自然衡量。

方法详解

整体框架

GRAPHGLUE 是一个"预训练—适配"框架:预训练阶段先用稀疏扰动 + 自适应正交标架学每个节点的局部几何,再通过边切向平移与三角全纯(holonomy)把局部片粘接、并用 Ricci 曲率把流形磨光滑,配合 EMA 黎曼原型实现分批大规模预训练;适配阶段用可学习 prompt 与黎曼专家混合(RMoE)把目标域"粘"到预训练流形上,保证几何一致,并由度量兼容性自然导出几何迁移度量 GTM。

flowchart LR
    A[多域源图] --> B[稀疏扰动<br/>M个虚拟节点]
    B --> C[GNN 编码<br/>+ 自适应正交标架 AOF]
    C --> D[局部度量 Gi<br/>= W^T W]
    D --> E[沿边切向平移<br/>+ 三角全纯粘接]
    E --> F[Ricci 曲率<br/>磨光滑]
    F --> G[统一光滑流形<br/>+ EMA 黎曼原型]
    G --> H[Prompt 适配<br/>+ 黎曼 MoE]
    H --> I[目标域粘接<br/>GTM = ΔH + ΔC]

关键设计

1. 自适应正交标架(AOF):用深度学习把"局部切空间"造出来。流形上每一点的局部几何由其切空间决定,但传统 Cartan 移动标架法缺乏深度学习实现。本文先定义 \((k, M)\)-稀疏扰动:给图加 \(M\) 个虚拟扰动节点 \(P=\{p_m\}\),每个虚拟节点用注意力 \(h(x_i,p_m)\) 连到 top-\(k\) 个真实节点,模仿方向导数 \(D_v f=\lim_{t\to 0}\frac{f(p+tv)-f(p)}{t}\) 来生成一组切向量;再经 GNN 编码、QR 分解并恢复长度,得到正交标架 \(\{w_m\}\) 及其对偶标架 \(\{\theta_m\}\)。论文证明长度恢复很关键——切向量长度受扰动上界 \(\|w_m^p\|\le(1+\varepsilon)\|P\|\) 约束,标架的角度和长度分别反映空间被"扭转"和"拉伸"的程度。最终每点的局部度量写成对角形式 \(G_i=W^{(i)\top}W^{(i)}=\mathrm{diag}(\|w_1\|^2,\dots,\|w_M\|^2)\),把"几何"落地成可微的张量。

2. 沿边与三角的粘接:让一堆孤立流形片拼成连续整体。有了 \(N\) 个孤立局部片 \(\{M^{(i)}\}\) 后,要拼成有全局度量的统一流形。本文先做边切向平移 \(P^{(i,j)}=G_j^{-1/2}\big(G_j^{1/2}G_iG_j^{1/2}\big)^{1/2}G_j^{-1/2}\),证明它是 \(\min_P\|P^\top G_jP-G_i\|_F^2\) 的最优解、构成边界间的等距同构,从而保证沿边的度量兼容性并诱导出唯一全局度量(Thm 4.5、4.6),且借 QR 分解把复杂度降到 \(O(M)\)。但沿三角形、回路绕一圈时会产生偏移,使流形连通却不处处连续。为此引入全纯(holonomy):沿闭曲线 \(C\) 的传输映射复合 \(H(C)=\prod_\ell P^{(i_\ell,i_{\ell+1})}\),当它等于恒等映射时偏移消失。对应的全纯损失 \(L_{holo}=\frac{1}{|A|}\sum_{A_{ijk}}\|P^{(k,i)}P^{(j,k)}P^{(i,j)}-I\|_F^2\) 惩罚三角形偏移;Thm 4.8 证明只要每条边属于某个三角形且所有三角全纯平凡,则所有回路全纯都平凡——即把"逐三角拉直"升级成"整体 \(C^1\) 连续"。

3. Ricci 曲率磨光滑 + 几何缩放律:从 \(C^1\) 连续到 \(C^2\) 光滑\(C^1\) 连续还不够,要消除阻碍知识输运的"褶皱"需要 \(C^2\) 光滑,即控制 Ricci 曲率。直接算 Ricci 太贵,本文改用相邻两点的体积变化比 \(r(z^{(i)},z^{(j)})=\frac{\det G_i}{\det G_j}\approx 1-\frac{1}{3}\mathrm{Ric}(\dot\gamma)\)(Thm 4.9)来估曲率符号。进而定义对数体积密度标量场 \(g_i=\frac{1}{2}\log\det G_i\),用图 Dirichlet 能量 \(\|L^k g\|^2\) 刻画 \(k\) 阶光滑,得到曲率损失 \(L_{Curv}=\frac{1}{|A|}\sum_{A_{ijk}}|\log r_{ij}-\log r_{jk}|^2\)。当数据集规模增大、流形趋近理想光滑形态时,论文导出几何缩放律:图数据越多,流形越光滑,模型迁移性越强(Sec 6.2 实证验证)。

4. EMA 黎曼原型 + 可量化迁移度量 GTM。预训练阶段给每个图配一个黎曼原型 \((z_{S_k},\log G_{S_k})\)(全局位置 + 度量的对数均值),用 EMA 分批更新——因度量矩阵属于对称正定流形,这里用矩阵对数更新 \(\log G_{S_k}\leftarrow\beta\log G_{S_k}+(1-\beta)\frac{1}{|B_k|}\sum_{G\in B_k}\log G(z_G)\),既高效处理大图又用样本-原型对比损失 \(L_{proto}\) 把各域语义在流形上分开。适配阶段用 prompt 矩阵 \(Q\) 调整坐标 \(z_{adapt}=Qz^T\) 与度量 \(G_{adapt}=\mathrm{diag}(\|Qw_1^T\|^2,\dots)\),把目标样本连到 \(k\) 近邻原型构成 transfer graph \(G_0\) 并施加 \(L_{holo}(G_0)+L_{curv}(G_0)\) 完成"粘接";黎曼 MoE 把每个原型当专家加权融合。迁移难度由 GTM \(=\Delta H+\Delta C\) 自然给出:\(\Delta H=L_{holo}(G_0)\) 衡量目标引入的"扭转",\(\Delta C=L_{curv}(G_0)\) 衡量"弯折/体积突变"。GTM 低说明目标几乎无形变即可融入流形(高迁移性),高则说明目标在几何上"格格不入"。

实验关键数据

主实验表格

6 个代表性域、leave-one-out 跨域迁移(5 源 1 目标),few-shot(1/5-shot)微调,10 次独立运行均值。节点/边分类用 ACC、图分类用 AUC。

Model Arxiv 1-shot Arxiv 5-shot Computers 1-shot Computers 5-shot Reddit 1-shot Reddit 5-shot FB15k 1-shot FB15k 5-shot PROTEINS 1-shot PROTEINS 5-shot
GCN 12.6 27.6 33.8 65.7 11.1 28.3 32.1 52.4 50.1 55.0
GIN 11.2 26.0 44.7 69.5 18.5 29.0 38.2 63.7 54.2 58.8
GFT 26.5 36.7 54.6 69.1 58.8 66.2 58.0 79.1 55.4 62.1
GCOPE 26.5 39.1 54.5 72.2 62.7 80.4 58.2 79.3 55.1 64.8
MDGFM 26.0 32.2 46.6 64.0 64.8 76.5 56.1 77.6 53.4 57.7
GRAPHGLUE 28.8 37.0 59.5 73.2 67.1 85.0 59.7 81.5 59.8 65.3

GRAPHGLUE 在多数设置取得最优:1-shot 下 Computers/Reddit 分别比最强 baseline 高 4.9% / 2.3%;5-shot Reddit 达 85.0% ACC,超亚军 4.6%。

消融实验表格

(Appendix G)逐项移除 \(L_{curv}\)\(L_{holo}\)

变体 效果
完整 GRAPHGLUE 最优
\(L_{holo}\)(不做全纯粘接) 下游性能下降
\(L_{curv}\)(不做曲率磨光滑) 下游性能下降

结论:基于全纯的粘接与基于 Ricci 曲率的磨光滑,对下游任务都不可或缺。

关键发现

  • GTM 确实度量迁移难度:在 Computers 上做 2000 epoch 迁移时,全纯损失迅速归零,曲率损失随训练下降收敛,且测试任务损失呈现同样的下降模式;曲率损失振幅的收敛还预示了测试损失的收敛,与平坦极小点理论(Keskar、Czarnecki)吻合。
  • 几何缩放律成立:预训练语料从 Reddit → Reddit+PROTEINS → Reddit+PROTEINS+HIV 逐步加入异质域时,更多数据产出更光滑的流形,迁移性随之提升,验证了 Thm 4.11 的理论预言。

亮点与洞察

  • 把"图基础模型的迁移"从经验问题升格为微分几何问题:流形粘接给"知识整合/迁移"提供了首个一致、可证明的数学框架,预训练和适配统一在"构造/对齐同一个光滑流形"之下。
  • 理论与可操作损失一一对应:度量兼容 → 边切向平移、连续性 → 全纯损失、光滑性 → 曲率损失,每条定理都落到一个可微目标上,理论不是装饰而是直接驱动训练。
  • 迁移难度可量化又可解释:GTM = 扭转(ΔH)+ 弯折(ΔC),是从模型自身几何导出的内在量,比单纯的源-目标相似度更能刻画"融入难度",对未见域也适用。
  • 几何缩放律给"加数据"一个几何解释:数据越多流形越光滑、迁移越好,把 scaling law 落到流形曲率上。

局限与展望

  • 理论假设较强:Thm 4.11 要求 \(\infty\)-阶对数行列式光滑且全纯平凡才严格粘成光滑流形,实践中只能近似(用 2 阶光滑、三角全纯),理论与实现间存在 gap。
  • 计算与实现门槛高:涉及 QR 分解、矩阵对数 EMA、对称正定流形更新、逐三角全纯/曲率损失,工程复杂度和超参(\(\beta,\tau,\lambda,k,M\))调试成本较高。
  • 评测规模有限:仅 6 个域、few-shot(1/5-shot)设定,缺乏更大规模、zero-shot 或更多任务类型(如回归、生成)的验证;异质图仅在附录涉及。
  • 可拓展方向:把流形粘接思路用于跨模态(图+文本/分子+蛋白),或探索 GTM 作为"该不该迁移/选哪些源域"的主动数据选择信号。

相关工作与启发

  • 图基础模型:LLM 驱动的文本属性图方法、面向知识图/推荐/分子的专用 GFM,以及无文本图的多域预训练;本文站在"text-free + 统一流形"一侧。
  • 多域图预训练:生成式(GraphMAE)/对比式(DGI、GCC)自监督,以及学共享/不变知识的 GFT、MDGFM、GCOPE 等;本文补上了它们缺失的"迁移机制理论"。
  • 黎曼图表示学习:以往多针对特定流形(双曲、球面、积流形)做特定任务,Sun 等在积流形上设计 GNN backbone;本文转向"构造通用流形 + 多域预训练框架",而非特定流形。
  • 启发:Cartan 移动标架法的深度学习化(AOF)是个通用工具,可能迁移到其他需要"在数据上构造可微几何"的场景,如流形上的扩散模型或几何感知的对比学习。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用流形粘接 + 全纯 + Ricci 曲率把多域图预训练重铸为微分几何问题,视角和理论建构都很原创。
  • 实验充分度: ⭐⭐⭐⭐ 6 域跨域迁移 + GTM 验证 + 几何缩放律实证较扎实,但域数量、任务类型与规模偏有限,zero-shot 缺位。
  • 写作质量: ⭐⭐⭐⭐ 理论叙述严谨、定理与损失对应清晰、框架图直观;但数学密度高、对非几何背景读者门槛较陡。
  • 价值: ⭐⭐⭐⭐⭐ 为图基础模型的"可解释、可量化迁移"提供了坚实理论基座,几何缩放律和 GTM 都有较强的方法论延展性。