Out-of-Distribution Graph Models Merging¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=93Y7jSUSpk
代码: https://github.com/siriuslay/OGMM
领域: 图学习 / 模型融合 / 域泛化
关键词: 图模型融合, 分布外泛化, 混合专家, 图生成, 无数据微调

一句话总结¶

本文提出 OGMM，研究"分布外图模型融合"这一新问题：在拿不到任何源/目标域数据、且各 GNN 架构可能异构的前提下，先让每个预训练 GNN 反演生成一小批带标签的合成图，再用带掩码专家的稀疏 MoE 把这些模型微调融合成一个能在未见分布上泛化的统一模型。

研究背景与动机¶

领域现状：图模型泛化（Graph Model Generalization, GMG）的主流做法，是把多个存在分布偏移的域的图数据汇到一起从头训练一个模型，靠不变特征、因果关系或风险外推来抹平域间差异，以求在未见的 OOD 图上保持鲁棒。

现有痛点：现实里更常见的情况是——针对相似任务、但不同数据集，已经各自训练好了一批 GNN（论文称之为 Out-of-Distribution Graph Models）。比如社交网络里，不同用户群、不同架构训出的模型各自抓住了一类行为模式。如图 2 所示，每个模型在自己域内表现好（如 PTC 上 GCN 自域 70.53%），一旦换到别的域就明显掉点（跌到 50% 上下），而且不同架构在不同域各有所长。要把它们统一成一个泛化模型，传统办法是重新从头训练，既复杂又浪费了已学到的知识。

核心矛盾：直接复用这些已训好的模型有两个绕不过去的难点：(1) 不变知识不再显式地存在于数据里，而是隐式编码在模型参数中，从参数里抽取域不变知识本身就很难；(2) 这些模型架构、超参可能各不相同，要把异构专家的本领整合进一个统一表示并不平凡。

本文目标：在不访问任何源/目标域原始数据、不限定 backbone 架构的条件下，把多个预训练 GNN 的知识"合并"成一个在分布偏移下仍能泛化的统一模型。

切入角度：作者引入混合分布假设——目标域分布是各源域分布的线性组合 \(G_T=\sum_i \alpha_i G_i\)，由此可把融合函数写成各专家的线性组合 \(\Gamma=\sum_i \alpha_i f(\Theta_i)\)，并借助 \(\mathcal{H}\Delta\mathcal{H}\)-divergence 推出泛化误差上界。这个理论框架把"融合"落到了"先抽知识、再加权组合专家"两步上。

核心 idea：用"模型反演生成图 + 带掩码专家的稀疏 MoE"代替"重训"，从参数里把每个专家的域知识蒸出来，再让一个轻量门控按样本动态分配、加权这些专家，从而无需原数据就拼出一个泛化模型。

方法详解¶

整体框架¶

OGMM 把"融合一堆异构预训练 GNN"拆成两个串行阶段。第一阶段（标签条件图生成）：把每个预训练 GNN 当作"监督者"，从随机噪声出发反演出一小批带标签的合成图，让这些图最大化原模型的认可度，从而把藏在参数里的域知识"具象"成可训练的数据；各专家生成的图汇聚成混合数据集 \(G^*\)。第二阶段（专家微调与融合）：在 \(G^*\) 上训练一个 MoE 融合模块——它由稀疏门控层（对应组合权重 \(\alpha\)）和一组带掩码的专家（对应微调权重 \(\omega\)）组成，门控按样本把它落到合适的专家上，掩码只微调与下游强相关的少量参数，最终的预测是被掩码专家输出的门控加权和。整个框架与架构无关，且全程不碰任何真实源/目标数据。

理论侧，作者证明：在混合分布假设下，融合模型 \(\Gamma\) 在目标域的泛化误差上界，等于各子学习器跨分布交叉验证误差之和；据此把目标拆成"每个模型的预训练误差 + 在新域上的微调误差 + 合并模型在生成样本上的训练误差"三项，对应到上面两阶段的具体实现。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多个异构预训练 GNN<br/>(无原始数据)"] --> B["标签条件图生成<br/>反演每个专家→合成带标签图"]
    B --> C["混合数据集 G*<br/>各专家生成图汇聚"]
    C --> D["带掩码专家<br/>只微调分类头参数 θΦ⊙ω"]
    C --> E["稀疏门控 MoE<br/>TopK 加噪门控分配样本"]
    D --> F["融合函数 Γ<br/>门控加权专家输出之和"]
    E --> F
    F --> G["统一泛化模型<br/>未见 OOD 图上预测"]

关键设计¶

1. 标签条件图生成：把藏在参数里的域知识"反演"成可训练数据

第一阶段要解决的痛点是——拿不到原始数据，知识只在参数里。作者为每个预训练 GNN \(f(\Theta_i)\) 配一个生成器 \(P_i\)：从标准正态采样节点特征 \(X_i\in\mathbb{R}^{n_i\times d}\)，从均匀分布采一个条件标签 \(\hat y_i\) 当"伪真值"，再用一个离散边编码器从特征构造邻接矩阵。图的特殊难点在于结构 \(A\) 通常是离散变量，难以直接做梯度反演，作者用三层 MLP 加 sigmoid 算边权 \(A^i_{jk}=\sigma(\mathrm{MLP}_\theta([X^i_j;X^i_k]))\)，再用 Gumbel-Softmax 把边权逼近成 \([0,1]\) 内的近似二值（温度 \(\tau\to 0\) 时趋于 0/1），从而绕开离散梯度近似。生成损失除了标签条件后验损失 \(C(\hat y_i,f(\Theta_i,X_i,A_i))\)，还加了两个正则：一是BN 统计匹配 \(R_{bn}\)，强迫生成图嵌入的均值/方差对齐预训练模型 BN 层里记录的统计量；二是置信度正则 \(R_{conf}\)（生成图分类熵的负期望），确保生成图判别明确、不停留在模糊状态。合起来 \(L_{gen}=\sum C(\hat y_i,f)+R_{bn}+R_{conf}\)。相比只学节点特征的 Inverse-X，这里同时学特征和结构，能更好恢复域特定知识。

2. 带掩码专家：只微调分类头，定位下游相关的"神经通路"

把预训练 GNN 直接当专家会"水土不服"——它带着自己域的偏置。作者借鉴 mask tuning，对专家参数 \(\theta^i_*\) 学一个掩码矩阵 \(\omega_i\)，用 Hadamard 积得到微调后的 \(\hat\theta^i_*=\theta^i_*\odot\omega_i\)，相当于挑出并重新加权新任务真正需要的参数、形成一条"下游相关的神经通路"。关键观察是：在 2 层 GNN 这种浅网络里，掩码加在哪很要紧。作者假设域特定知识高度集中在分类头（高维表示最容易学到域专属信息），因此只微调分类头参数最合理也最高效——实验（图 4）证实只掩分类头（MaskCL）就能拿到有竞争力的性能，而掩码规模平均只占 2 层 GNN 总参数的约 20%。这让融合既轻量又不破坏编码器里的通用知识。

3. 稀疏门控 MoE：按样本动态分配并加权异构专家

有了能干活的专家，还需要一个机制把样本"派"给最合适的专家并组合输出，这正是把混合分布假设落地为可学函数的地方。MoE 输出写成 \(\hat H_i=\sigma(\sum_j \mathrm{Gate}(X_i)_j H_{i,j})\)，门控用 TopK 稀疏选择 \(\mathrm{Gate}(G_i)=\mathrm{softmax}(\mathrm{TopK}(Q(G_i),k))\)，其中打分 \(Q(G_i)=G_iW_g+\epsilon\cdot\mathrm{softplus}(G_iW_n)\)：\(W_g\) 算干净的专家选择分，\(W_n\) 注入可控高斯噪声 \(\epsilon\sim N(0,1)\) 以防止专家坍缩、保证负载均衡。整个融合函数 \(\Gamma_{\omega,W_g,W_n}(G_i)=\sum_j \mathrm{Gate}(G_i)_j f(\Theta_j,\omega_j,G_i)\) 就实现了"样本—专家"的动态分配逻辑。理论上，作者证明这个带掩码的微调 MoE 正是泛化风险函数的一个近似，因此它能在混合分布构成的更宽泛化平面上覆盖未见图。

4. 门控与掩码的双正则：既要均衡又要少改原参数

为约束门控和掩码的优化方向，作者加了两个正则。门控用基于变异系数的重要性损失 \(R_{gate}=CV(\sum_{G_i}\mathrm{Gate}(G_i))^2\)，衡量"样本—专家"配对的权重离散度，鼓励权重均匀、强制所有专家负载均衡，避免门控只盯一个专家。掩码侧 \(R_{mask}\) 则在"学新知识"和"少动冻结参数"之间取舍：第一项是生成图上的分类损失负责学新知识，第二项用两个阈值 \(\gamma_v,\gamma_p\) 分别控制掩码的均值与方差，限制对原参数的改动幅度以防"遗忘"旧知识。合并阶段总损失 \(L_{merge}=\sum C(\hat y_i,\Gamma_\Phi(G_i))+\lambda_{gate}R_{gate}+\lambda_{mask}R_{mask}\)，其中 \(\Phi=\{\omega,W_g,W_n\}\)。

损失函数 / 训练策略¶

两阶段分别优化：第一阶段对每个生成器最小化 \(L_{gen}\)（标签条件后验损失 + BN 匹配 + 置信度正则），冻结预训练 GNN 只优化生成器输入与参数；第二阶段在汇聚的生成数据 \(G^*\) 上最小化 \(L_{merge}\)，联合学习掩码 \(\omega\)、门控权重 \(W_g,W_n\)。实验中所有被融合 GNN 均为 2 层、32 维的小网络，门控 TopK 的 \(k\) 是关键超参。

实验关键数据¶

主实验¶

在 MUTAG、PTC、REDDIT-B、NCI1 四个图分类数据集上，按边-点比把每个数据集切成不同密度的域（A 低密度 / B 中密度 / T 高密度测试集）模拟域偏移，用 Acc 和 Pre 衡量目标域泛化。被融合的是 GCN/GAT/GIN 三种架构在不同源域上的预训练模型。

方法	REDDIT-B Acc	PTC Acc	MUTAG Acc	NCI1 Acc
Avg-PTM（多模型平均）	52.47	50.20	31.48	56.58
Ens-Prob（概率集成）	33.65	50.17	29.84	58.05
Uni-Soup（参数平均）	43.26	50.20	37.40	48.73
Greedy-Soup（贪心融合）	47.35	50.17	31.46	38.64
Inverse-X（仅学节点特征）	56.21	50.43	38.75	62.39
Multi-GFKD（多教师蒸馏）	54.35	50.77	44.36	47.57
OGMM	76.98	51.21	45.62	66.84

OGMM 在四个数据集上全面超越单个预训练模型、集成方法、参数融合（soup 类）以及生成式基线，尤其在 REDDIT-B、NCI1 这类较大数据集上提升显著（REDDIT-B Acc 比次优的 Inverse-X 高 20 个点）。参数融合类（Uni-Soup/Greedy-Soup）表现最差，印证了对 OOD 问题"融合模型输出"比"直接平均参数"更有效。

消融实验¶

配置	REDDIT-B Acc	MUTAG Acc	NCI1 Acc	说明
OGMM (Source-Free)	76.98	45.62	66.84	完整模型（无原数据）
w/o MoE	50.39	39.53	60.62	去掉门控融合
w/o Mask	31.98	28.28	51.11	去掉掩码专家
w/o \(L_{gen}\)	41.15	45.31	52.69	去掉生成正则
OGMM (Given Source)	80.98	57.81	68.04	用真实源数据替代生成图

关键发现¶

掩码最关键：去掉掩码后 REDDIT-B 从 76.98 暴跌到 31.98，是掉点最狠的一项，说明只微调分类头的掩码专家是把异构模型适配到新域的核心。
生成图能逼近真实数据：用真实源数据（Given Source）只比用生成图（Source Free）略高（REDDIT-B 80.98 vs 76.98），证明反演生成的图确实有效蒸馏并代表了域知识，甚至有时比原数据更精炼。
掩码位置很重要：MaskCL（只掩分类头）在多数据集上明显优于掩编码器（MaskNN），且掩码仅占约 20% 参数，验证了"域特定知识集中在分类头"的假设。
门控 TopK 的 \(k\) 敏感：作者分析了 \(k=1\sim6\) 对 Acc/Pre 的影响，存在合适的稀疏度区间。

亮点与洞察¶

把"模型融合"建模成"先反演造数据、再 MoE 加权"：用 BN 统计 + 置信度正则做无数据反演，把藏在参数里的隐式域知识转成可训练的合成图，巧妙绕过了"拿不到原数据"的现实约束。
掩码只动分类头：用约 20% 参数的掩码定位"下游相关神经通路"，既轻量又避免破坏编码器通用表示——这个"浅网络里域知识集中在分类头"的观察很有迁移价值，可用于其它无数据微调场景。
理论与实现对齐：从混合分布假设出发，把泛化误差上界拆成三项，恰好对应"预训练误差/微调误差/合并训练误差"，让 MoE+掩码不只是工程拼装，而是泛化风险函数的近似。
架构无关 + 无数据：能融合 GCN/GAT/GIN 异构 backbone 且全程不碰真实数据，这套设定比传统域泛化更贴近"已有一堆现成模型想复用"的实际场景。

局限与展望¶

实验集中在 2 层、32 维的小型 GNN 和中小规模图分类数据集（大规模/节点级任务放在附录），更大模型、更复杂任务上的可扩展性还需进一步验证。
混合分布假设（目标域是源域的线性组合）是理论推导的基石，但真实分布偏移未必满足线性可加，假设不成立时泛化界是否仍紧值得关注。
反演生成图的质量依赖 BN 层统计——对没有 BN 或 BN 很少的架构，生成正则可能失效；且生成图数量、温度 \(\tau\) 等超参对最终融合的影响需要调。
门控的 TopK \(k\) 与掩码阈值 \(\gamma_v,\gamma_p\) 等超参较多，调参成本不低。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出"分布外图模型融合"问题，并给出无数据、架构无关的完整方案与理论界。
实验充分度: ⭐⭐⭐⭐ 四数据集 + 多类基线 + 充分消融，但模型/数据规模偏小，大规模验证放在附录。
写作质量: ⭐⭐⭐⭐ 理论推导与方法实现对应清晰，符号偏密集。
价值: ⭐⭐⭐⭐⭐ "复用现成异构模型而非重训"的设定贴近现实，掩码集中分类头等观察可迁移。