ICLR 2026 图学习图神经网络自监督学习异配图同配图师生预测架构 JEPA 动态掩码

HarmonyGNNs: Harmonizing Heterophily and Homophily in GNNs via Self-Supervised Node Encoding¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=mGxtoQY3GA
代码: 已开源（论文中给出 GitHub 链接）
领域: 图自监督学习 / 图表示学习
关键词: 图神经网络, 自监督学习, 异配图, 同配图, 师生预测架构, JEPA, 动态掩码

一句话总结¶

HarmonyGNNs 用「师生预测式自监督（JEPA 风格）+ 节点难度驱动的动态掩码」做目标和谐，再用「线性/MLP 投影 + 加权 GCN + 特征级自注意力 + 层次融合」做表示和谐，让同一个无标签框架同时在同配图和异配图上都拿到 SOTA。

研究背景与动机¶

领域现状：图自监督学习（Graph SSL）摆脱了对标签的依赖，在低标注场景下成为主流；但现有方法分两派——对比式（DGI/GRACE/BGRL）依赖复杂的负采样和数据增强，生成式（GraphMAE）则直接重建原始特征。
现有痛点：真实图同时混合同配（相连节点标签相似，如 Cora 同配率 0.81）和异配（相连节点标签相异，如 Roman-Empire 同配率仅 0.05）两种模式，且强度因数据而异。大多数 Graph SSL 在异配图上表现很差，泛化能力受限——尤其在没有标签引导、只能依赖原始结构和特征的 SSL 设定下，这个问题被进一步放大。
核心矛盾：(1) 目标层面——对比式用 InfoNCE 这类相对目标，缺乏稳定的全局参考，混合图里说不清哪种模式该主导，无法收敛到统一隐空间；生成式强行重建原始特征，在异配邻居属性相异时会给出自相矛盾的监督信号。(2) 表示层面——同配区域需要"平滑"以捕捉相似性，异配区域需要"区分"以保留差异，现有方法无法自适应平衡，总偏向某一种模式。
本文目标：用单一统一框架，无需任何关于图属性的先验，自动横跨同配-异配全谱。
核心 idea：[目标和谐] 用师生预测架构提供稳定的整体监督锚点 + 节点难度驱动的动态掩码生成既有挑战又有信息量的代理任务；[表示和谐] 把节点编码成"既保留节点特异性、又保留结构感知"的联合隐空间，用特征级自注意力自适应混合两类模式。

方法详解¶

整体框架¶

HarmonyGNNs 是端到端的 JEPA 风格图 SSL 框架。教师网络看完整图、学生网络看被部分掩码的图，学生被训练去预测教师对全部节点（掩码+未掩码）的嵌入，教师参数是学生的指数滑动平均（EMA）。每个节点先经过"联合结构节点编码"——把线性投影、MLP 投影、两层加权 GCN 输出当作 4 个 token，过一个特征级 Transformer 块再层次融合成最终表示。掩码策略在 warm-up 随机掩码后切换为"利用-探索"：用节点难度分挑出当前最难的节点优先掩码。

flowchart TD
    A[输入图 G] --> B[教师网络 T<br/>EMA 更新·看完整图]
    A --> C[随机掩码 M] --> D[掩码图 Ḡ]
    D --> E[学生网络 S<br/>端到端训练]
    subgraph 联合结构节点编码
        F[线性投影] & G2[MLP 投影] & H[1-hop WGCN] & I[K-hop WGCN] --> J[4-token 特征级 Transformer]
        J --> K[层次融合 → S·v·]
    end
    E --> 联合结构节点编码
    B --> L[全节点特征预测损失<br/>StopGrad]
    K --> L
    L --> M[节点难度分 Diffi·v·] --> N[动态掩码 → 下一轮 M]
    N -.-> C

关键设计¶

1. 全节点预测的师生预测架构：用 EMA 锚点替代相对目标，绕开崩塌与负采样。 受 JEPA 在视觉中成功的启发，作者用师生而非编码器-解码器：对掩码节点 \(v\in V_m\)，把原始特征替换成从白噪声 \(f(v)\sim\mathcal{N}(0,1)\) 初始化的可学习参数；学生 \(S(\cdot;\Phi)\) 看掩码图、教师 \(T(\cdot;\Psi)\) 看完整图，教师不训练而是学生的 EMA：\(\Psi_i=\alpha\Psi_{i-1}+(1-\alpha)\Phi_i\)。关键在于损失算的是整张图而非只有掩码节点——因为图节点互联依赖强，掩码与未掩码节点会相互影响，只预测掩码节点不足以学到有意义的隐空间：\(L(\Phi)=\frac{1}{N}\sum_{v\in V}\lVert S(v;\Phi)-T(v;\Psi)\rVert_2^2\)。在隐空间里做特征预测、又有 EMA 稳定的目标，既避免了对比式的负采样，又比生成式直接重建原始特征更不容易在异配区给出矛盾信号。理论上（Thm.1）师生模型的收缩因子 \(1-\mu_E^2/\beta_E^2\) 小于编码器-解码器的 \(1-\min(\mu_E^2,\mu_D^2)/\max(\beta_E^2,\beta_D^2)\)，因此收敛更快、更稳。

2. 节点难度驱动的动态掩码：让代理任务始终聚焦"学生最学不会的节点"。 纯随机掩码对拓扑性质未知的图不够，于是先用随机掩码 warm-up，之后按利用率 \(r\) 用难度挑 \(m=\lfloor M\times r\rfloor\) 个节点、其余随机采样保留探索。难度分直接复用预测损失 \(\text{Diffi}(v)=\lVert S(v)-T(v)\rVert_2^2\)。两个变体：+Diffi 把节点按难度降序排，直接挑前 \(m\) 个最难的掩码，但容易过度聚焦少数高难节点；+Prob 改用伯努利采样 \(M(v)\sim\text{Bernoulli}(p_v)\)，\(p_v=p_0+\delta_v\)，其中基础概率 \(p_0=(1-r)\times R\) 对所有节点相同、难度增量 \(\delta_v=\frac{\text{Diffi}(v)}{\text{Diffi}_{\max}}\times r\times R\) 让难节点被掩概率更高，兼顾探索与利用（并做 sanity check 防止掩太多/太少）。这样的目标同时和谐了易/难样本与同配/异配信号。

3. 加权 GCN（WGCN）：用可学习边权在"平滑"与"锐化"间自适应切换。 传统 GCN 是平滑算子，利同配而损异配。WGCN 让每条边的权重可学：\(H^{(l+1)}=\sigma(A\cdot H^{(l)}\cdot W^{(l)})\)，其中 \(A_{ij}\) 是可学习参数，初始化为带自环的归一化邻接 \(\tilde{A}=\tilde{D}^{-1/2}(A+I)\tilde{D}^{-1/2}\)，再经 Sigmoid \(a_e=\sigma(w_e)\) 把边权约束到 \((0,1)\) 以消除全局重缩放歧义。同配区给相似邻居高权重保留平滑，异配区给相异邻居降权防止过平滑——从而在单一算子里兼顾两种结构，且保持高效、避免复杂设计。

4. 特征级自注意力 + 层次融合：把"四种视角"当 token 自适应混合，规避 \(O(N^2)\) 注意力。 每个节点把线性投影 \(f^{(\text{Linear})}\)、MLP 投影 \(f^{(\text{Mlp})}\)（保留节点特异性、利异配）、两层 WGCN 输出 \(H^{(\ell)},H^{(\ell')}\)（保留结构感知）拼成 \(f(v)\in\mathbb{R}^{4\times C}\)，把每个投影当一个 token，用 pre-norm 的 vanilla Transformer 做特征级（而非节点级）注意力——复杂度只有 \(O(Ns^2h+Nsh^2)\)（\(s=4\)）而非图 Transformer 的 \(O(N^2h)\)，因此可扩展。融合不是一次性拍平，而是层次式由近到远合并：先融两个 WGCN token，再逐步并入两个投影 token，\(S(v)=\sigma(\text{Linear}(X_{0,C}\Vert\sigma(\text{Linear}(X_{1,C}\Vert\sigma(\text{Linear}(X_{2,C}\Vert X_{3,C}))))))\)，让模型学到同配/异配模式的"粗到细"加权，参数少、梯度好流。整体编码器复杂度 \(O(Ndh+|E|h+Nh^2)\)，与标准 GNN 同阶、严格优于节点级图 Transformer。

实验关键数据¶

主实验表格（节点分类线性探测，准确率 %）¶

8 个数据集（4 异配 + 4 同配）上，HarmonyGNNs 在异配图上大幅领先，同配图上持平 SOTA：

方法	Cornell	Texas	Wisconsin	Actor	Cora	CiteSeer	PubMed	Arxiv
同配率	0.30	0.11	0.21	0.22	0.81	0.74	0.80	0.66
GraphMAE	61.93	67.80	58.25	31.48	84.20	73.20	81.10	71.75
GraphACL	59.33	71.08	69.22	30.03	84.20	73.63	82.02	71.72
MUSE	82.00	83.98	88.24	36.15	82.22	71.14	82.90	70.98
GREET	73.51	83.80	82.94	35.79	83.84	73.25	80.29	71.09
HarmonyGNNs+Diffi	85.41	93.24	92.74	37.93	84.70	73.36	83.42	71.56
HarmonyGNNs+Prob	85.68	92.45	93.13	38.15	84.82	73.12	83.25	71.97

三个困难异配图上提升更夸张（同配率低至 0.05 的 Roman-Empire）：

方法	Chameleon(filtered)	Squirrel(filtered)	Roman-Empire
MUSE	46.48	41.57	66.26
GREET	44.67	39.69	63.37
HarmonyGNNs+Prob	48.91	45.49	75.86

相比前 SOTA，Texas +7.1%、Roman-Empire +9.6%、Actor +1.27%。

消融实验表格（逐步移除三大组件）¶

配置	Cornell	Texas	Wisconsin	Actor	Roman	Cora	Arxiv
HarmonyGNNs (Full)	85.68	92.45	93.13	38.15	75.86	84.70	71.56
w/o DynMsk	84.26	90.16	90.08	36.98	74.01	84.10	71.00
w/o T-S & DynMsk	81.78	85.59	88.56	35.86	72.87	83.10	70.02
w/o T-S & DynMsk & Attn	79.86	82.46	86.98	34.11	70.12	78.36	68.65

关键发现¶

三个组件都有效：去掉动态掩码（DynMsk）掉最多 3.05%，再去掉师生架构（T-S）继续下滑，去掉自注意力（Attn）在同配图 Cora 上骤降（84.70→78.36），说明特征级注意力对同配模式尤为关键。
+Prob 略优于 +Diffi：伯努利采样的探索-利用平衡比纯挑最难节点更稳。
效率优势明显：在 Actor/Roman/Arxiv 上，训练总时长显著短于 MUSE 和 GREET（Arxiv 上 476s vs 627s/739s），显存与 GREET 持平、低于 MUSE——因为两个 baseline 用了对比学习的交替训练，而 HarmonyGNNs 隐空间一致、端到端收敛更快。
聚类任务一致：k-means 聚类上 Texas/Cornell 比 MUSE 高 11.26%/12.51%，说明嵌入质量与下游任务无关。

亮点与洞察¶

把"同配/异配之争"重构成"目标和谐 + 表示和谐"两个正交维度，是本文最清晰的概念贡献：前者解决"该相信谁"（稳定 EMA 锚点），后者解决"怎么表达"（节点特异性 vs 结构感知的自适应混合）。
将 JEPA（视觉自监督）迁移到图，并针对图的强互联性把损失从"只预测掩码节点"改成"预测全部节点"，是一个对症的小改动。
特征级 token 注意力而非节点级注意力，是规避图 Transformer 平方复杂度的聪明做法——把"4 种编码视角"当序列，既得到注意力的自适应能力又保持线性复杂度。
难度分直接复用预测损失，零额外开销地实现了"hard node mining"，闭环自然。
有完整的收敛性理论分析（Thm.1）支撑"师生比编码器-解码器收敛更快更稳"的直觉。

局限与展望¶

方法组件偏多：师生 EMA + 双动态掩码 + WGCN + 特征级 Transformer + 层次融合，超参（掩码率 \(R\)、利用率 \(r\)、warm-up 轮数、EMA 系数 \(\alpha\)、WGCN 层数）较多，调参成本不低，论文也承认部分 baseline（如 MUSE）难复现。
理论假设较强：Thm.1 依赖强凸、光滑、Lipschitz 等假设，与真实深度网络有差距，更多是"启发性"而非严格保证。
数据集规模有限：最大到 Ogbn-Arxiv，没有验证在百万/千万级超大图上的可扩展性与稳定性。
同配图提升有限：在 CiteSeer/PubMed 上只是持平甚至轻微下降，说明"和谐"主要受益于异配侧，同配侧的天花板已被既有方法逼近。
展望：动态掩码可与图结构学习联动、token 设计可进一步引入多尺度结构编码、把框架推广到链路预测/图分类等更多下游任务。

评分¶

新颖性: ⭐⭐⭐⭐ 把 JEPA 式师生预测引入图 SSL 并配合全节点预测、特征级 token 注意力、难度驱动掩码，组合新颖且对症；单个组件多有渊源，但"目标和谐+表示和谐"的整合视角清晰。
实验充分度: ⭐⭐⭐⭐ 11 个数据集横跨同配/异配、线性探测+聚类双下游、三组件消融、效率与显存对比、理论分析齐全；略欠超大图与更多下游任务验证。
写作质量: ⭐⭐⭐⭐ 动机-矛盾-方法-理论-实验逻辑顺畅，图示清晰；组件较多导致方法部分信息密度高。
价值: ⭐⭐⭐⭐ 给"无标签下同时处理同配异配"提供了一个统一、高效、可复现的强 baseline，对图表示学习社区有实用参考价值。