Atomic HINs: Entity-Attribute Duality for Heterogeneous Graph Modeling¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=AG7fjg5azU
代码: https://github.com/ntuidssplab/AtomHIN
领域: 图学习 / 异构图神经网络
关键词: 异构信息网络, Schema 设计, 实体-属性对偶, 图结构学习, HGNN
一句话总结¶
本文提出"实体-属性对偶"原理,把异构信息网络(HIN)里所有属性原子化为实体节点得到一个"原子 HIN"作为表达力最大的标准形,再用遗传算法在节点/边类型上做二元选择(schema refinement),让一个极简版 RGCN(sRGCN)就能在 8 个数据集的节点分类和链接预测上达到 SOTA。
研究背景与动机¶
领域现状:异构信息网络(Heterogeneous Information Network, HIN)用多种类型的节点(实体)和边(关系)来刻画文献库、电商、知识图谱、社交网络等系统,而异构图神经网络(HGNN)则在这种带类型的 schema 上做"类型感知"的消息传递。绝大多数研究都默认 schema 是给定的、固定的,专注于设计更强的 HGNN 架构(metapath、关系特定变换、异构注意力等)。
现有痛点:作者指出一个被长期忽视的事实——同一份原始数据可以派生出多种合法的 schema,而这些 schema 的选择会显著影响下游性能。以 IMDb 为例,它本来是从一张电影表构造的:actor、director 这些列被处理成实体节点,而 keyword、language、country 等被留作属性;但在另一些变体里 keyword 又被升格成实体。哪些列当实体、哪些当属性,完全是启发式、各数据集各做各的(HGB 把 actor/keyword 升成实体却把 language/country 留作特征,OGB 把文本词向量平均进 paper 节点却不建词节点)。
核心矛盾:schema 设计空间既无界又复杂——属性派生的关系会膨胀关系集,metapath 构造会随关系数指数增长,因此基准数据集只能临时拍板(ad-hoc)。这导致两个问题:基准比较不公平(不同 schema 不可直接比),以及大家可能一直在远离最优的 schema 上做研究,把模型架构的功劳和 schema 的功劳混在了一起。
本文目标:把"如何设计 HIN schema"这个开放问题,转化成一个有原理、可优化的结构学习问题。
切入角度:作者提出实体-属性对偶(entity-attribute duality)——属性可以被"原子化"成带关系的实体,而实体反过来也可以充当别的节点的属性。既然两者可以互相转化,那就不如先把所有属性都原子化到底,得到一个把全部 schema 选择都显式化、表达力最大的"原子 HIN"作为统一起点。
核心 idea:用"原子 HIN(最大表达力标准形)+ schema refinement(在节点/边类型上做二元选择来裁剪复杂度)"代替"人工启发式拍 schema",让 schema 设计变成一个可搜索、可迁移的优化问题。
方法详解¶
整体框架¶
方法把"设计 schema"重新定义为"先到达表达力上限,再做减法"。给定一个带属性的 HIN,第一步把所有属性(二值、类别、甚至数值/预训练嵌入)都原子化成属性节点和加权边,得到表达力最大的原子 HIN——此时所有建模选择都被显式编码进了图结构。但原子 HIN 太复杂、参数过多容易过拟合,所以第二步引入 schema refinement:为每个节点类型配一个二元开关 \(\beta_\tau\)、每个边类型配一个二元开关 \(\alpha_r\),决定保留谁、丢弃谁。为了让"删边"和"选节点"互不干扰,第三步用一次预传播(pre-propagation)把每个被选节点类型的身份信息预先散布出去。最后用遗传算法在这个二元空间里搜出任务最优的 schema,并配上参数共享极强的极简模型 sRGCN 做下游训练。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:带属性 HIN<br/>(实体/关系 + 属性表)"] --> B["属性原子化<br/>所有属性→属性节点+加权边"]
B --> C["原子 HIN<br/>表达力最大的标准形"]
C --> D["预传播初始化<br/>身份预先散布、解耦选择"]
D --> E["Schema refinement<br/>节点开关 βτ / 边开关 αr"]
E -->|遗传算法搜 1024 候选| F["任务最优 schema + sRGCN"]
F --> G["输出:节点分类 / 链接预测"]
关键设计¶
1. 实体-属性对偶与属性原子化:把"哪个当实体"这个选择显式化
痛点直指 schema 设计的随意性——同一份数据,把谁当实体、把谁当属性是人工拍的,且各数据集不一致。作者的破法是干脆消除这个选择:定义属性原子化(Definition 4.1),对任意属性 \(f\)(特征矩阵 \(X_f\)),为它的每一维新建一个属性节点 \(u_j\),并把 \(X_f[i,j]\neq 0\) 的位置变成一条从原节点 \(v_i\) 到 \(u_j\)、权重为 \(X_f[i,j]\) 的边,于是引入一个新节点类型 \(\tau'\) 和新边类型 \(r'\)。这把二值、类别、数值属性统一转成了显式的结构和关系——二值属性产生稀疏星形邻接,数值属性产生稠密星形邻接,但形态一致。
把原子化施加到所有属性,就得到原子 HIN:一切信息都以结构形式表达,表达力最大,且所有建模选择都被显式摊开。理论上这有保证——Lemma 4.3 证明属性原子化"严格扩大了滤波器空间":在 SHGC(谱异构图卷积,本文用作 HGNN 的统一形式,见公式 1)框架下,原子化后关系集 \(R'\supset R\),由 \(\{S_{r_1}\cdots S_{r_\ell}\}\) 张成的异构滤波器空间严格大于原来的空间。换句话说,把属性变成"实体+关系"不会损失任何东西,只会让 HGNN 能捕捉更多 metapath 式的关系模式。
2. Schema refinement:用节点/边二元选择把无界设计空间收成可优化问题
原子 HIN 表达力够了,但复杂度爆炸、参数过多易过拟合。这一设计针对的就是"如何在表达力和复杂度之间做减法"。作者定义两个基本操作:边类型选择 \(\alpha_r\in\{0,1\}\) 决定关系 \(r\) 是否保留进消息传递(\(\alpha_r=0\) 等价于把这个关系连同它的边整个删掉,因此对任何 HGNN 都是即插即用、无需改架构);节点类型选择 \(\beta_\tau\in\{0,1\}\) 决定该类型是否被赋予唯一可学习身份嵌入。在 SHGC 框架下,refinement 写成
其中节点选择通过类型特定的单位矩阵叠加来实现:\(X_0(\beta_1,\dots,\beta_{|T|})=\sum_\tau \beta_\tau \hat{I}_\tau\),只为信息量大的节点类型学嵌入以省参数、抗过拟合。这一步的妙处在于:现有所有基准 schema(vanilla schema)其实都只是原子 HIN 的某种 \((\alpha,\beta)\) 选择,于是"设计 schema"这个开放问题被收敛成了"在 \(2^{|R|+|T|}\) 个二元向量里搜最优"的结构学习问题。
3. 预传播特征初始化:让"删边"不会误伤"选节点"
朴素的节点选择会引入隐藏依赖(Definition 4.2):如果把某节点类型 \(\tau\) 的所有关联边都删了,它的身份嵌入就成了孤岛、无法传到下游做预测——也就是说边的裁剪会反过来让节点选择失效,两个选择不独立、搜索时互相纠缠。本文的解法是在 refinement 之前先做一次预传播:
其中 \(\tilde{A}_{\langle\tau_i,*,\tau_j\rangle}\) 是从类型 \(\tau_j\) 到 \(\tau_i\) 最短路径对应的邻接矩阵乘积。直觉很简单:每个被选节点类型先把自己的身份"散播"一次到其它类型,这样即使之后它的关联边被全部删掉,它的信号依然能被访问到。理论上这有两条保证——Lemma 4.1(选择独立性):有了预传播后,节点选择与边选择彻底解耦,删光 \(\tau_j\) 的边也不会产生依赖;Lemma 4.2(预传播的中性):当 SHGC 阶数 \(L\) 足够大时,把原始单位特征换成预传播特征只是滤波器系数 \(\theta\) 的重参数化,不改变模型表达力。也就是说,预传播是"免费"地把节点选择和边选择正交化,让后面的搜索能干净地探索整个 \((\alpha,\beta)\) 空间。
4. 遗传算法搜索 + sRGCN:在倾斜的二元空间里高效逼近最优 schema
\(2^{|R|+|T|}\) 的搜索空间过大,且高度倾斜——保留更多边一般提升表达力(Lemma 4.3),而稀疏或高基数节点类型则容易带来过多参数和过拟合,因此朴素网格/随机搜索无效。作者把 schema refinement 形式化为超参优化问题,用遗传算法(GA)搜:用 vanilla schema 初始化种群,把 schema 参数和模型深度 \(L\) 联合优化,1024 个候选即可逼近最优(IMDb、PubMed 在 512 次试验内就接近收敛,尽管搜索空间高达 \(2^{19}\)、\(2^{22}\))。搭配的模型 sRGCN 是 RGCN 的极简版,把关系特定的特征变换矩阵替换成关系特定的标量:\(W_r^{(\ell)}=\theta_r^{(\ell)}I\)。这并非随手简化——作者通过 Proposition 4.1/4.2 论证 RGCN、GTN 等都是 SHGC 的一阶近似,而在原子 HIN 上所有输入都退化成唯一身份嵌入,重特征变换/MLP 基本冗余,因此参数共享更强的 GTN 式架构反而更合适。sRGCN 就是顺着这一观察设计出的"极简却有效"的基线。
损失函数 / 训练策略¶
搜索阶段用 1024 个 GA 候选评估 schema,之后在搜出的最优 schema 上用 256 次试验微调 HGNN 超参;每个数据集遵循其基准既定的评测协议(节点分类用 Macro-F1/Micro-F1/Acc,链接预测用 ROC-AUC/MRR)。属性原子化、预传播、类型选择都是一次性离线预处理,开销极小(预传播复杂度 \(O(|T||E|)\)),整体搜索时间随预算 \(B\) 线性增长 \(O(B)\)。
实验关键数据¶
主实验¶
在 8 个跨领域基准(文献、电商、知识图谱、社交、生物医学)上,sRGCN 跑在 refined 原子 schema 上、对比各 HGNN 在 vanilla schema 上的表现。
| 数据集 | 任务 / 指标 | sRGCN(Atomic) | 最强基线 | 提升 |
|---|---|---|---|---|
| IMDb | 节点分类 Macro-F1 | 68.97 | 67.10 (PSHGCN) | +1.87 |
| Freebase | 节点分类 Macro-F1 | 55.40 | 52.18 (HINormer) | +3.22 |
| DBLP | 节点分类 Macro-F1 | 95.55 | 95.27 (PSHGCN) | +0.28 |
| OGBN-MAG | 节点分类 Acc(Test) | 55.21 | 54.57 (PSHGCN) | +0.64 |
| Amazon | 链接预测 ROC-AUC | 97.85 | 95.17 (SlotGAT) | +2.68 |
| LastFM | 链接预测 ROC-AUC | 77.10 | 70.33 (SlotGAT) | +6.77 |
| PubMed | 链接预测 ROC-AUC | 90.11 | 88.07 (SlotGAT) | +2.04 |
总体上,节点分类 Macro-F1 最多提升 6.2%,链接预测 ROC-AUC 平均提升 4.9%;提升在属性丰富、schema 复杂的数据集(IMDb、Amazon、Freebase)上更明显。
schema 变体与可迁移性(Table 3)¶
| HGNN | Schema | IMDb Macro-F1 | Amazon ROC-AUC |
|---|---|---|---|
| sRGCN | Vanilla | 67.64 | 95.94 |
| sRGCN | Refined(sRGCN) | 68.97 | 97.85 |
| SimpleHGN | Vanilla | 63.53 | 93.40 |
| SimpleHGN | Refined(sRGCN) 迁移 | 65.89 | 96.50 |
| SimpleHGN | Refined(SimpleHGN) | 67.38 | 97.40 |
| PSHGCN | Vanilla | 67.10 | 94.12 |
| PSHGCN | Refined(sRGCN) 迁移 | 67.89 | 96.73 |
| PSHGCN | Refined(PSHGCN) | 67.89 | 97.13 |
可见:① 同一 HGNN 下 refined 一致优于 vanilla,schema 选择的影响可与架构本身相提并论;② 用 sRGCN 搜出的 schema 直接迁移到 SimpleHGN/PSHGCN 也能大幅提升(vanilla→迁移的跳变远大于再优化的边际增益),说明搜出的 schema 已接近各模型的最优。
关键发现¶
- 原子化引入的关系真的有用(Obs 1-3):refined schema 经常保留那些原本不在 vanilla schema 里、由原子化产生的关系;甚至数值属性派生的稠密邻接边也常被选中——作者解释这些边通过 metapath 编码了相似性(如 paper–author–paper 捕捉共同作者、embedding–paper 近似论文相似度)。
- 实体能当强属性(Obs 2):Amazon 里 item 本由 price/sales-rank 等属性描述,但 refined schema 反而直接为 item 学 ID 嵌入、同时保留 price 等属性,印证了对偶性。
- 即使已是原子形也需要 refinement(Obs 4):Freebase、LastFM 本就接近原子形、无法再原子化,但单靠"删节点/边"仍带来显著提升。
- 链接预测偏好删关系、连目标关系也删(Obs 5):LastFM 里删掉 user–artist(预测目标本身)反而更好,PubMed 删光所有边时最优——与过平滑现象一致,链接预测对过度连通更敏感。
亮点与洞察¶
- 把"对偶"做成方法论而非口号:实体↔属性可互相转化听起来抽象,但作者用"原子化到底→再做减法"把它落成了可执行的标准形 + 二元搜索,并用 Lemma 4.3 证明原子化只增不减表达力,给"先到上限"提供了理论底气。
- 预传播是点睛之笔:它用一次离线传播把"选节点"和"删边"正交化(Lemma 4.1),又证明不改表达力(Lemma 4.2),让搜索空间从纠缠变干净——这种"用初始化解耦两个离散选择"的思路可迁移到其它结构搜索问题。
- 极简模型 + 好结构 > 复杂模型 + 默认结构:sRGCN 把变换矩阵砍成标量却拿下 SOTA,强烈支持"schema 设计是和模型架构同等重要的维度"这一主张,提醒社区重新审视基准 schema 的公平性。
- 搜出的 schema 可迁移:一次 sRGCN 搜索的 schema 直接给别的 HGNN 用就很好,意味着 schema 搜索成本可摊销。
局限与展望¶
- 搜索仍依赖 GA + 大量试验(1024 候选 + 256 次微调),虽对单数据集是离线一次性开销,但在关系/节点类型极多的超大图上 \(2^{|R|+|T|}\) 空间的可扩展性仍待验证;OGBN-MAG 上 GTN/SimpleHGN 等部分模型直接 OOM。
- 数值属性原子化会产生稠密邻接,虽然实验显示其有用,但对内存/计算的影响和"何时该原子化数值属性"缺乏明确判据,更多是 GA 替你试出来。
- 结论"schema 比架构更重要"主要建立在这 8 个基准上,且 sRGCN 这种极简模型在自然特征丰富、需要重特征变换的场景下是否仍占优,文中未充分探讨。
- 可改进方向:把 GA 换成可微的 schema 选择(让 \(\alpha,\beta\) 端到端学习)、或用对偶性指导自动化的结构发现,减少对搜索预算的依赖。
相关工作与启发¶
- vs 固定 schema 的 HGNN(HAN/MAGNN/RGCN/HGT/SimpleHGN/SeHGNN/PSHGCN):它们都在"给定 schema"上做更强的消息传递(metapath、关系变换、注意力、预计算传播),本文正交地指出 schema 本身可优化,并把这些模型统一解释为 SHGC 的一阶近似(区别只在参数共享方式)。
- vs schema 构造工作(RelBench, Fey et al. 2024):RelBench 从关系数据库系统化构造 schema,但仍依赖数据库特定设计、产生多个合法变体;本文用原子 HIN 把所有 ad-hoc 实践统一成标准形,再把设计变成可优化的节点/边选择,覆盖并泛化了这些做法。
- vs 软边权/可微 metapath 选择(GTN/MHGCN/RE-GNN):它们在固定关系集上学软权重,本文则在更大的原子关系集上做硬性二元选择,且证明原子化严格扩大了可学习的滤波器空间。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 用"实体-属性对偶"把 schema 设计从被忽视的预处理提升为可优化的核心维度,视角新且有理论支撑。
- 实验充分度: ⭐⭐⭐⭐ 8 个数据集、节点+链接两类任务、跨 3 个 HGNN 的迁移性与搜索效率分析都覆盖,但超大图可扩展性证据偏弱。
- 写作质量: ⭐⭐⭐⭐⭐ 定义/引理体系清晰,RQ 驱动的实验组织和 Obs 1-8 把发现讲得很透。
- 价值: ⭐⭐⭐⭐⭐ 开源原子 HIN、搜出的 schema 和框架,为公平 benchmarking 和 schema-aware 学习铺路,对社区有方法论意义。