Aitchison Embeddings for Learning Compositional Graph Representations¶
会议: ICML2026
arXiv: 2605.00716
代码: https://github.com/Nicknakis/AICoG
领域: 图学习 / 可解释表示学习
关键词: Aitchison 几何, 图表示学习, 组合数据, ILR 坐标, 可解释嵌入
一句话总结¶
本文提出 AICoG,将节点表示为 simplex 上的潜在原型混合,并用 Aitchison 几何与 ILR 等距坐标学习图嵌入,在保持与欧氏 latent distance model 同等表达力的同时,让节点角色相似性具有基于相对比例 trade-off 的内生解释。
研究背景与动机¶
领域现状:图表示学习通常把节点映射到欧氏向量空间,用随机游走、矩阵分解、GNN 或 latent distance model 保持结构邻近性。这些方法在链接预测和节点分类上有效,但嵌入维度往往缺少语义,距离和方向很难直接解释。
现有痛点:很多网络并不只是“相邻节点相似”,而是存在连续、重叠的结构角色。节点可能同时具有多种 latent archetype 的比例,例如社交网络中的桥接者、内容生产者、社区核心等混合角色。传统 mixed-membership 模型可以表达角色混合,但通常假设角色是离散、可识别、坐标轴对齐的;普通欧氏嵌入虽灵活,却无法说明某个方向对应什么相对角色变化。
核心矛盾:图嵌入需要既有预测性能,又能解释节点为何相似。欧氏空间有表达力但语义弱,离散角色模型有解释性但过于刚性;连续重叠角色更像“多个原型比例的相对权衡”,而不是单个坐标值。
本文目标:作者希望构建一种图嵌入框架,把节点角色显式建模为 simplex 上的 composition,用适合组合数据的 Aitchison 几何定义距离,使相似性天然对应原型比例之间的 log-ratio trade-off。
切入角度:组合数据的核心是“比例有意义,绝对尺度无意义”。Aitchison 几何正是处理这种相对信息的标准工具;ILR transformation 又能把 simplex 等距映射到无约束欧氏空间,从而兼顾几何语义和优化便利性。
核心 idea:把每个节点表示为潜在 archetype 的组成比例 \(\mathbf{z}_i\),用 ILR 坐标 \(\mathbf{x}_i=\operatorname{ILR}(\mathbf{z}_i)\) 保持 Aitchison 距离,再用 latent distance likelihood 学习图结构。
方法详解¶
整体框架¶
AICoG 从一个无向简单图 \(\mathcal{G}=(V,E)\) 出发,为每个节点学习一个 \(K\) 维 composition \(\mathbf{z}_i\in\Delta^{K-1}\)。这里每个维度不是普通欧氏坐标,而是一个潜在原型因子的相对贡献;所有分量为正且和为 1。节点角色不是某个单一原型,而是在 simplex 内部的连续混合。
为了避免直接在受约束 simplex 上优化,方法使用 isometric log-ratio transformation。给定 contrast space 的正交基 \(\mathbf{V}\),ILR 坐标为 \(\mathbf{x}_i=\log(\mathbf{z}_i)^\top\mathbf{V}\in\mathbb{R}^{K-1}\)。Aitchison 距离 \(d_A(\mathbf{z}_i,\mathbf{z}_j)\) 等于 ILR 空间里的欧氏距离 \(\|\mathbf{x}_i-\mathbf{x}_j\|_2\),因此可以在欧氏坐标中做标准优化,但解释仍留在组合比例的 log-ratio 语义中。
图结构通过 Bernoulli latent distance model 学习。对节点对 \((i,j)\),模型定义 log-odds \(\eta_{ij}=-\|\mathbf{x}_i-\mathbf{x}_j\|_2+\gamma_i+\gamma_j\),其中 \(\gamma_i\) 捕获节点度异质性。训练目标是最大化所有边/非边的 Bernoulli log-likelihood;为避免 \(O(N^2)\) 全对计算,非边项通过均匀 subsampling 近似,使每次迭代复杂度降到 \(O(|E|)\)。
关键设计¶
-
Simplex 节点角色与 Aitchison 距离:
- 功能:让节点嵌入天然表达“原型比例混合”。
- 核心思路:节点 \(i\) 的角色为 \(\mathbf{z}_i=(z_{i1},...,z_{iK})\),只关心各 archetype 的相对比例。两个节点相似不是因为某个维度绝对值接近,而是因为它们的 log-ratio trade-off 相似。Aitchison 几何保证距离只依赖比例关系,并对整体缩放不敏感。
- 设计动机:许多图角色是连续且重叠的,强行解释为离散角色或欧氏坐标轴都会丢失语义。组合表示更贴近“节点同时混合多种角色”的直觉。
-
ILR 等距坐标与可学习 basis:
- 功能:在保持 Aitchison 几何的同时使用无约束欧氏优化。
- 核心思路:ILR 用 contrast basis \(\mathbf{V}\) 把 \(\log(\mathbf{z}_i)\) 投影到 \(K-1\) 维坐标。不同合法 ILR basis 之间只差正交变换,距离和 likelihood 不变;论文同时使用固定 Helmert basis 和 learned basis,并可用 varimax rotation 提供更稀疏的 balance 解释。
- 设计动机:如果直接解释每个 simplex 分量,会落回“坐标轴角色”的限制;ILR balance 解释的是原型组之间的 log-ratio 对比,更适合连续角色空间。
-
子组合一致性与组件限制分析:
- 功能:支持有语义的维度/组件移除,而不是任意丢弃欧氏坐标。
- 核心思路:选择 archetype 子集 \(S\) 后,对对应分量 re-closure 得到子组合 \(\mathbf{z}_i^{(S)}\),其 ILR 距离等价于原 ILR 差向量的某个正交投影。由此可以不重新训练,直接移除部分组件并评估节点分类性能保留率。
- 设计动机:欧氏嵌入的维度没有固有语义,drop dimension 很难解释;composition 的组件是原型比例,移除并重归一化仍有明确几何含义,可用于分析哪些 archetype 组影响预测。
损失函数 / 训练策略¶
节点 composition 通过无约束 logits \(\tilde{\mathbf{z}}_i\) 参数化,并用 row-wise softmax 得到 \(\mathbf{z}_i\)。边概率由 \(\eta_{ij}=-\|\mathbf{x}_i-\mathbf{x}_j\|_2+\gamma_i+\gamma_j\) 进入 logistic Bernoulli likelihood,完整 log-likelihood 为 \(\sum_{i<j}[Y_{ij}\eta_{ij}-\log(1+\exp(\eta_{ij}))]\)。作者证明,ILR-compositional latent distance model 与 \(\mathbb{R}^{K-1}\) 中普通 Euclidean latent distance model 可表示的边概率矩阵集合相同,因此组合约束不牺牲表达力。
实验中 AICoG 使用 Adam 优化 Bernoulli negative log-likelihood,学习率 \(10^{-2}\),训练 5000 次迭代。维度 \(D=K-1\),评估 \(D\in\{8,16,32,64\}\)。数据集包括 Cora、Citeseer、LastFM、DBLP、AstroPh、GrQc、HepTh;比较对象包括 Node2Vec、Role2Vec、NetMF、MMSBM、MNMF、SLIM-Raa、HM-LDM 和 Simplex-Euclidean。
实验关键数据¶
主实验¶
| 任务 / 数据集 | 维度 | 强 baseline | AICoG (HB) | AICoG (LB) | 主要结论 |
|---|---|---|---|---|---|
| Link prediction AstroPh AUC-ROC | 64 | SLIM-Raa 0.969 | 0.976 | 0.976 | AICoG 达到最优 |
| Link prediction GrQc AUC-ROC | 64 | SLIM-Raa 0.949 | 0.961 | 0.961 | 大幅超过传统 mixed-membership |
| Link prediction HepTh AUC-ROC | 64 | SLIM-Raa 0.920 | 0.929 | 0.928 | Aitchison 几何稳定领先 |
| Link prediction Cora AUC-ROC | 64 | HM-LDM 0.806 | 0.851 | 0.852 | 组合几何对 citation graph 有明显收益 |
| Node classification Cora Micro-F1 | 64 | Node2Vec 0.814 / HM-LDM 0.814 | 0.831 | 0.833 | 可解释模型不牺牲分类性能 |
| Node classification LastFM Micro-F1 | 64 | Node2Vec 0.865 | 0.870 | 0.870 | 与最强欧氏 baseline 持平略优 |
消融实验¶
| 分析项 | 设置 | 关键指标 | 说明 |
|---|---|---|---|
| Aitchison vs simplex 欧氏 | Simplex-Euclidean | Cora AUC-ROC 64 维仅 0.709,而 AICoG 约 0.851 | 关键不是 simplex 约束本身,而是组合数据的 Aitchison 几何 |
| 合成 membership recovery | AICoG vs MMSBM | ILR-continuous: \(\ell_1\) 0.900 vs 1.452,cosine 0.645 vs 0.432,JS 0.154 vs 0.356 | AICoG 更能恢复连续/内部 membership |
| membership interiority | Cora | AICoG entropy 1.064、near-corner 5.55%;MMSBM entropy 0.191、near-corner 78.95% | AICoG 学到的角色更重叠、更 interior,且 label-informative |
| 单 balance 解释 | Cora learned ILR basis | 单个 balance 约 0.40 probe accuracy,ANOVA \(F\approx319\),MI \(\approx0.44\) | 一个 log-ratio 对比就能捕获部分标签结构 |
| 子组合评估 | Cora 64 维,随机移除组件 | AICoG 在 aggressive compression 下 retention 最强 | re-closure 后的组件限制保留了有语义的几何结构 |
关键发现¶
- AICoG 在链接预测上非常强,尤其 Cora、GrQc、HepTh 等数据集上,固定 Helmert basis 和 learned basis 的结果几乎一致,支持 ILR basis 正交不变性的论点。
- Simplex-Euclidean 明显掉点,说明把节点放到 simplex 上还不够;如果仍用普通欧氏距离比较比例,无法捕获 compositional data 的相对语义。
- 节点分类中,纯欧氏方法仍很强,但 AICoG 在 Cora 和 LastFM 上达到或超过 Node2Vec/Role2Vec,证明可解释几何不必以明显预测性能为代价。
- 合成实验显示 MMSBM 容易把 membership 推向 near-discrete 角点,而 AICoG 更适合连续、重叠的角色结构。
亮点与洞察¶
- 最大亮点是把图角色解释从“某个坐标轴是什么”转成“多个原型之间的相对 trade-off 是什么”。这避免了 mixed-membership 模型必须识别离散角色的限制。
- ILR 的使用很巧妙:它让模型优化时看起来像普通欧氏 latent distance model,但所有距离都可回译成 Aitchison 空间中的 log-ratio 差异。
- Expressive equivalence 的理论保证降低了采用组合几何的顾虑。方法不是用解释性换表达力,而是在同等 latent distance 表达力下改变几何语义。
- 子组合分析提供了一种比 post-hoc attribution 更自然的解释方式。移除某组 archetype、re-close、看预测保持多少,这个操作本身在组合数据理论里是合法的。
局限与展望¶
- AICoG 最适合节点角色本来具有 compositional 语义的图;如果图结构主要由局部同质性或非比例因素决定,未必比普通欧氏嵌入更准。
- 论文主要在 featureless graph 和无监督表示学习设置下评估,没有与现代带属性 GNN 或端到端监督图模型直接竞争。
- 训练协议假设图连通或由大连通分量主导。作者也指出,对许多小连通分量或断开图的扩展仍是未来方向。
- ILR basis 虽然不影响距离,但影响人类如何阅读 balance;learned basis 和 varimax rotation 提供帮助,但如何把 archetype 与领域知识自动对齐仍未解决。
- 似然模型仍是基于 pairwise distance 的 Bernoulli graph model,复杂关系如有向边、异质边、多关系图和动态演化图还需要扩展。
相关工作与启发¶
- vs Node2Vec / DeepWalk: 这些方法通过随机游走学习欧氏嵌入,预测强但维度语义弱;AICoG 的距离直接解释为原型比例 trade-off。
- vs Role2Vec / GraphWave: 它们关注结构角色,但通常仍输出普通向量;AICoG 将角色建模为连续组合,并用 Aitchison 几何定义相似性。
- vs MMSBM / mixed-membership SBM: MMSBM 提供角色 membership,但更偏离散和坐标轴解释;AICoG 允许 continuous interior compositions,并通过 geometry 而非唯一坐标解释角色。
- vs SLIM-Raa / HM-LDM: 这些 simplex latent distance baseline 表达力较强,部分数据集可接近 AICoG;本文优势在于用 Aitchison/ILR 给 simplex 表示加入更原则化的组合语义。
- vs post-hoc graph explainability: 常见 GNN explainer 解释特定预测或子图;AICoG 把可解释性嵌入表示空间本身,使距离、balance 和 subcomposition 都可解释。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 将 Aitchison 几何系统引入图角色嵌入很有辨识度,理论上还证明不损失 latent distance 表达力。
- 实验充分度: ⭐⭐⭐⭐☆ 链接预测、节点分类、合成恢复、interiority、basis 可视化和 subcomposition 分析都较完整;缺少与属性 GNN 的直接比较。
- 写作质量: ⭐⭐⭐⭐☆ 方法动机清晰,几何解释扎实;部分数学细节对非 compositional data 读者门槛较高。
- 价值: ⭐⭐⭐⭐☆ 对可解释图表示学习很有启发,尤其适合角色连续重叠、比例语义自然存在的网络分析场景。