跳转至

Exchangeability of GNN Representations with Applications to Graph Retrieval

会议: ICLR 2026 Oral
OpenReview: HQcCd0laFq
代码: 有
领域: 其他
关键词: GNN, exchangeability, graph retrieval, LSH, GraphHash, transportation distance, Wasserstein distance

一句话总结

发现训练好的 GNN 节点嵌入沿特征维度是可交换随机变量(即 \(p(\mathbf{X}) = p(\mathbf{X}\pi)\) 对任意维度排列 \(\pi\) 成立),利用此性质通过维度排序将基于传输距离(EMD/Wasserstein)的图相似度近似为欧氏距离,构建统一的局部敏感哈希(LSH)框架 GraphHash,在子图匹配和图编辑距离(GED)检索任务上以 AUC 指标一致超越 FourierHashNet、DiskANN、IVF、CORGII、SWWL 等基线,可扩展到 100 万图语料库。

研究背景与动机

领域现状:图检索需要衡量图间相似度(子图匹配、图编辑距离等),但这些相似度涉及最优传输问题,计算代价极高(\(O(n^3)\) 的匈牙利算法或 \(O(n^2)\) 的 Sinkhorn)。对于大规模语料库(\(|C| \gg 10^5\)),穷举逐对打分不可行。

现有痛点:标准的近似最近邻(ANN)方法如 DiskANN、IVF 假设相似度为欧氏距离或余弦相似度。但 GNN 产生的图表征是节点嵌入集合 \(\mathbf{X} \in \mathbb{R}^{n \times D}\),图间相似度是定义在嵌入集合上的传输距离——这不能直接用向量 ANN 方法加速。

核心矛盾:传输距离计算昂贵且不满足标准 LSH 的度量条件,而欧氏距离高效但无法捕捉集合间的对齐关系。

本文目标 找到一种理论支撑的近似方法,将传输距离图相似度归约为标准欧氏距离,从而启用 LSH 实现高效图检索。

切入角度:发现 GNN 嵌入的一个此前未注意的概率对称性——特征维度的可交换性——并利用它简化传输距离计算。

核心 idea:GNN 嵌入沿特征维度的可交换性使排序后的嵌入可用欧氏距离近似传输距离,从而实现 LSH 高效图检索。

方法详解

整体框架

Pipeline: GNN 编码器 → 节点嵌入矩阵 \(\mathbf{X} \in \mathbb{R}^{n \times D}\) → 每个维度 \(d\) 独立排序得到 \(\mathbf{v}_d = \text{sort}(\mathbf{X}_{:,d})\) → 随机 Fourier 特征映射 \(\mathbf{t}_d = F(\mathbf{v}_d)\) → 随机超平面 LSH 哈希 \(\mathbf{h}_d = \text{sign}(\mathbf{W}\mathbf{t}_d)\) → 每个维度独立查检索桶,聚合投票。

关键设计

  1. 可交换性发现与证明:

    • 功能:证明在标准训练条件下(i.i.d. 初始化 + 置换不变损失 + 等变优化器),GNN 节点嵌入矩阵 \(\mathbf{X}\) 的特征维度是可交换随机变量
    • 核心思路:如果初始参数 \(\theta_0\) 的各维度是 i.i.d. 的,则由 Lemma 2(置换诱导变换 \(\Gamma_\pi\)),SGD 更新保持等变性 \(\theta_t(\pi) = \Gamma_\pi(\theta_t)\),最终 \(p(\mathbf{X}) = p(\mathbf{X}\pi)\)。关键引理链:初始化可交换 → 梯度等变 → 更新等变 → 嵌入可交换(Theorem 5)
    • 设计动机:这不是对 GNN 的新约束,而是发现现有 GNN 在标准训练下自然具有的对称性。且该性质在 BatchNorm、LayerNorm、Dropout、Adam/Adagrad 等现代组件下仍然成立(作者在 rebuttal 中补充了详细证明)
  2. 维度排序近似传输距离:

    • 功能:利用可交换性,将 \(D\) 维传输距离 \(\text{sim}(\mathbf{G}_c, \mathbf{G}_q)\) 分解为 \(D\) 个一维排序问题的和:\(\text{sim}(\mathbf{G}_c, \mathbf{G}_q) \approx \frac{1}{D}\sum_{d=1}^D \text{sim}_d(\mathbf{G}_c, \mathbf{G}_q)\)
    • 核心思路:由可交换性,每个维度 \(d\) 的边际分布相同。在每个维度内独立排序后计算欧氏距离,等价于求解一维最优传输(一维 Wasserstein 距离 = 排序后的 L1 距离)。近似误差由 Proposition 7 给出,\(\Pr(|\frac{\text{sim}}{D} - \text{sim}_d| \geq \epsilon)\)\(O(1/D)\) 速率收敛。即使维度间存在依赖,因嵌入 \(L_2\)-有界,仍保持 \(O(1/D)\) 收敛
    • 设计动机:将 \(D\) 维组合优化问题拆解为 \(D\) 个可并行化的一维排序问题,计算量从 \(O(n^3 D)\) 降至 \(O(nD \log n)\)
  3. GraphHash: LSH 框架:

    • 功能:对排序后的嵌入做 Fourier 特征映射 + 随机超平面 LSH,实现子线性查询
    • 核心思路:对每维 \(d\) 的排序嵌入 \(\mathbf{v}_d\),计算随机 Fourier 特征 \(\mathbf{t}_d = [\cos(\omega_j^T \mathbf{v}_d + b_j)]_{j=1}^M\)\(M=10\)),哈希码 \(\mathbf{h}_d = \text{sign}(\mathbf{W}\mathbf{t}_d)\)。查询时间 \(O(|C|^\gamma)\),其中 \(\gamma = \frac{\log(1/p)}{\log(1/p')} < 1\)
    • 设计动机:Fourier 特征将排序嵌入映射到希尔伯特空间使欧氏距离有意义,随机超平面 LSH 理论保证在高相似度区域有更高碰撞概率。空间复杂度仅 \(O(D|C|)\),100K 图仅需 3.5MB

理论保证

  • Theorem 5: 在标准条件下 GNN 嵌入可交换性成立
  • Proposition 7: 近似误差以 \(O(1/D)\) 收敛,且与维度间依赖无关
  • Theorem 18: LSH 碰撞概率满足 \((p, p', r_1, r_2)\)-敏感性

实验关键数据

主实验:AUC of MAP-Efficiency Tradeoff (|C|=1M)

数据集 (任务) GraphHash FourierHashNet DiskANN IVF CORGII
COX2 (SM) 0.361 0.332 0.213 - 0.274
COX2 (GED) 0.230 0.222 0.190 - 0.154
PTC-FM (SM) 0.347 0.322 0.161 - 0.216
PTC-FM (GED) 0.284 0.270 0.231 - 0.186
PTC-FR (SM) 0.333 0.317 0.157 - 0.217
PTC-MR (SM) 0.337 0.288 0.122 - 0.205

消融实验

配置 关键指标 说明
近似误差 (MAP-MAP)/MAP 6.73%-11.89% 近似传输距离的精度损失有界 (<12%)
跨 seed 稳定性 (10 runs) std < 0.009 AUC 性能跨随机种子极其稳定
D=2→30 AUC 持续提升 与 Prop.7 一致,D 越大近似越精确
dim_h=10 AUC 最优 哈希长度 10 bits 是 sweet spot
M (Fourier 维度)=10 AUC 最优 M<10 性能急剧下降
MMD 检验 \(p_X\) vs \(p_{X\pi}\) MMD²≈-3.89e-5 ± 2.69e-5 统计证实可交换性(MMD 接近 0)
vs SWWL (SM) GraphHash 0.354 vs SWWL 0.023 SWWL 对称相似度无法捕捉非对称子图匹配

关键发现

  • 可交换性对 BatchNorm、LayerNorm、Dropout、Adam 均成立(理论+实验证明)
  • 近似误差 <12%,可扩展到 \(|C|=10^6\),空间仅 3.5MB/100K 图
  • 在子图匹配任务上 GraphHash 在所有 4 个数据集上 AUC 最优
  • 在 GED 任务上 GraphHash 在 4 个数据集中 3 个上最优

亮点与洞察

  • GNN 表征的新理论视角:可交换性是 GNN 嵌入此前未被注意到的概率对称性,理论意义超越具体应用。此前 GNN 的对称性研究集中在节点排列不变性/等变性,本文揭示了正交于此的"维度方向"对称性
  • 将图检索降维为标准向量检索:通过可交换性 + 维度排序,NP-hard 的传输距离近似为可 LSH 加速的欧氏距离
  • retriever-reranker 架构中的定位清晰:GraphHash 是 retriever(快速粗筛),与 IsoNet++/SWWL 等 reranker(精确打分)正交互补
  • 证明扩展到非置换不变损失:通过将网络分为嵌入层+分类头,证明中间层嵌入仍满足可交换性

局限与展望

  • 仅在小分子图数据集(PTC、COX2,节点数 <50)上验证,大规模社交网络/知识图谱未测试
  • 近似误差虽有界但 ~12%,对精度要求极高的应用可能需要 reranker 补偿
  • 理论假设 i.i.d. 初始化——预训练后 fine-tune 的 GNN 是否仍满足可交换性未分析
  • 仅支持子图匹配和 GED 两种相似度,未扩展到图对齐等其他任务

相关工作与启发

  • vs FourierHashNet: 同为 LSH 方法但不利用可交换性,在所有设置下 AUC 低于 GraphHash
  • vs DiskANN/IVF: 标准 ANN 方法将图嵌入拉平为单向量做检索,丢失了集合结构信息
  • vs IsoNet++: 早期交互模型,query 与 corpus 嵌入不能独立计算,不支持索引。单次查询耗时 32.52s vs GraphHash 3.54s
  • vs CORGII: 同为图检索 retriever,GraphHash AUC 一致更高(差距 0.05-0.12)

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 可交换性发现、维度排序近似传输距离、GraphHash 构造均为原创,理论贡献突出
  • 实验充分度: ⭐⭐⭐⭐ 4 数据集 + 100 万图扩展 + MMD 统计检验 + 丰富超参分析,但数据集规模偏小
  • 写作质量: ⭐⭐⭐⭐ 理论推导清晰,reviewer 评 "well-structured and clearly presented"
  • 价值: ⭐⭐⭐⭐ 理论视角新颖,为图检索提供了实用的理论工具,但当前实验数据集偏小限制了实际影响