MyGram: Modality-aware Graph Transformer with Global Distribution for Multi-modal Entity Alignment¶

会议: AAAI 2026
arXiv: 2601.11885
代码: https://github.com/HubuKG/MyGram
领域: 图学习 / 知识图谱
关键词: 多模态实体对齐, 知识图谱, Gram矩阵, 图扩散学习, Transformer

一句话总结¶

提出 MyGram，通过模态感知图卷积扩散（MGD）模块捕获模态内的深层结构上下文信息，并引入基于Gram矩阵行列式的全局分布对齐损失（Gram Loss），在高维空间中强制跨模态语义一致性，实现更鲁棒的多模态实体对齐。

研究背景与动机¶

问题背景¶

多模态知识图谱（MMKG）通过整合文本、图像等多种模态增强实体的语义表示。然而，不同来源的MMKG对同一现实实体往往具有不一致的表示。多模态实体对齐（MMEA） 旨在识别不同MMKG中指代同一现实对象的等价实体，是知识融合的核心任务。

现有方法的两大挑战¶

对比学习的局限性：现有方法主要采用模态内对比学习框架，通过优化正负实体对的特征距离来对齐。但这些方法忽视了全局特征空间中模态间的分布差异，仅关注局部点对点对齐，无法保证跨模态特征的全局一致性

浅层特征干扰：现有方法忽视了每种模态内的结构上下文信息，导致模型难以区分外观相似但本质不同的实体。典型案例：Anne Hathaway 和 Kirsten Dunst 在视觉和属性特征上高度相似，会对对齐产生干扰，但利用结构信息仍可实现准确对齐

核心思路¶

通过图扩散学习获取富含结构上下文的模态特征（解决浅层特征干扰）
通过Gram矩阵构建的高维平行体体积作为几何指标约束跨模态分布一致性（解决全局对齐缺失）

方法详解¶

整体框架¶

MyGram 由三大模块组成： 1. 多模态特征提取：从不同模态独立提取单模态嵌入 2. 模态感知扩散学习：通过图卷积扩散获取富含结构上下文的模态特征 3. 多模态训练与学习：使用 Gram Loss 建立等价实体间的对齐

关键设计¶

1. 多模态特征提取：为每种模态独立构建嵌入¶

结构模态：使用关系反射图注意力网络（RRGAT）聚合邻居，保留关系结构信息：\(\mathbf{h}_g = RRGAT(\omega, \mathbf{M}_g, x_g)\)
关系/属性/视觉模态：通过线性变换投影到共享特征空间：\(\mathbf{h}_m = \mathbf{W}_m x_m + b_m, \quad m \in \{r, a, v\}\)
- 属性和关系使用词袋特征表示
- 视觉使用预训练图像编码器（VGG-16）提取特征

2. 模态感知图卷积扩散（MGD）模块：捕获深层结构上下文¶

设计动机：传统方法忽视邻居实体的模态信息，仅使用浅层特征容易被相似但不同的实体干扰。MGD对每种模态独立进行多跳邻域信息聚合。

图卷积扩散过程： - 构建带自环的归一化邻接矩阵：\(\hat{A} = D^{-1/2}(A+I)D^{-1/2}\) - 迭代传播（\(k\) 轮），带残差连接防止过平滑：

\[\mathbf{H}_m^{(l)} = \beta \cdot \hat{A}\mathbf{H}_m^{(l-1)} + \alpha \cdot \mathbf{H}_m^{(0)}, \quad (l=1,2,...,k)\]

最终输出经归一化和Dropout：\(\mathbf{H}_m = \text{Dropout}\left(\frac{1}{\gamma}\mathbf{H}_m^{(k)}\right)\)，其中 \(\gamma = \beta^k + \alpha \sum_{c=0}^{k-1}\beta^c\) 防止梯度爆炸

Transformer自注意力融合： - 对扩散后的模态特征应用多头交叉注意力：

\[head_m^i = \beta_m^{(i)} V_m^{(i)}, \quad \beta_m = \text{softmax}\left(\frac{Q_m^\top K_m}{\sqrt{d_h}}\right)\]

计算跨模态权重进行自适应融合：

\[\omega_m = \frac{\exp\left(\sum_{j \in M}\sum_{i=0}^{N_h}\beta_{m,j}^{(i)} / \sqrt{|M| \times N_h}\right)}{\sum_{k \in M} \exp\left(\sum_{k \in M}\sum_{i=0}^{N_h}\beta_{m,k}^{(i)} / \sqrt{|M| \times N_h}\right)}\]

联合嵌入：\(\mathbf{H}_o = \mathbf{H}_g \oplus_{m \in M}[\omega_m \mathbf{H}_m]\)

3. Gram-based 全局分布对齐：基于高维体积的几何约束¶

核心思想：利用多模态向量构成的4维平行体的体积作为跨模态一致性的几何指标。体积越小，表示嵌入位于更紧凑的子空间，跨模态语义一致性越强。

具体实现： - 先通过相似度矩阵选择 Top-K 候选实体 - 用源实体结构特征和目标实体的视觉/属性/关系特征构建多模态矩阵：\(\mathcal{M} = [\tilde{\mathbf{H}}_g^s, \tilde{\mathbf{H}}_v^t, \tilde{\mathbf{H}}_a^t, \tilde{\mathbf{H}}_r^t] \in \mathbb{R}^{d_h \times 4}\) - 计算 Gram 矩阵 \(G = \mathcal{M}^\top \mathcal{M} \in \mathbb{R}^{4 \times 4}\) - 4维平行体体积：\(Vol = \sqrt{|\det(G)| + \epsilon}\) - Gram Loss（稀疏对比损失）：

\[\mathcal{L}_{Gram} = -\frac{1}{M}\sum_{m=1}^{M} \log \frac{\exp(-Vol^{(m,p)}/\tau)}{\sum_{k=1}^{K} \exp(-Vol^{(m,k)}/\tau)}\]

与传统方法的区别：传统方法优化点对点特征距离（局部），Gram Loss约束多模态向量在高维空间的整体几何关系（全局），促进跨模态语义结构一致性。

损失函数 / 训练策略¶

总损失为InfoNCE对比损失 + 加权Gram损失：

\[\mathcal{L}_{total} = \mathcal{L}_{InfoNCE} + \lambda \mathcal{L}_{Gram}\]

其中InfoNCE最大化真实对齐实体对的相似度并分离负样本：

\[\mathcal{L}_{InfoNCE} = \sum_{(e_i,e_j) \in \mathcal{S}} -\log \frac{\exp(\text{sim}(e_i, e_j)/\mathcal{T})}{\sum_{e_k \in \mathcal{N}_i^{neg}} \exp(\text{sim}(e_i, e_k)/\mathcal{T})}\]

实验关键数据¶

实验设置¶

数据集：
- 跨知识图谱：FB15K-DB15K、FB15K-YG15K（种子比例：20%/50%/80%）
- 双语：DBP15K（ZH-EN、JA-EN、FR-EN，种子比例30%）
指标：Hits@1、Hits@10、MRR
图像特征：VGG-16，\(d_v = 4096\)
隐层维度：300，自注意力头数5，Transformer中间层400

主实验¶

数据集	指标	MyGram	次优方法	提升
FBDB15K (80%)	Hit@1	0.842	IBMEA: 0.821	+2.6%
FBDB15K (80%)	MRR	0.879	SimDiff: 0.865	+1.6%
FBYG15K (80%)	Hit@1	0.783	PMF: 0.756	+3.6%
FBYG15K (20%)	Hit@1	0.629	SimDiff: 0.530	+18.7%
DBP15K ZH-EN	Hit@1	0.833	DESAlign: 0.810	+2.8%
DBP15K JA-EN	Hit@1	0.836	DESAlign: 0.811	+3.1%
DBP15K FR-EN	Hit@1	0.869	DESAlign: 0.826	+5.2%

在 FBDB15K 上 Hit@1 最大提升 4.8%，FBYG15K 上 9.9%，DBP15K 上 4.3%。

消融实验¶

配置	FBDB15K MRR	FBDB15K Hit@1	FBYG15K MRR	FBYG15K Hit@1	说明
MyGram (full)	0.879	0.842	0.836	0.783	完整模型
w/o Relation	0.842	0.822	0.811	0.761	关系模态移除影响最大
w/o Attributes	0.859	0.834	0.818	0.768	属性贡献显著
w/o Image	0.851	0.829	0.824	0.772	视觉信息有帮助
w/o MGD	显著下降	显著下降	显著下降	显著下降	模态扩散模块关键
w/o Gram	下降	下降	下降	下降	Gram Loss有效

关键发现¶

关系模态最重要：移除关系信息导致最大性能下降，说明结构信息在多模态实体对齐中起核心作用
低资源场景优势显著：在5%-30%种子比例的低资源实验中，MyGram始终保持对MEAformer和SimDiff的优势
案例研究：在"上海/Shanghai"实体对齐中，MEAformer和PMF对正确实体排名较低，MyGram能准确匹配，证明其捕获深层信息的能力
MGD模块贡献大于Gram Loss：模态图卷积扩散对性能的影响更为显著

亮点与洞察¶

几何视角的全局对齐：Gram矩阵行列式作为多模态一致性指标非常巧妙——体积为零意味着所有模态向量线性相关（完美一致），体积越大越不一致。这比逐对比较提供了更全局的约束
图扩散 + Transformer的互补性：图扩散捕获局部结构上下文，Transformer捕获跨模态全局依赖，两者互补
模态权重的自适应计算：通过注意力分数的归一化来确定各模态权重，比手动设定更灵活
实验覆盖全面：5大数据集、9组对比实验、低资源分析、案例研究

局限与展望¶

使用VGG-16作为图像编码器相对过时，可尝试CLIP等更强的多模态编码器
4维平行体是硬编码设计，如果模态数量变化需要重新设计
隐层维度固定300可能限制了模型对复杂语义的建模能力
未探索文本模态的深度表示（仅用词袋特征表示属性和关系）
可改进方向：引入LLM增强文本理解（论文已提到）、探索动态知识图谱场景中的增量对齐

评分¶

新颖性: ⭐⭐⭐⭐ — Gram Loss的几何视角新颖，但MGD部分较常规
实验充分度: ⭐⭐⭐⭐⭐ — 5数据集、9组实验、模态消融+组件消融+低资源+案例
写作质量: ⭐⭐⭐⭐ — 结构清晰，但公式符号偶有不一致
实用价值: ⭐⭐⭐⭐ — 开源代码，方法可行，但特征提取器偏老旧