Mosaic of Modalities: A Comprehensive Benchmark for Multimodal Graph Learning¶

会议: CVPR 2025
arXiv: 2406.16321
代码: https://mm-graph-benchmark.github.io/
领域: 多模态VLM
关键词: 多模态图学习, 基准测试, 图神经网络, 知识图谱补全, 特征对齐

一句话总结¶

本文提出MM-Graph——首个同时包含文本和视觉节点属性的综合性图学习基准，涵盖7个不同规模的真实数据集和3类图任务（链接预测/节点分类/知识图谱补全），系统评估了视觉信息对图学习的影响，揭示了"多模态GNN不如传统GNN"和"特征对齐至关重要"等关键发现。

研究背景与动机¶

图机器学习已有大量基准（OGB、GL-Bench等），近年文本属性图（TAG）基准也快速发展（CS-TAG）。→ 但现有基准几乎完全忽略视觉信息，而真实世界中图实体往往具有丰富的多模态语义（如电商产品有图片、书籍有封面）。→ 视觉与文本之间存在语义鸿沟：外观相似的产品可能有完全不同的文本描述，仅靠文本GNN无法捕捉。→ 多模态知识图谱(MMKG)领域数据质量差（URL失效、图片缺失）。→ 本文核心idea：构建首个标准化的文本+视觉多模态图基准MM-Graph，并系统探索视觉信息如何影响图学习；提供统一的GNN/KGE/特征编码器/评估器框架，使不同方法可直接比较。

方法详解¶

整体框架¶

MM-Graph包含7个数据集（3个链接预测+2个节点分类+2个知识图谱补全），统一了GNN架构（GCN/SAGE/MMGCN/MGAT/BUDDY/MLP）、KGE方法（MoSE/VISTA）、4种视觉编码器×3种文本编码器的组合方式、标准化数据加载器和评估器。

关键设计¶

7个多模态图数据集构建:
- 功能：提供从小规模（1.4K实体）到大规模（685K节点/7.2M边）的多样化测试平台
- 核心思路：Amazon-Sports/Cloth（电商共购图，产品标题+产品图片）、Goodreads-LP/NC（书籍推荐图，书籍描述+封面图）、Ele-Fashion（时尚分类图）、MM-CoDEx-s/m（知识图谱，维基百科描述+实体图片）
- 设计动机：不同规模确保计算复杂度多样性；不同域确保泛化性评估；使用Beautiful Soup爬取高分辨率图片确保数据质量；链接预测使用HeaRT生成hard negatives提高评估难度
标准化评估框架:
- 功能：在统一标准下比较不同GNN架构和特征编码策略
- 核心思路：传统GNN（GCN/SAGE）先拼接文本和视觉嵌入再通过GNN处理；多模态GNN（MMGCN为每个模态构建独立图、MGAT使用跨模态注意力）；使用Optuna自动调参确保公平
- 设计动机：现有研究难以在统一条件下比较方法好坏；多模态GNN（MMGCN/MGAT）来自推荐系统领域，需要适配到标准图学习任务评估其有效性
多模态特征编码策略探索:
- 功能：首次系统探索不同文本-视觉编码组合对图学习的影响
- 核心思路：对齐编码器（CLIP：文本+视觉的对比学习；ImageBind：跨模态统一嵌入）vs 非对齐编码器（ViT+T5、DINOv2+T5：各自独立训练，无跨模态对齐目标）
- 设计动机：验证"多模态特征对齐"对图学习是否真的重要，为后续研究提供基线选择指南

损失函数 / 训练策略¶

链接预测：使用点积解码器，HeaRT生成hard negatives，每条正边对150条负边排序
节点分类：3层MLP将节点表示映射到类别数
知识图谱补全：使用CoDEx原始训练/验证/测试集和负样本
分割比例：Amazon系列8/1/1，Goodreads/Ele-fashion为6/1/3，CoDEx使用原始分割

实验关键数据¶

链接预测主实验（MRR）¶

方法	编码器	Amazon-Sports	Amazon-Cloth	Goodreads-LP
SAGE	CLIP	33.83	24.58	44.10
SAGE	ImageBind	34.32	25.20	34.61
SAGE	DINOv2+T5	32.20	22.98	45.61
MMGCN	CLIP	31.96	22.20	31.84
MGAT	CLIP	27.56	21.38	74.75
MLP	CLIP	28.22	21.10	11.03

节点分类（Accuracy）¶

方法	编码器	Ele-fashion	Goodreads-NC
MMGCN	ImageBind	86.21	80.58
SAGE	DINOv2+T5	85.53	84.01
GCN	CLIP	79.83	81.61

消融实验（特征对齐 vs 非对齐）¶

对齐方式	Amazon-Sports(MRR)	Amazon-Cloth(MRR)	说明
CLIP（对齐）	33.83	24.58	文本+视觉联合对比训练
ImageBind（对齐）	34.32	25.20	跨模态统一嵌入
ViT+T5（非对齐）	32.01	23.11	独立训练，无对齐
DINOv2+T5（非对齐）	32.20	22.98	自监督+独立文本

关键发现¶

传统GNN（SAGE）在多数数据集上优于多模态GNN（MMGCN/MGAT）——反直觉发现，说明现有多模态GNN设计不够成熟，各模态独立消息传递+后期融合效果差
对齐的编码器（CLIP/ImageBind）一致优于非对齐编码器——跨模态预训练对齐是多模态图学习的基础
ImageBind在需要跨模态推理的任务中表现最佳, 其统一嵌入空间为未来引入音频/视频等模态提供了接口
视觉信息贡献因数据集差异很大：Amazon产品图像价值高，Goodreads书籍封面价值相对有限
MLP基线在某些场景不弱：特征质量好时，图结构的边际收益有限

亮点与洞察¶

填补重要社区空白：首个标准化的文本+视觉多模态图学习基准，是推动该方向的基础设施
反直觉发现具有启发性：多模态GNN不如传统GNN的发现促使社区重新思考多模态信息在图中的融合方式
实验设计严谨：4种视觉×3种文本编码器×6种GNN/KGE的全组合实验，使用Optuna自动调参
数据高质量：从Amazon/Goodreads/CoDEx等可靠源构建，爬取高分辨率图片

局限与展望¶

仅支持节点级多模态特征，未考虑边级别的多模态信息
视觉特征通过预训练编码器提取后冻结，未探索端到端联合训练
多模态GNN的融合策略较简单（拼接/注意力），未探索更先进的融合方法（如跨模态Transformer）
领域覆盖有限（电商、书籍、知识图谱），未含社交/引用网络

评分¶

新颖性: ⭐⭐⭐⭐ 首个多模态图学习基准，填补重要空白
实验充分度: ⭐⭐⭐⭐⭐ 全组合实验非常详尽，覆盖7数据集×多种方法×多种编码器
写作质量: ⭐⭐⭐⭐ 结构清晰，发现总结到位
价值: ⭐⭐⭐⭐ 基准贡献和关键发现对社区有长期推动作用，但缺乏方法创新