Mario: Multimodal Graph Reasoning with Large Language Models¶
会议: CVPR 2026
arXiv: 2603.05181
代码: 即将公开
领域: 图学习
关键词: 多模态图, LLM推理, 视觉语言对齐, 模态自适应路由, 指令微调
一句话总结¶
提出 Mario,针对多模态图(MMG)上的 LLM 推理,通过图条件视觉语言模型(GVLM)实现拓扑感知的跨模态对齐,再用模态自适应提示路由器(MAPR)为每个节点选择最优模态配置,在节点分类和链接预测上达到 SOTA。
研究背景与动机¶
现有多模态 LLM 处理独立图文对,忽略了现实中多模态数据间的关系结构。多模态图(MMG)中每个节点有文本+图像属性、边提供结构先验。直接用 VLM(如 CLIP)编码再送图模型存在两个挑战:
C1 弱跨模态一致性:节点的图文不一定语义同步,邻居信息可以消歧但被忽略。CLIP 冻结时的跨模态余弦相似度低,加入图拓扑后提升 68%。
C2 异质模态偏好:不同节点的信息量在不同模态上不同。约 30% 节点只能被某种特定模态配置正确分类。一刀切的提示模板浪费信息。
开放问题¶
能否设计一个统一框架,在 LLM 推理中同时解决 MMG 上的跨模态不一致和异质模态偏好?
方法详解¶
整体框架¶
Mario 处理的是多模态图(MMG):每个节点带文本 + 图像属性,边提供结构先验。它要同时治两个病——节点的图文不一定语义同步(弱跨模态一致性),以及不同节点偏好不同模态(异质模态偏好)。整体两阶段:Stage 1 训练一个图条件视觉语言模型(GVLM),用双塔编码器加拓扑感知多模态混合器做图条件对比学习,产出结构感知、跨模态一致的表示;Stage 2 为每个节点构建文本/图像/双模态三种提示模板,用模态自适应提示路由器(MAPR)挑最优模板再送 LLM 推理。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["多模态图 MMG<br/>节点带文本+图像属性,边给结构先验"] --> B
subgraph S1["Stage 1:图条件视觉语言模型 GVLM"]
direction TB
B["双塔编码器<br/>文本塔 / 图像塔分别编码"] --> C["拓扑感知多模态混合器<br/>逐层聚合邻居 CLS(带图位置偏置)再注入替换"]
C --> D["图条件对比学习<br/>对结构感知图文 CLS 做双向 InfoNCE 对齐"]
end
D --> E["结构感知、跨模态一致的节点表示"]
E --> F
subgraph S2["Stage 2:模态自适应图指令微调"]
direction TB
F["构建三种提示模板<br/>仅文本 / 仅图像 / 双模态"] --> G["模态自适应提示路由器 MAPR<br/>吃图文表示 + 两跳结构 + 度数 → 路由概率"]
G -->|"训练:软路由按性能后验加权"| H["LLM 指令微调"]
G -->|"推理:硬路由选概率最大模板"| H
end
H --> I["节点分类 / 链接预测"]
关键设计¶
1. 拓扑感知多模态混合器:让邻居信息进来消除图文歧义
CLIP 这类 VLM 冻结编码时,单个节点的图文跨模态相似度很低,而邻居本可以帮它消歧却被忽略了。混合器的做法是在每个编码层从全图收集各节点的 CLS 表示,用带图结构位置偏置的多头注意力聚合邻居信息,再把这份结构感知的 CLS 重新注入 token 序列、替换掉原来的 CLS,逐层迭代实现结构与模态的深度融合。正是这一步把图拓扑灌进表示,让跨模态一致性相比冻结 CLIP 提升了 68%。
2. 图条件对比学习:把"结构感知后的图文"对齐到一起
光有混合器还需要一个训练目标来真正拉近图文。Mario 对结构感知后的文本/图像 CLS 嵌入做双向 InfoNCE:
同一节点的图文互为正样本、其余为负样本,双向对称地拉近正对、推开负对,得到的就是带拓扑约束的跨模态一致表示,供第二阶段使用。
3. 模态自适应提示路由器(MAPR):每个节点用自己最吃得开的模态
约 30% 的节点只能在某种特定模态配置下被正确分类,一刀切的提示模板白白浪费信息。MAPR 为每个节点准备三种提示——仅文本 \(\mathcal{S}_v^{\text{txt}}\)、仅图像 \(\mathcal{S}_v^{\text{vis}}\)、双模态 \(\mathcal{S}_v^{\text{mm}}\),路由器吃进 \([\mathbf{h}_v^{\text{text}}; \mathbf{h}_v^{\text{image}}; \phi^{(1)}(v); \phi^{(2)}(v); \log d_v]\)(图文表示 + 两跳结构特征 + 度数),经 MLP 输出三类路由概率 \(\mathbf{p}_v = \text{softmax}(\mathbf{s}_v)\)。训练时用实际表现当老师:把三种模板各自的损失取负、softmax 成性能后验 \(\mathbf{q}_v = \text{softmax}(-[\ell_v^{(\text{txt})}, \ell_v^{(\text{vis})}, \ell_v^{(\text{mm})}])\),让路由概率去逼近它——
训练时软路由(按概率加权三种损失)、推理时硬路由(直接选概率最大的模板),既学得稳又在推理时零额外开销。
损失函数 / 训练策略¶
Stage 1 用对比损失训练编码器,Stage 2 用性能加权的 LM 损失 + KL 正则同时微调 LLM 和路由器;推理时路由器直接选最优模态模板。
实验关键数据¶
主实验(节点分类准确率 %)¶
| 方法 | Movies | CDs | Arts | |
|---|---|---|---|---|
| GCN(text) | 43.8 | 84.3 | 51.4 | 76.9 |
| GATv2(text) | 48.7 | 85.6 | 54.7 | 80.4 |
| Mario | 53.6+ | 95.3+ | 63.4+ | 92.1+ |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 无图条件VLM(CLIP冻结) | 低一致性 | 跨模态不对齐 |
| 节点级微调(无拓扑) | 部分改善 | 缺邻居信息 |
| +GVLM(阶段1) | 显著提升 | 拓扑+模态双感知 |
| +MAPR(阶段2) | 最优 | 模态自适应选择 |
Mix-Training 设置(节点分类准确率 %)¶
| 方法 | 模态 | Movies | CDs | Arts | |
|---|---|---|---|---|---|
| SAGE | Text | 46.85 | 89.96 | 53.24 | 87.46 |
| LLaGA | Text | 47.80 | 91.14 | 51.33 | 74.02 |
| LLaGA-A | Text+Image | 50.61 | 92.94 | 56.29 | 88.83 |
| Graph4MM | Text+Image | 51.07 | 92.89 | 55.53 | 89.32 |
| Mario-8B | Text+Image | 53.63 | 95.30 | 63.43 | 92.13 |
关键发现¶
- 图拓扑引入后跨模态一致性提升 68%(vs CLIP 冻结)
- ~30% 节点有明确的单模态偏好
- 零样本迁移最高提升 1.6 倍
亮点与洞察¶
- 两个挑战识别精准:弱一致性和异质偏好是 MMG 推理的真实瓶颈,Venn 图分析直观有力
- MAPR 路由机制优雅:用 LLM 损失作为性能信号驱动路由学习,训练时软路由、推理时硬路由零开销
- Stage 1 的 GVLM 是新范式:拓扑感知的视觉语言模型,Transformer 层内交替执行图注意力和 token 注意力
- 零样本迁移强:在未见过的 MMG 上实现最高 1.6× 增益,说明学到的模态路由策略具有泛化性
- 统一框架:同一架构处理节点分类和链接预测两种任务,通用性好
局限性¶
- 两阶段训练增加复杂性,Stage 2 训练时每个样本需三次 LLM 前向传播
- 混合器的注意力复杂度 \(\mathcal{O}(|\mathcal{V}_s|^2 d)\),对大规模图需节点采样
- 当前仅处理文本+图像双模态图,未扩展到音频、视频等模态
- 图拓扑偏置 \(\mathbf{B}_h\) 依赖最短路径预计算,对动态图不友好
- MLaGA 用 Q-Former 融合后再送 LLM,Graph4MM 处理缺失模态——Mario 在完整模态场景更优,但缺失模态场景未测试
评分¶
⭐⭐⭐⭐⭐ (5/5)
GVLM + MAPR 双重创新,四数据集 × 两任务 × 三模态设置实验全面覆盖,零样本迁移验证泛化力,是多模态图 + LLM 推理方向的重要开拓性工作。