跳转至

Hybrid-DMKG: A Hybrid Reasoning Framework over Dynamic Multimodal Knowledge Graphs for Multimodal Multihop QA with Knowledge Editing

会议: AAAI2026
arXiv: 2512.00881
作者: Li Yuan, Qingfei Huang, Bingshan Zhu, Yi Cai, Qingbao Huang, Changmeng Zheng, Zikun Deng, Tao Wang (SCUT等)
代码: YuanLi95/Hybrid-DMKG
领域: 知识编辑
关键词: 多模态知识编辑, 多跳问答, 动态知识图谱, 跨模态检索, RAG, 混合推理

一句话总结

提出MMQAKE基准和Hybrid-DMKG框架,在动态多模态知识图谱上构建"关系链接预测 + RAG增强LVLM推理"双通道混合推理机制,配合背景反思决策模块,在2-5跳多模态知识编辑问答中显著超越现有方法(LLaVA上H-Acc达29.90%,超IKE 13.52个百分点)。

背景与动机

知识编辑面临多模态挑战

大语言模型编码的知识可能过时或错误,知识编辑(Knowledge Editing)旨在修正这些知识而不影响无关内容。随着LVLM的发展,多模态知识编辑(MKE)将编辑扩展到文本+视觉,但现有MKE基准(如VLKEB)主要评估最终答案正确性,忽略了多跳推理过程的质量和对视觉输入变化的鲁棒性。

现有评估的三大局限

(1) 缺乏中间推理步骤评估:模型可能通过错误推理路径得到正确最终答案,仅评估最终答案会掩盖推理错误;(2) 缺乏视觉重述鲁棒性评估:同一实体的不同图片应得到一致结果,但现有基准未测试;(3) 忽略答案别名多样性:"Buenos Ayres"与"Buenos Aires"语义等价但未被识别为正确。这些局限使得MKE方法的真实推理能力被高估。

多跳推理对知识编辑的特殊挑战

当知识链中的第一个事实被编辑后(如将人名从Roy Bittan改为Gustavo Santaolalla),模型需要正确传播修改信息并在后续推理步骤中使用更新后的知识。这要求模型不仅能编辑单一事实,还能在整个推理链上保持一致性——这对现有parameter-update和parameter-retention方法都是巨大挑战。

核心问题

如何在多模态多跳问答中,使模型在知识编辑后能够在每个推理步骤上正确使用更新知识,同时对视觉输入的变化保持鲁棒?

方法详解

整体框架

Hybrid-DMKG是一个无需修改模型参数的框架,包含四个核心组件:(a) 动态多模态知识图谱(DMKG)构建与维护;(b) LLM问题分解;(c) 跨模态实体检索;(d) DMKG引导的混合推理。

DMKG构建与更新

多模态知识图谱 \(\mathcal{G}\) 中每条记录表示为 \((\mathcal{G}_i^e, \mathcal{G}_i^r, \mathcal{G}_i^o)\),部分实体关联图像 \(\mathcal{G}_i^v\)。当接收编辑四元组 \((x, v, o, \tilde{o})\) 时,将其整合到 \(\mathcal{G}\) 生成动态图 \(\tilde{\mathcal{G}}\),同时保留原始和编辑后的事实。

问题分解

利用LLM(无需fine-tuning)将多跳问题 \(Q\) 分解为子问题序列: $\(\{q_1, q_2, \ldots, q_n\} = \text{LLM}(Q, P_{\text{Dec}})\)$ 视觉子问题使用[IMAGE]占位符,相关实体用[ENT]标记以维持一致性。

跨模态实体检索

对视觉子问题,使用跨模态检索模型 \(\text{M}_u\) 联合编码实体名称和图像: $\(z_m = \text{M}_u([\tilde{\mathcal{G}}_m^e, \tilde{\mathcal{G}}_m^v])\)$ $\(s = \text{M}_u([q_1, \tilde{v}])\)$ 通过余弦相似度Top-1检索最相关实体作为答案:\(a_1 = \arg\text{Top1}_{m} \frac{s^T z_m}{\|s\|_2 \|z_m\|_2}\)

DMKG引导的混合推理

对推理型子问题,采用双通道并行推理:

通道1: 关系链接预测 — 使用fine-tuned关系提取器 \(\text{M}_e\) 从查询中提取关系关键词 \(k_2^q\),与DMKG中候选关系计算Sense2Vec嵌入的余弦相似度,超过阈值 \(\alpha\) 则选择对应实体作为答案 \(a_2^{\text{link}}\)

通道2: RAG增强LVLM推理 — 从DMKG检索Top-K相关三元组作为上下文,输入LVLM生成答案: $\(a_2^{\text{model}} = \text{LVLM}(q_2, \tilde{v}, \mathcal{K}_{\text{Ret}}(q_2, C_2), P_{\text{Ans}})\)$

背景反思决策 — 当两通道答案不一致时,从DMKG提取两个候选答案的背景知识,由LVLM综合评估选择最可信答案: $\(a_2 = \text{LVLM}(q_2, \tilde{v}, [a_2^{\text{link}}, C_2^{\text{link*}}], [a_2^{\text{model}}, C_2^{\text{modal*}}], P_{\text{Cho}})\)$

实验关键数据

MMQAKE基准统计

指标 数值
知识编辑数 1,278
2-hop问题数 1,278
3-hop问题数 1,238
4-hop问题数 1,193
5-hop问题数 1,110
子问题总数 11,773
平均答案别名数 9.49

主实验 (Original Image)

方法 BLIP-2 M-Acc BLIP-2 H-Acc LLaVA M-Acc LLaVA H-Acc MiniGPT-4 M-Acc MiniGPT-4 H-Acc
FT(QFor) 3.73 0.20 4.63 0.44 4.69 0.44
MEND 0.04 0.00 0.70 0.00 0.07 0.00
SERAC 5.75 0.00 6.58 0.00 0.27 0.00
IKE 16.64 6.16 38.93 16.38 15.48 6.14
Hybrid-DMKG 47.55 28.88 53.75 29.90 35.86 24.73

消融实验 (LLaVA, Original Image)

变体 M-Acc H-Acc
Hybrid-DMKG (full) 53.75 29.90
w/o Linking 47.68 23.15
w/o Decision 52.71 28.36

不同Hop数的H-Acc表现 (LLaVA)

在4-hop和5-hop的H-Acc上,Hybrid-DMKG达到约5%以上准确率,而其他方法通常低于2%,差距近乎翻倍。

亮点

  • 首个多模态多跳知识编辑基准MMQAKE:支持2-5跳推理链、逐步评估、视觉重述鲁棒性测试和答案别名匹配,填补了MKE评估的空白
  • 双通道混合推理设计:关系链接预测擅长处理DMKG中有明确关系的查询,RAG增强推理弥补背景知识不完整的情况,两者互补提升鲁棒性
  • 背景反思决策模块:当双通道给出不同答案时,利用DMKG中的邻域背景知识让LVLM进行"反思式"决策,有效过滤错误候选
  • 参数无修改框架:不需要修改LVLM参数,通过外部知识图谱实现知识更新,避免了catastrophic forgetting问题
  • 大幅超越基线:在LLaVA上H-Acc比最强基线IKE高出13.52个百分点(29.90% vs 16.38%)

局限与展望

  • 依赖外部组件较多:需要LLM问题分解、CLIP检索模型、关系提取器、Wiki Linker等多个外部模块,系统复杂度高,任一模块失败可能导致级联错误
  • H-Acc绝对值仍然较低:即使是最好的结果(29.90%),说明多模态多跳推理仍远未解决,尤其在5-hop时H-Acc仅约5%
  • 未支持开放式问答:MMQAKE仅覆盖事实型QA,未涉及开放式或生成式问答场景
  • DMKG规模受限:当前实验中知识图谱包含约5.8万实体和68.6万三元组,在更大规模KG上的效率和准确性有待验证

与相关工作的对比

  • vs IKE: IKE基于检索增强的in-context learning,能维持较稳定的baseline但在多跳传播上能力不足,Hybrid-DMKG通过结构化KG遍历实现显式推理链
  • vs MEND/SERAC: 参数修改类方法在多跳推理上几乎完全失败(H-Acc ≈ 0%),说明单跳编辑能力无法泛化到多跳场景
  • vs MQUAKE: MMQAKE将纯文本多跳知识编辑评估扩展到多模态场景,增加了视觉重述和逐步评估维度

启发与关联

  • 知识图谱作为外部知识存储的范式在知识编辑场景中展现独特优势——可精确定位并修改特定三元组
  • 双通道推理+反思决策的设计模式可推广到其他需要多源证据融合的推理任务
  • MMQAKE的逐步评估协议为未来多跳推理研究提供了更严格的评估标准

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个多模态多跳知识编辑基准+DMKG混合推理框架
  • 实验充分度: ⭐⭐⭐⭐ — 多个backbone、消融实验、hop-wise分析、无别名对照实验
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,Figure 1/2展示直观
  • 价值: ⭐⭐⭐⭐ — 问题重要且提出了可用的benchmark,但H-Acc绝对值仍有较大提升空间