Hybrid-DMKG: A Hybrid Reasoning Framework over Dynamic Multimodal Knowledge Graphs for Multimodal Multihop QA with Knowledge Editing¶

会议: AAAI2026
arXiv: 2512.00881
作者: Li Yuan, Qingfei Huang, Bingshan Zhu, Yi Cai, Qingbao Huang, Changmeng Zheng, Zikun Deng, Tao Wang (SCUT等)
代码: YuanLi95/Hybrid-DMKG
领域: 知识编辑
关键词: 多模态知识编辑, 多跳问答, 动态知识图谱, 跨模态检索, RAG, 混合推理

一句话总结¶

提出MMQAKE基准和Hybrid-DMKG框架，在动态多模态知识图谱上构建"关系链接预测 + RAG增强LVLM推理"双通道混合推理机制，配合背景反思决策模块，在2-5跳多模态知识编辑问答中显著超越现有方法（LLaVA上H-Acc达29.90%，超IKE 13.52个百分点）。

背景与动机¶

知识编辑面临多模态挑战¶

大语言模型编码的知识可能过时或错误，知识编辑（Knowledge Editing）旨在修正这些知识而不影响无关内容。随着LVLM的发展，多模态知识编辑（MKE）将编辑扩展到文本+视觉，但现有MKE基准（如VLKEB）主要评估最终答案正确性，忽略了多跳推理过程的质量和对视觉输入变化的鲁棒性。

现有评估的三大局限¶

(1) 缺乏中间推理步骤评估：模型可能通过错误推理路径得到正确最终答案，仅评估最终答案会掩盖推理错误；(2) 缺乏视觉重述鲁棒性评估：同一实体的不同图片应得到一致结果，但现有基准未测试；(3) 忽略答案别名多样性："Buenos Ayres"与"Buenos Aires"语义等价但未被识别为正确。这些局限使得MKE方法的真实推理能力被高估。

多跳推理对知识编辑的特殊挑战¶

当知识链中的第一个事实被编辑后（如将人名从Roy Bittan改为Gustavo Santaolalla），模型需要正确传播修改信息并在后续推理步骤中使用更新后的知识。这要求模型不仅能编辑单一事实，还能在整个推理链上保持一致性——这对现有parameter-update和parameter-retention方法都是巨大挑战。

核心问题¶

如何在多模态多跳问答中，使模型在知识编辑后能够在每个推理步骤上正确使用更新知识，同时对视觉输入的变化保持鲁棒？

方法详解¶

整体框架¶

Hybrid-DMKG是一个无需修改模型参数的框架，包含四个核心组件：(a) 动态多模态知识图谱（DMKG）构建与维护；(b) LLM问题分解；(c) 跨模态实体检索；(d) DMKG引导的混合推理。

DMKG构建与更新¶

多模态知识图谱 $\mathcal{G}$ 中每条记录表示为 $(\mathcal{G}_i^e, \mathcal{G}_i^r, \mathcal{G}_i^o)$，部分实体关联图像 $\mathcal{G}_i^v$。当接收编辑四元组 $(x, v, o, \tilde{o})$ 时，将其整合到 $\mathcal{G}$ 生成动态图 $\tilde{\mathcal{G}}$，同时保留原始和编辑后的事实。

问题分解¶

利用LLM（无需fine-tuning）将多跳问题 $Q$ 分解为子问题序列： $$\{q_1, q_2, \ldots, q_n\} = \text{LLM}(Q, P_{\text{Dec}})$$ 视觉子问题使用[IMAGE]占位符，相关实体用[ENT]标记以维持一致性。

跨模态实体检索¶

对视觉子问题，使用跨模态检索模型 $\text{M}_u$ 联合编码实体名称和图像： $$z_m = \text{M}_u([\tilde{\mathcal{G}}_m^e, \tilde{\mathcal{G}}_m^v])$$ $$s = \text{M}_u([q_1, \tilde{v}])$$ 通过余弦相似度Top-1检索最相关实体作为答案：$a_1 = \arg\text{Top1}_{m} \frac{s^T z_m}{\|s\|_2 \|z_m\|_2}$

DMKG引导的混合推理¶

对推理型子问题，采用双通道并行推理：

通道1: 关系链接预测 — 使用fine-tuned关系提取器 $\text{M}_e$ 从查询中提取关系关键词 $k_2^q$，与DMKG中候选关系计算Sense2Vec嵌入的余弦相似度，超过阈值 $\alpha$ 则选择对应实体作为答案 $a_2^{\text{link}}$。

通道2: RAG增强LVLM推理 — 从DMKG检索Top-K相关三元组作为上下文，输入LVLM生成答案： $$a_2^{\text{model}} = \text{LVLM}(q_2, \tilde{v}, \mathcal{K}_{\text{Ret}}(q_2, C_2), P_{\text{Ans}})$$

背景反思决策 — 当两通道答案不一致时，从DMKG提取两个候选答案的背景知识，由LVLM综合评估选择最可信答案： $$a_2 = \text{LVLM}(q_2, \tilde{v}, [a_2^{\text{link}}, C_2^{\text{link*}}], [a_2^{\text{model}}, C_2^{\text{modal*}}], P_{\text{Cho}})$$

实验关键数据¶

MMQAKE基准统计¶

指标	数值
知识编辑数	1,278
2-hop问题数	1,278
3-hop问题数	1,238
4-hop问题数	1,193
5-hop问题数	1,110
子问题总数	11,773
平均答案别名数	9.49

主实验 (Original Image)¶

方法	BLIP-2 M-Acc	BLIP-2 H-Acc	LLaVA M-Acc	LLaVA H-Acc	MiniGPT-4 M-Acc	MiniGPT-4 H-Acc
FT(QFor)	3.73	0.20	4.63	0.44	4.69	0.44
MEND	0.04	0.00	0.70	0.00	0.07	0.00
SERAC	5.75	0.00	6.58	0.00	0.27	0.00
IKE	16.64	6.16	38.93	16.38	15.48	6.14
Hybrid-DMKG	47.55	28.88	53.75	29.90	35.86	24.73

消融实验 (LLaVA, Original Image)¶

变体	M-Acc	H-Acc
Hybrid-DMKG (full)	53.75	29.90
w/o Linking	47.68	23.15
w/o Decision	52.71	28.36

不同Hop数的H-Acc表现 (LLaVA)¶

在4-hop和5-hop的H-Acc上，Hybrid-DMKG达到约5%以上准确率，而其他方法通常低于2%，差距近乎翻倍。

亮点¶

首个多模态多跳知识编辑基准MMQAKE：支持2-5跳推理链、逐步评估、视觉重述鲁棒性测试和答案别名匹配，填补了MKE评估的空白
双通道混合推理设计：关系链接预测擅长处理DMKG中有明确关系的查询，RAG增强推理弥补背景知识不完整的情况，两者互补提升鲁棒性
背景反思决策模块：当双通道给出不同答案时，利用DMKG中的邻域背景知识让LVLM进行"反思式"决策，有效过滤错误候选
参数无修改框架：不需要修改LVLM参数，通过外部知识图谱实现知识更新，避免了catastrophic forgetting问题
大幅超越基线：在LLaVA上H-Acc比最强基线IKE高出13.52个百分点（29.90% vs 16.38%）

局限与展望¶

依赖外部组件较多：需要LLM问题分解、CLIP检索模型、关系提取器、Wiki Linker等多个外部模块，系统复杂度高，任一模块失败可能导致级联错误
H-Acc绝对值仍然较低：即使是最好的结果（29.90%），说明多模态多跳推理仍远未解决，尤其在5-hop时H-Acc仅约5%
未支持开放式问答：MMQAKE仅覆盖事实型QA，未涉及开放式或生成式问答场景
DMKG规模受限：当前实验中知识图谱包含约5.8万实体和68.6万三元组，在更大规模KG上的效率和准确性有待验证

与相关工作的对比¶

vs IKE: IKE基于检索增强的in-context learning，能维持较稳定的baseline但在多跳传播上能力不足，Hybrid-DMKG通过结构化KG遍历实现显式推理链
vs MEND/SERAC: 参数修改类方法在多跳推理上几乎完全失败（H-Acc ≈ 0%），说明单跳编辑能力无法泛化到多跳场景
vs MQUAKE: MMQAKE将纯文本多跳知识编辑评估扩展到多模态场景，增加了视觉重述和逐步评估维度

启发与关联¶

知识图谱作为外部知识存储的范式在知识编辑场景中展现独特优势——可精确定位并修改特定三元组
双通道推理+反思决策的设计模式可推广到其他需要多源证据融合的推理任务
MMQAKE的逐步评估协议为未来多跳推理研究提供了更严格的评估标准

评分¶

新颖性: ⭐⭐⭐⭐ — 首个多模态多跳知识编辑基准+DMKG混合推理框架
实验充分度: ⭐⭐⭐⭐ — 多个backbone、消融实验、hop-wise分析、无别名对照实验
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，Figure 1/2展示直观
价值: ⭐⭐⭐⭐ — 问题重要且提出了可用的benchmark，但H-Acc绝对值仍有较大提升空间