M3KG-RAG: Multi-hop Multimodal Knowledge Graph-enhanced Retrieval-Augmented Generation¶
会议: CVPR 2026
arXiv: 2512.20136
代码: 项目页面
领域: 图学习
关键词: 多模态知识图谱, 检索增强生成, 音视觉推理, 图剪枝, 多跳推理
一句话总结¶
提出M3KG-RAG,通过轻量多Agent流水线构建多跳多模态知识图谱(M3KG),并设计GRASP机制进行实体定位和选择性剪枝,仅保留查询相关且有助回答的知识,大幅提升MLLM的音视觉推理能力。
研究背景与动机¶
现有多模态RAG存在两大瓶颈:1)现有MMKG主要覆盖图文模态,音视觉覆盖有限,且大多为单跳图谱,缺乏时间/因果依赖的多跳连接;2)基于共享嵌入空间的相似度检索存在模态鸿沟,无法过滤离题或冗余知识,即使检索到相关上下文也可能注入噪声。
M3KG-RAG的核心创新在于:构建跨音视觉的多跳知识图谱 + 按模态检索绕过模态鸿沟 + GRASP精准保留回答有用的子图。
方法详解¶
整体框架¶
原始多模态语料 → 三步Agent流水线构建M3KG(上下文增强三元组提取→知识锚定→上下文感知描述精炼 + 自反思循环) → 按模态检索候选子图 → GRASP定位+剪枝 → 图增强的MLLM生成。
关键设计¶
-
多Agent M3KG构建流水线:
- 功能:从原始多模态语料构建多跳、跨模态知识图谱
- 核心思路:Rewriter增强caption → Extractor提取三元组 → Normalizer标准化实体 → Searcher查询知识库获取描述 → Selector选择上下文相关描述 → Refiner适配原始表述 → Inspector自反思循环确保质量
- 设计动机:仅用Qwen3-8B等轻量LLM即可完成,且自反思循环防止幻觉描述
-
GRASP(Grounded Retrieval And Selective Pruning):
- 功能:确保检索的知识既与查询相关又对回答有用
- 核心思路:视觉定位(GroundingDINO检测实体在视频帧中的存在→mask IoU阈值过滤)+ 音频定位(TAG模型评估三元组与查询音频的匹配度)+ 轻量LLM二值掩码剪枝无用三元组
- 设计动机:相似度检索只捕获broad语义,GRASP通过定位和剪枝提供fine-grained过滤
-
按模态检索(Modality-Wise Retrieval):
- 功能:绕过跨模态嵌入空间的模态鸿沟
- 核心思路:视频查询用InternVL2匹配视觉项,音频查询用CLAP匹配音频项,然后通过图链接提升到三元组级别
- 设计动机:共享嵌入空间中视频查询匹配文本知识库常失败
损失函数 / 训练策略¶
无模型训练,纯pipeline方案。M3KG构建在评估基准的训练集上完成,单张H100 GPU。
实验关键数据¶
主实验(Model-as-Judge评分)¶
| MLLM | 方法 | Audio QA | Video QA | AV QA |
|---|---|---|---|---|
| Qwen2.5-Omni | None | 49.00 | 42.21 | 32.42 |
| Qwen2.5-Omni | VAT-KG | 51.30 | 43.50 | 35.44 |
| Qwen2.5-Omni | M3KG-RAG | 60.77 | 44.35 | 44.67 |
Win-rate对比(vs VAT-KG)¶
| 基准 | VAT-KG胜率 | M3KG-RAG胜率 |
|---|---|---|
| AudioCaps-QA | 25.6% | 74.4% |
| VCGPT | 47.6% | 52.4% |
| VALOR | 41.8% | 58.2% |
关键发现¶
- 文本KG+简单RAG经常导致性能下降(Wikidata在多个设置上比无检索更差)
- 单跳MMKG(VAT-KG)改进有限,多跳结构关键
- 即使GPT-4o也能从M3KG-RAG获益,说明外部知识对大模型仍有价值
- GRASP的每个组件(定位+剪枝)都贡献了性能提升
亮点与洞察¶
- 端到端的多模态知识图谱构建和检索框架,覆盖音视觉文本三模态
- GRASP的"定位→剪枝"两步过滤设计直觉简洁且有效
- 仅用轻量级Qwen3-8B即可构建高质量知识图谱,成本可控
局限与展望¶
- 按模态检索的阈值τ和GRASP阈值η需要按数据集手动调整
- 知识图谱构建依赖训练集,泛化到新领域需重新构建
- GRASP的定位模型(GroundingDINO/TAG)本身可能有误差
- 仅评估了开放式QA,未覆盖其他多模态任务
相关工作与启发¶
- vs VAT-KG: 单跳概念图+简单检索;M3KG-RAG多跳图+GRASP精准过滤
- vs GraphRAG/LightRAG: 纯文本图RAG;M3KG-RAG扩展到音视觉多模态
评分¶
- 新颖性: ⭐⭐⭐⭐ 多跳多模态知识图谱+GRASP的组合新颖
- 实验充分度: ⭐⭐⭐⭐ 三个基准、多个MLLM、win-rate和MJ双评估
- 写作质量: ⭐⭐⭐⭐ 框架图清晰,流水线步骤详细
- 价值: ⭐⭐⭐⭐ 为多模态RAG提供了实用的知识图谱增强方案