VKG-QA: Visual Knowledge Graph-based Question Answer for Large Multimodal Models¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/sq413/VKG-QA (有)
领域: 多模态VLM
关键词: 视觉知识图谱, 多模态评测基准, 结构化推理, 大多模态模型, 图理解
一句话总结¶
把知识图谱画成图片让大多模态模型(LMM)直接"看图"做问答,作者构建了覆盖 3 大类 14 子任务、3205 道题的 VKG-QA 基准,评测 19 个 LMM 后发现:当前模型在"看懂图结构"上普遍吃力,图结构理解(度数/方向/连通性)是最难的短板,闭源模型大幅领先开源模型。
研究背景与动机¶
领域现状:知识图谱(KG)是描述实体与关系的结构化知识表示,在知识问答、推荐、科学发现里广泛使用。把 KG 接进大模型来增强事实性和推理能力是当下热点,主流做法是把图"线性化"成文本三元组序列(如 (Safari, comes with, OS X))喂给 LLM。
现有痛点:线性化会把图的高阶关系线索拍扁。一旦关系变成一长串三元组文本,模型要在脑子里重建拓扑结构,多跳问题上特别容易出错——它得自己把散落的三元组拼回一张图,再沿路径推理,token 化的表示让这种结构重建变得脆弱。
核心矛盾:KG 的价值恰恰在于它的图结构(谁连谁、方向、度数、环路、连通分量),而文本序列天然丢失这些空间/拓扑信息;可是现有评测要么测自然图像识别、要么测非结构化视觉推理,没有人系统地评测"模型能不能看懂一张画出来的知识图谱"。
本文目标:(1) 提出一种新范式——把 KG 可视化成图片,让 LMM 用视觉-空间能力直接感知和推理图结构;(2) 造一个能细粒度衡量这种能力的基准;(3) 摸清当前 LMM 在"视觉化结构推理"上到底卡在哪。
切入角度:作者受 LMM 在视觉-语言任务上强大泛化能力的启发,假设图片比文本更适合承载图结构——节点的空间分布、边的指向、环路在图片里是"一眼可见"的,模型不必从文本重建拓扑。这个直觉和 DeepSeek-OCR 把文本压成图像的思路一脉相承。
核心 idea:用"画出来的知识图谱图片 + 视觉问答"代替"线性化三元组 + 文本推理",并造一套从像素级感知到逻辑推理逐级递进的基准,逼出 LMM 在结构化视觉理解上的真实水平。
方法详解¶
这篇论文的"方法"是一条半自动、人在回路(human-in-the-loop)的基准构建管线:从已有大规模 KG 里抽子图 → 渲染成视觉知识图谱(VKG)图片 → 围绕图片生成三大类问答题 → 人工校验。最终产出 455 张 VKG 图、3205 道题、14 个子任务。下面先看整体流程,再拆关键设计。
整体框架¶
输入是现成的 KG / KGQA 数据集(ReVerb45K、DBpedia500、MetaQA),输出是一套带标准答案的"看图问答"评测集。中间分三步:Step 1 造图(抽子图 + 渲染成图片)、Step 2 出题(模板/人工/数据集对齐三路生成问答对)、Step 3 人工校验(语义对齐、视觉清晰、逻辑一致)。题目按"先感知后推理"的递进逻辑组织成三大类——通用图像理解、图结构专项理解、基于图的推理。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["KG / KGQA 数据集<br/>ReVerb45K · DBpedia500 · MetaQA"] --> B["可控邻居采样造子图<br/>k-hop 采样 + 边数约束"]
B --> C["VKG 可视化渲染<br/>自动布局 + 人工微调上色"]
C --> D["三路混合出题<br/>模板 + 人工 + 数据集对齐"]
D --> E["递进式任务体系<br/>感知→结构理解→图推理"]
E -->|人工校验三关| F["VKG-QA 基准<br/>455 图 · 3205 题 · 14 子任务"]
关键设计¶
1. 可控邻居采样:让每张子图"既不太空也不太密",还保留多跳推理路径
直接从大 KG 里随机切子图,结果要么稀得没信息、要么密得人都看不清,更别说模型。作者对每个中心实体做 \(k\)-hop(\(k=1,2,3\))邻居采样,限制每一跳采样的节点数;过稀或过密的子图直接丢弃,从而维持均衡的视觉复杂度和按跳距分层的空间分布,同时严格保留有向 KG 的格式以保住原始拓扑。为进一步控制可读性,作者给边数加了一个线性约束:
其中 \(|E|\) 是边数、\(|V|\) 是节点数,权重 \(w\) 取 \(1.2 / 1.3 / 1.5\)(不同任务不同)。这条约束保证子图"视觉上合理、语义上完整"。对单跳/多跳推理任务,采样策略要特殊处理:子图以 MetaQA 里的问题实体为中心,邻居扩展时显式保留问题实体到答案实体的推理路径,确保采出来的子图既有局部上下文又含完整的逻辑链,否则多跳题会因为路径被截断而无解。
2. 视觉化渲染:把抽象拓扑变成"模型能看、人能读"的图片
有了子图还得画好——画得乱模型一样懵。作者用交互式渲染工具(pyvis)先自动生成布局,再由标注员人工微调节点位置和边对齐,把视觉重叠降到最低、提升空间可分性;并给同一子图内的节点上不同颜色以增加视觉表达力(这也直接支撑了"颜色识别"子任务)。这一步是整个范式成立的前提:可视化知识表示的卖点就是"结构一眼可见",如果渲染本身有歧义(边看不清、方向反了),后面再好的题也测不出真实能力——后文错误分析里 83% 的错误正是"感知错误",反向印证了渲染清晰度的关键性。
3. 递进式三类 14 子任务:把"感知"和"推理"解耦,定位模型到底卡在哪
如果只给一个总分,无法判断模型是"没看清图"还是"看清了但推不出来"。作者据此设计三层递进任务,背后的前提是"基础感知是任何图像结构推理的必要前提":
- 通用图像理解(900 题,28%):颜色识别、存在判断、基础计数、空间位置、文本抽取——纯像素级感知,不涉及图结构语义,用模板生成、自动匹配答案。
- 图结构专项理解(1985 题,62%):图理解、度数分析、关系方向识别、环路检测、连通性评估——直接拷问对拓扑/几何属性的感知,答案由对子图做统计分析直接得出。
- 基于图的推理(320 题,10%):单跳、多跳、最高级(superlative)、条件约束推理——单跳/多跳题源自 MetaQA 并配以问题实体为中心的子图,高阶推理题在 DBpedia500 上采样后人工标注。
这种解耦让评测能精确归因:实验里果然发现"图结构专项理解"最难、"基于图的推理"反而最好——因为推理题一旦定位到关键实体和边就能顺路径走通,而结构理解要真正读懂边的方向和连通关系。
4. 三路混合出题 + 三关人工校验:在规模化和质量之间取平衡
为了既有量又有质,出题用了三种互补策略:模板生成(如"哪个节点通过关系 {edge} 连到 {node}?",答案用代码自动抽取)、专家人工设计(针对视觉理解和复杂结构语义出题)、数据集对齐抽取(从 MetaQA 等抽现成 QA 对并对齐到采样子图/VKG 图片)。光自动生成会有歧义和错标,所以最后过一遍系统性人工校验,盯三件事:语义对齐(问题-答案-图片三者一致)、视觉清晰(实体和关系都看得清)、逻辑一致(跨任务类别不矛盾)。校验中修正了措辞含糊的问题、错误的节点/边标签、不当的限定词,保证公平性和可复现性。
实验关键数据¶
主实验¶
零样本设置下评测 19 个 LMM(闭源 + 开源),统一用各模型自带 prompt、以准确率为指标,跑在 H800 上。下表节选 14 子任务平均分(Avg.)与几个代表性子任务:
| 模型 | 颜色 | 度数 | 方向 | 连通性 | 多跳 | Avg. |
|---|---|---|---|---|---|---|
| GPT-5(闭源) | 93.4 | 77.5 | 92.1 | 94.4 | 86.7 | 85.6 |
| Gemini-2.5-pro(闭源) | 98.3 | 74.7 | 94.4 | 82.1 | 87.5 | 84.0 |
| Gemini-2.5-flash(闭源) | 97.1 | 66.9 | 92.6 | 69.8 | 78.3 | 79.0 |
| Qwen2.5-VL-72B(开源) | 67.1 | 48.7 | 80.6 | 53.4 | 68.3 | 63.1 |
| GLM-4.5V(开源) | 87.1 | 48.5 | 87.5 | 27.2 | 75.8 | 62.7 |
| Qwen2.5-VL-7B(开源) | 69.2 | 35.3 | 74.1 | 21.0 | 59.2 | 51.4 |
| Gemma-3-12B(开源) | 19.2 | 30.0 | 62.0 | 43.8 | 63.3 | 42.3 |
三个核心结论:(1) 当前 LMM 普遍吃力——最强的 GPT-5 也只有 85.6%,所有开源模型低于 65%,小模型低于 50%,说明 VKG-QA 确实是个有区分度的硬基准;(2) 闭源大幅领先开源——闭源在度数分析、多跳这类结构密集任务上又强又均衡,开源最好的 Qwen2.5-VL-72B / GLM-4.5V 才 63.1% / 62.7%,差距来自数据规模、跨模态对齐和预训练质量;(3) 图结构理解最难、图推理反而最好——连 GPT-5 在度数(77.5%)和其他子任务间方差都很大,结构感知是瓶颈而非逻辑推理。
视觉 vs 文本输入对比(核心分析)¶
作者挑了 760 道题的子集,把图片换成等价的文本三元组,对比 LMM(看图)和 LLM(读文本):
| 子任务 | GPT-5(LMM·看图) | GPT-5-chat(LLM·读文本) | 视觉增益 |
|---|---|---|---|
| 连通性 Connectivity | 94.6 | 56.6 | +38.0 |
| 度数 Degree | 82.1 | 77.4 | +4.7 |
| 单跳 1-hop | 100 | 89.7 | +10.3 |
| 平均 Avg. | 88.8 | 77.1 | +11.7 |
这是全文最有说服力的证据:在所有图结构专项理解任务上,视觉输入一致优于文本输入,连通性上整整高出 38 个点——说明画出来的图给了节点关系和空间拓扑一个更直观的编码,而 LLM 必须从三元组重建结构、更容易出错。有意思的反例是多跳和最高级推理上 LLM 略强,反映纯符号抽象推理/长逻辑链仍是文本模态的强项。
关键发现¶
- 感知错误是头号杀手:随机抽 47 个 GPT-4o 在零样本 CoT 下的错例,感知错误占 83.0%(边看不清、边方向看反、空间方位误判,如把"右上"当成"上方"),推理错误仅 12.8%,缺乏知识仅 4.2%。这把矛头明确指向"视觉接地(visual grounding)"而非"逻辑推理"——模型不是不会推,是没看清。
- 跳数越深掉得越狠,且开源掉得更快:从 1-hop 到 3-hop 所有模型分数单调下降,但闭源(GPT-5、Gemini-2.5-pro)退化平缓,开源退化陡峭,说明闭源在复杂多跳下推理可靠性更强。
- scale 主要补的是"结构理解"而非"感知":Qwen2.5-VL 从 7B→72B,图结构理解(43.9→60.2)和图推理(58.8→70.0)涨幅最大,而通用图像理解只从 62.8→65.3 几乎饱和——说明感知能力早早到顶,靠堆规模救不动,结构推理才吃 scale 红利。
亮点与洞察¶
- "把图画出来给模型看"这个范式很巧:它用一句话点破了线性化三元组的根本缺陷——丢拓扑;而把 KG 渲染成图片,正好把"谁连谁、方向、环路"变成视觉上一眼可见的东西,用 LMM 的视觉-空间能力绕开了 LLM 重建结构的脆弱环节。+38% 的连通性增益是这个直觉最硬的证据。
- 感知 vs 推理解耦的评测设计可复用:三层递进 + 14 子任务把"看不清"和"推不出"彻底分开,这种归因式评测思路可以迁移到任何"感知是推理前提"的多模态任务(如图表理解、电路图理解、流程图问答),让 benchmark 不只给一个分、而能定位短板。
- "感知错误 83%"是给社区的明确信号:它说明当前 LMM 在结构化图像上的瓶颈不在 LLM 推理头、而在视觉编码器对细粒度边/方向的接地能力——这给"该往哪投资源"指了路。
局限与展望¶
- 本质是评测基准而非新模型/新方法:论文没提出能提升 VKG 理解的算法,只诊断了问题,留下"怎么修"的空白(如针对边方向/连通性的视觉预训练、把图渲染信息显式喂给视觉编码器)。
- 可视化渲染引入额外变量:模型表现一部分取决于渲染质量(布局、颜色、清晰度),不同渲染风格可能给出不同结论;论文用 pyvis + 人工微调,但渲染对结果的敏感性没有系统消融。
- 图规模偏小、偏人类可读:为了"人能看懂"刻意控制了节点/边密度(\(|E|=w|V|\),\(w\le1.5\)),真实大规模稠密 KG(成百上千节点)的视觉化理解没覆盖,结论能否外推到大图存疑。
- 评测面窄、错误分析样本少:错误分析只看了 47 个 GPT-4o 错例、单模型单设置,统计代表性有限;高阶推理题(基于图的推理仅 10%,320 题)占比偏低。
相关工作与启发¶
- vs 文本 KG-augmented LLM(线性化三元组):他们把图拍成文本序列喂 LLM,本文把图渲染成图片喂 LMM;区别在于前者丢拓扑、后者保拓扑,本文用视觉 vs 文本对照实验证明在结构理解任务上看图显著更优(连通性 +38%),但也诚实指出纯符号长链推理文本仍占优。
- vs 通用多模态基准(MMBench / SEED / MM-Vet / MMMU):它们覆盖自然场景的感知-理解-推理,但偏识别和专家知识;VKG-QA 专攻"视觉化结构知识",要求从像素级识别一路递进到拓扑逻辑推理,填补了"结构化多模态推理"的评测空白。
- vs DeepSeek-OCR 式"文本压成图像":精神同源——都主张图片是承载某类信息的高效载体;本文把这个思路从"文本"推广到"图结构",验证了图结构同样适合用视觉模态编码。
评分¶
- 新颖性: ⭐⭐⭐⭐ "把 KG 画成图片让 LMM 看图问答"的范式切入点新颖,视觉 vs 文本对照实验有说服力,但范式本身是诊断性的、未提新方法。
- 实验充分度: ⭐⭐⭐⭐ 19 个 LMM × 14 子任务 + 文本对照 + 跳数/规模/错误分析,覆盖全面;但错误分析样本偏小、渲染敏感性未消融。
- 写作质量: ⭐⭐⭐⭐ 动机链条清晰、三层任务体系讲得明白,图表丰富;个别句子有重复和小笔误。
- 价值: ⭐⭐⭐⭐ 提供了可扩展的图感知多模态评测平台,并明确指出"感知接地"才是瓶颈,对后续 graph-aware 多模态模型设计有实际指导意义。