VKG-QA: Visual Knowledge Graph-based Question Answer for Large Multimodal Models¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/sq413/VKG-QA （有）
领域: 多模态VLM
关键词: 视觉知识图谱, 多模态评测基准, 结构化推理, 大多模态模型, 图理解

一句话总结¶

把知识图谱画成图片让大多模态模型（LMM）直接"看图"做问答，作者构建了覆盖 3 大类 14 子任务、3205 道题的 VKG-QA 基准，评测 19 个 LMM 后发现：当前模型在"看懂图结构"上普遍吃力，图结构理解（度数/方向/连通性）是最难的短板，闭源模型大幅领先开源模型。

研究背景与动机¶

领域现状：知识图谱（KG）是描述实体与关系的结构化知识表示，在知识问答、推荐、科学发现里广泛使用。把 KG 接进大模型来增强事实性和推理能力是当下热点，主流做法是把图"线性化"成文本三元组序列（如 (Safari, comes with, OS X)）喂给 LLM。

现有痛点：线性化会把图的高阶关系线索拍扁。一旦关系变成一长串三元组文本，模型要在脑子里重建拓扑结构，多跳问题上特别容易出错——它得自己把散落的三元组拼回一张图，再沿路径推理，token 化的表示让这种结构重建变得脆弱。

核心矛盾：KG 的价值恰恰在于它的图结构（谁连谁、方向、度数、环路、连通分量），而文本序列天然丢失这些空间/拓扑信息；可是现有评测要么测自然图像识别、要么测非结构化视觉推理，没有人系统地评测"模型能不能看懂一张画出来的知识图谱"。

本文目标：(1) 提出一种新范式——把 KG 可视化成图片，让 LMM 用视觉-空间能力直接感知和推理图结构；(2) 造一个能细粒度衡量这种能力的基准；(3) 摸清当前 LMM 在"视觉化结构推理"上到底卡在哪。

切入角度：作者受 LMM 在视觉-语言任务上强大泛化能力的启发，假设图片比文本更适合承载图结构——节点的空间分布、边的指向、环路在图片里是"一眼可见"的，模型不必从文本重建拓扑。这个直觉和 DeepSeek-OCR 把文本压成图像的思路一脉相承。

核心 idea：用"画出来的知识图谱图片 + 视觉问答"代替"线性化三元组 + 文本推理"，并造一套从像素级感知到逻辑推理逐级递进的基准，逼出 LMM 在结构化视觉理解上的真实水平。

方法详解¶

这篇论文的"方法"是一条半自动、人在回路（human-in-the-loop）的基准构建管线：从已有大规模 KG 里抽子图 → 渲染成视觉知识图谱（VKG）图片 → 围绕图片生成三大类问答题 → 人工校验。最终产出 455 张 VKG 图、3205 道题、14 个子任务。下面先看整体流程，再拆关键设计。

整体框架¶

输入是现成的 KG / KGQA 数据集（ReVerb45K、DBpedia500、MetaQA），输出是一套带标准答案的"看图问答"评测集。中间分三步：Step 1 造图（抽子图 + 渲染成图片）、Step 2 出题（模板/人工/数据集对齐三路生成问答对）、Step 3 人工校验（语义对齐、视觉清晰、逻辑一致）。题目按"先感知后推理"的递进逻辑组织成三大类——通用图像理解、图结构专项理解、基于图的推理。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["KG / KGQA 数据集<br/>ReVerb45K · DBpedia500 · MetaQA"] --> B["可控邻居采样造子图<br/>k-hop 采样 + 边数约束"]
    B --> C["VKG 可视化渲染<br/>自动布局 + 人工微调上色"]
    C --> D["三路混合出题<br/>模板 + 人工 + 数据集对齐"]
    D --> E["递进式任务体系<br/>感知→结构理解→图推理"]
    E -->|人工校验三关| F["VKG-QA 基准<br/>455 图 · 3205 题 · 14 子任务"]

关键设计¶

1. 可控邻居采样：让每张子图"既不太空也不太密"，还保留多跳推理路径

直接从大 KG 里随机切子图，结果要么稀得没信息、要么密得人都看不清，更别说模型。作者对每个中心实体做 \(k\)-hop（\(k=1,2,3\)）邻居采样，限制每一跳采样的节点数；过稀或过密的子图直接丢弃，从而维持均衡的视觉复杂度和按跳距分层的空间分布，同时严格保留有向 KG 的格式以保住原始拓扑。为进一步控制可读性，作者给边数加了一个线性约束：

\[|E| = w \times |V|\]

其中 \(|E|\) 是边数、\(|V|\) 是节点数，权重 \(w\) 取 \(1.2 / 1.3 / 1.5\)（不同任务不同）。这条约束保证子图"视觉上合理、语义上完整"。对单跳/多跳推理任务，采样策略要特殊处理：子图以 MetaQA 里的问题实体为中心，邻居扩展时显式保留问题实体到答案实体的推理路径，确保采出来的子图既有局部上下文又含完整的逻辑链，否则多跳题会因为路径被截断而无解。

2. 视觉化渲染：把抽象拓扑变成"模型能看、人能读"的图片

有了子图还得画好——画得乱模型一样懵。作者用交互式渲染工具（pyvis）先自动生成布局，再由标注员人工微调节点位置和边对齐，把视觉重叠降到最低、提升空间可分性；并给同一子图内的节点上不同颜色以增加视觉表达力（这也直接支撑了"颜色识别"子任务）。这一步是整个范式成立的前提：可视化知识表示的卖点就是"结构一眼可见"，如果渲染本身有歧义（边看不清、方向反了），后面再好的题也测不出真实能力——后文错误分析里 83% 的错误正是"感知错误"，反向印证了渲染清晰度的关键性。

3. 递进式三类 14 子任务：把"感知"和"推理"解耦，定位模型到底卡在哪

如果只给一个总分，无法判断模型是"没看清图"还是"看清了但推不出来"。作者据此设计三层递进任务，背后的前提是"基础感知是任何图像结构推理的必要前提"：

通用图像理解（900 题，28%）：颜色识别、存在判断、基础计数、空间位置、文本抽取——纯像素级感知，不涉及图结构语义，用模板生成、自动匹配答案。
图结构专项理解（1985 题，62%）：图理解、度数分析、关系方向识别、环路检测、连通性评估——直接拷问对拓扑/几何属性的感知，答案由对子图做统计分析直接得出。
基于图的推理（320 题，10%）：单跳、多跳、最高级（superlative）、条件约束推理——单跳/多跳题源自 MetaQA 并配以问题实体为中心的子图，高阶推理题在 DBpedia500 上采样后人工标注。

这种解耦让评测能精确归因：实验里果然发现"图结构专项理解"最难、"基于图的推理"反而最好——因为推理题一旦定位到关键实体和边就能顺路径走通，而结构理解要真正读懂边的方向和连通关系。

4. 三路混合出题 + 三关人工校验：在规模化和质量之间取平衡

为了既有量又有质，出题用了三种互补策略：模板生成（如"哪个节点通过关系 {edge} 连到 {node}？"，答案用代码自动抽取）、专家人工设计（针对视觉理解和复杂结构语义出题）、数据集对齐抽取（从 MetaQA 等抽现成 QA 对并对齐到采样子图/VKG 图片）。光自动生成会有歧义和错标，所以最后过一遍系统性人工校验，盯三件事：语义对齐（问题-答案-图片三者一致）、视觉清晰（实体和关系都看得清）、逻辑一致（跨任务类别不矛盾）。校验中修正了措辞含糊的问题、错误的节点/边标签、不当的限定词，保证公平性和可复现性。

实验关键数据¶

主实验¶

零样本设置下评测 19 个 LMM（闭源 + 开源），统一用各模型自带 prompt、以准确率为指标，跑在 H800 上。下表节选 14 子任务平均分（Avg.）与几个代表性子任务：

模型	颜色	度数	方向	连通性	多跳	Avg.
GPT-5（闭源）	93.4	77.5	92.1	94.4	86.7	85.6
Gemini-2.5-pro（闭源）	98.3	74.7	94.4	82.1	87.5	84.0
Gemini-2.5-flash（闭源）	97.1	66.9	92.6	69.8	78.3	79.0
Qwen2.5-VL-72B（开源）	67.1	48.7	80.6	53.4	68.3	63.1
GLM-4.5V（开源）	87.1	48.5	87.5	27.2	75.8	62.7
Qwen2.5-VL-7B（开源）	69.2	35.3	74.1	21.0	59.2	51.4
Gemma-3-12B（开源）	19.2	30.0	62.0	43.8	63.3	42.3

三个核心结论：(1) 当前 LMM 普遍吃力——最强的 GPT-5 也只有 85.6%，所有开源模型低于 65%，小模型低于 50%，说明 VKG-QA 确实是个有区分度的硬基准；(2) 闭源大幅领先开源——闭源在度数分析、多跳这类结构密集任务上又强又均衡，开源最好的 Qwen2.5-VL-72B / GLM-4.5V 才 63.1% / 62.7%，差距来自数据规模、跨模态对齐和预训练质量；(3) 图结构理解最难、图推理反而最好——连 GPT-5 在度数（77.5%）和其他子任务间方差都很大，结构感知是瓶颈而非逻辑推理。

视觉 vs 文本输入对比（核心分析）¶

作者挑了 760 道题的子集，把图片换成等价的文本三元组，对比 LMM（看图）和 LLM（读文本）：

子任务	GPT-5（LMM·看图）	GPT-5-chat（LLM·读文本）	视觉增益
连通性 Connectivity	94.6	56.6	+38.0
度数 Degree	82.1	77.4	+4.7
单跳 1-hop	100	89.7	+10.3
平均 Avg.	88.8	77.1	+11.7

这是全文最有说服力的证据：在所有图结构专项理解任务上，视觉输入一致优于文本输入，连通性上整整高出 38 个点——说明画出来的图给了节点关系和空间拓扑一个更直观的编码，而 LLM 必须从三元组重建结构、更容易出错。有意思的反例是多跳和最高级推理上 LLM 略强，反映纯符号抽象推理/长逻辑链仍是文本模态的强项。

关键发现¶

感知错误是头号杀手：随机抽 47 个 GPT-4o 在零样本 CoT 下的错例，感知错误占 83.0%（边看不清、边方向看反、空间方位误判，如把"右上"当成"上方"），推理错误仅 12.8%，缺乏知识仅 4.2%。这把矛头明确指向"视觉接地（visual grounding）"而非"逻辑推理"——模型不是不会推，是没看清。
跳数越深掉得越狠，且开源掉得更快：从 1-hop 到 3-hop 所有模型分数单调下降，但闭源（GPT-5、Gemini-2.5-pro）退化平缓，开源退化陡峭，说明闭源在复杂多跳下推理可靠性更强。
scale 主要补的是"结构理解"而非"感知"：Qwen2.5-VL 从 7B→72B，图结构理解（43.9→60.2）和图推理（58.8→70.0）涨幅最大，而通用图像理解只从 62.8→65.3 几乎饱和——说明感知能力早早到顶，靠堆规模救不动，结构推理才吃 scale 红利。

亮点与洞察¶

"把图画出来给模型看"这个范式很巧：它用一句话点破了线性化三元组的根本缺陷——丢拓扑；而把 KG 渲染成图片，正好把"谁连谁、方向、环路"变成视觉上一眼可见的东西，用 LMM 的视觉-空间能力绕开了 LLM 重建结构的脆弱环节。+38% 的连通性增益是这个直觉最硬的证据。
感知 vs 推理解耦的评测设计可复用：三层递进 + 14 子任务把"看不清"和"推不出"彻底分开，这种归因式评测思路可以迁移到任何"感知是推理前提"的多模态任务（如图表理解、电路图理解、流程图问答），让 benchmark 不只给一个分、而能定位短板。
"感知错误 83%"是给社区的明确信号：它说明当前 LMM 在结构化图像上的瓶颈不在 LLM 推理头、而在视觉编码器对细粒度边/方向的接地能力——这给"该往哪投资源"指了路。

局限与展望¶

本质是评测基准而非新模型/新方法：论文没提出能提升 VKG 理解的算法，只诊断了问题，留下"怎么修"的空白（如针对边方向/连通性的视觉预训练、把图渲染信息显式喂给视觉编码器）。
可视化渲染引入额外变量：模型表现一部分取决于渲染质量（布局、颜色、清晰度），不同渲染风格可能给出不同结论；论文用 pyvis + 人工微调，但渲染对结果的敏感性没有系统消融。
图规模偏小、偏人类可读：为了"人能看懂"刻意控制了节点/边密度（\(|E|=w|V|\)，\(w\le1.5\)），真实大规模稠密 KG（成百上千节点）的视觉化理解没覆盖，结论能否外推到大图存疑。
评测面窄、错误分析样本少：错误分析只看了 47 个 GPT-4o 错例、单模型单设置，统计代表性有限；高阶推理题（基于图的推理仅 10%，320 题）占比偏低。

评分¶

新颖性: ⭐⭐⭐⭐ "把 KG 画成图片让 LMM 看图问答"的范式切入点新颖，视觉 vs 文本对照实验有说服力，但范式本身是诊断性的、未提新方法。
实验充分度: ⭐⭐⭐⭐ 19 个 LMM × 14 子任务 + 文本对照 + 跳数/规模/错误分析，覆盖全面；但错误分析样本偏小、渲染敏感性未消融。
写作质量: ⭐⭐⭐⭐ 动机链条清晰、三层任务体系讲得明白，图表丰富；个别句子有重复和小笔误。
价值: ⭐⭐⭐⭐ 提供了可扩展的图感知多模态评测平台，并明确指出"感知接地"才是瓶颈，对后续 graph-aware 多模态模型设计有实际指导意义。