Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning¶

会议: ACL 2025
arXiv: 无
代码: 无
领域: 多模态VLM
关键词: 视觉图结构理解、视觉推理、图理解基准、大型视觉语言模型、结构化视觉推理

一句话总结¶

本文构建了一个系统性评测基准来评估大型视觉语言模型（LVLM）在基础视觉图结构理解与推理上的能力，发现现有模型在此类任务上表现欠佳，并提出了针对性的改进方法。

领域现状：大型视觉语言模型（如 GPT-4V、LLaVA 等）在图像描述、VQA 等任务上取得了优异表现。然而，这些模型对结构化视觉信息（如图、网络、流程图等图结构）的理解能力尚未被系统性地评估。

现有痛点：现有的 LVLM 评测基准主要关注自然图像理解（如场景识别、物体检测），忽视了一个重要的视觉理解能力——对图（graph）结构的基础理解，包括节点识别、边关系判断、路径推理等。

核心矛盾：图结构在科学论文、知识图谱可视化、流程图等场景中无处不在，但 LVLM 是否真正理解这些视觉图结构尚不清楚。图结构理解需要结合视觉感知（识别节点和边）和逻辑推理（路径查找、连通性判断），这对模型提出了更高要求。

本文目标：（1）构建覆盖多种图类型和推理任务的综合基准；（2）系统评估现有 LVLM 的表现；（3）提出改进方法提升模型的图结构理解能力。

切入角度：图（graph）是一种基础的数据结构，视觉化后的图理解涉及底层视觉感知和高层结构推理的结合，是测试 LVLM 综合能力的理想试金石。

核心 idea：构建系统的视觉图理解基准（VGraphBench），揭示 LVLM 的结构理解短板，并通过图结构感知的训练策略来弥补不足。

工作分为两个部分：（1）基准构建——包含多种图类型（有向图、无向图、加权图、树等）和多种任务（节点计数、边检测、路径判断、最短路径、连通性等）；（2）改进方法——通过结构化数据增强和针对性微调来提升 LVLM 的图理解能力。

视觉图理解基准（VGraphBench）:
- 功能：系统评测 LVLM 在基础图结构理解和推理上的能力
- 核心思路：设计多难度层级的任务，从简单的节点/边识别到复杂的路径推理和图属性判断。图像通过程序化方式生成，确保控制变量（图大小、布局、颜色等），避免自然图像中的干扰因素。每个任务都有明确的正确答案
- 设计动机：需要消除自然图像中的语义先验，让模型真正依赖视觉结构理解能力
多任务图理解评测体系:
- 功能：涵盖从感知到推理的完整能力谱
- 核心思路：任务分为两大类——感知任务（节点计数、边检测、度数计算）和推理任务（连通性判断、最短路径、环检测、拓扑排序等）。感知任务测试模型是否"看到"了图结构，推理任务测试模型是否"理解"了图结构
- 设计动机：区分感知和推理的失败模式，帮助诊断模型的具体弱点
图结构感知微调策略:
- 功能：通过构造图结构理解训练数据来提升 LVLM 的表现
- 核心思路：生成大量包含图结构的图像-问答对，覆盖各种图类型和任务类型，对 LVLM 进行指令微调。训练数据中包含从简单到复杂的渐进式结构理解任务，帮助模型逐步建立图结构的视觉理解能力
- 设计动机：现有 LVLM 的预训练数据缺乏足够的图结构理解样本，需要针对性数据补充

微调阶段使用标准的指令微调损失（交叉熵），关键在于训练数据的构造策略。

填补评测空白：图结构理解是 LVLM 能力评测的重要维度，此前被严重忽视。基准的系统性设计能帮助社区精确定位模型弱点
程序化生成控制变量：通过程序生成图像而非收集自然图像，消除了语义先验的干扰，是评估结构理解能力的正确方式。可迁移到流程图、UML图、电路图等其他结构化视觉内容的评测