DiGraphHal-Bench: Evaluating Multimodal Large Language Models on Complex Directed Graphs¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/DouziLBean/DiGraphHal-Bench (有)
领域: 多模态VLM
关键词: MLLM幻觉, 有向图理解, VQA基准, 细粒度推理, 自动可验证构造

一句话总结¶

DiGraphHal-Bench 是首个面向「复杂有向图」的大规模 VQA 基准，用 2,796 张真实流程图、四大能力 × 12 个细粒度任务系统评测 MLLM 的幻觉与组合推理；靠一条「LLM 生成 + 算法确定性验证」的两阶段流水线在零人工标注下兼顾规模与可信度，结果显示连 GPT-5/Gemini 2.5 在图结构推理上都频繁幻觉，SFT 能缓解但远未解决。

研究背景与动机¶

领域现状：MLLM 幻觉研究几乎都集中在自然图像上——分析的是「图里有没有这个物体」这类跨模态不一致。同时图理解基准要么是合成图（GITA、VisionGraph、VGA），只考最短路/找环这类纯拓扑题，缺语义和视觉复杂度；要么是真实图基准（FlowVQA、FlowCE、MindBench），但要么规模小、要么靠 LLM 打分引入偏差。

现有痛点：有向图是工程、生物、医学里工作流和逻辑过程的「视觉语言」，读错一条边就可能酿成关键失误。但图理解恰恰要求模型同时在拓扑结构、视觉布局、语义内容三个层面推理，而现有基准没有一个把这三者放在一起统一评测，也没人系统研究幻觉如何从三者交互中涌现。

核心矛盾：基准构造里存在一个长期的「规模 ↔ 质量」两难——想要大规模就得用 LLM 自动生成 QA，但 LLM 生成的答案不可信、会继承模型偏差；想要高质量就得人工标注，又上不了规模。FlowVQA 用 GPT-4o 生成加打分，规模够但偏差大；FlowCE 真实可靠却只有几百张。

本文目标：① 造一个既语义丰富又结构忠实的大规模有向图基准；② 让 QA 答案在大规模下仍然可信（不靠人工、不靠 LLM 打分）；③ 把图理解拆解成可诊断的细粒度能力，定位 MLLM 到底栽在哪一环。

切入角度：作者发现「有确定答案的图任务」其实可以用算法验证——给定图的源码（Mermaid/Graphviz），找路径、找环、比对差异都是确定性的图遍历问题，答案能被程序算出来而非靠模型猜。于是把「LLM 负责生成多样的问题」和「算法负责验证并产出标准答案」解耦。

核心 idea：用「模板引导的 LLM 生成 + 确定性算法验证」两阶段流水线绕开规模-质量两难，配上一套四能力 12 任务的细粒度 taxonomy，对 MLLM 在有向图上的幻觉与组合推理做首次统一评测。

方法详解¶

整体框架¶

DiGraphHal-Bench 不是一个模型而是一套基准 + 构造流水线。整条管线分两段：先搭一个跨六大专业领域、图-码成对（每张图都配 Mermaid 和 Graphviz 源码）的图语料库，再在其上按四能力 12 任务的 taxonomy 批量生成 VQA。生成时按任务性质分流：有确定答案的任务（找路径、找环、比对结构差异）直接解析图源码、跑遍历算法产出标准答案；语义类任务（自然语言提问）走两阶段流水线——GPT-4o 先生成多样的候选问句，再用算法把每个候选严格匹配回它的「逻辑模板」并算出标准答案，匹配不上的直接丢弃。最终得到 2,796 张图（训练 1,796 / 测试 1,000），全程零人工标注。评测端则把 13 个开闭源 MLLM 跑一遍，并对 Qwen2.5-VL-7B 做 SFT 消融，看「打磨某一项基础能力能否带动综合推理」。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["复杂逻辑问题<br/>+ 现成流程图数据集"] --> B["图语料库构建<br/>现成图 + K-center-greedy<br/>选多样合成图 → 图码成对"]
    B --> C["四能力 12 任务 taxonomy<br/>结构 / 视觉 / 语义 / 综合"]
    C -->|确定答案任务| D["解析图源码<br/>跑遍历算法直接出答案"]
    C -->|语义类任务| E["两阶段可验证流水线<br/>GPT-4o 生成候选 → 算法匹配模板并验证"]
    D --> F["幻觉探针设计<br/>语义改写 + 反事实 + 无解 query"]
    E --> F
    F --> G["DiGraphHal-Bench<br/>2796 图 · 训练1796/测试1000"]

关键设计¶

1. 四能力 12 任务的细粒度 taxonomy：把「读懂一张图」拆成可诊断的小题

基准的骨架是一棵四层能力树：三项基础能力（结构 Structural、视觉 Visual、语义 Semantic）+ 一项综合能力（Comprehensive），下挂 12 个细粒度任务。结构能力考拓扑——Graph Parsing（枚举所有节点边）、Graph2Code（把图翻译成 Mermaid/Graphviz 源码）、Masked Subpath Query（仿掩码语言建模，挖空一段子路径让模型按结构约束补全，分「结构匹配掩码」和「全合并掩码」、又分含环/不含环）。视觉能力专挑非平凡布局：Edge Layout Perception（长边、逆流边、交叉边对）、Local Structure Comparison（两张图的结构差异）、Elements Localization（给节点/边出 bounding box 或判八方向相对位置）、Spatial Position Awareness（在大画布里定位子图，含 5× 缩略图测尺度不变性）、Visual Attributes Perception（按形状/颜色/边框样式辨认节点和边）。语义能力则用 Semantic Query（问句词面与图标签一致）vs Semantic-Rewrite Query（同义改写、打乱词面）来分离「真懂语义」和「靠关键词匹配」。综合能力是终极考题，把三者拼在一起，分 Non-Semantic（模板化的 What/Which 元素中心题、How 路径中心题）、Semantic、Semantic-Rewrite 三档逐级加大语言歧义。这套 taxonomy 的价值在于：模型答错时能精确归因到「是拓扑不行、还是看不见交叉边、还是只会词面匹配」，而不是只给一个笼统的总分。

2. 两阶段可验证构造流水线：用算法验证绕开「规模-质量」两难

这是全文方法上最核心的贡献，直接针对「LLM 生成不可信、人工标注上不了规模」的痛点。作者按任务是否有确定答案分流：对找路径、找环、比结构差异这类确定性任务，根本不让 LLM 碰答案——直接解析图源码、跑图遍历算法生成标准答案，天然可信。对必须用自然语言提问的语义类任务（语义能力和综合能力里的 Semantic / Semantic-Rewrite），走两阶段：Stage 1（LLM 构造） 让 GPT-4o 在「掩码子路径查询」和「半结构化模板」这两套逻辑地基的引导下生成大量多样的候选问句，保证问题在逻辑上是有据可循的；Stage 2（算法验证） 做一步确定性两段验证——先把每个候选问句算法化地匹配回它的源逻辑模板，要求严格一一对应，匹配模糊或对不上的全部丢弃；再对通过的候选，执行该逻辑模板对应的算法自动算出标准答案。这样 LLM 只负责「问得多样」，答案的事实性完全交给算法兜底，既避免了 GPT-4o 打分式基准的模型偏差，又不用一张张人工标，从而在大规模下保住可信度。

3. 图语料库构建：现成真实图 + K-center-greedy 选出的多样合成图

为了同时拿到真实性和结构多样性，语料库走两条腿。一条是整合现成数据集：从 FlowVQA 取来自教程网页和代码片段的流程图，从 BigDocs 取随机布局的图来削弱「方向偏置」（模型老假设流程从上往下），打底真实世界的过程推理图。另一条是自造合成图补足复杂逻辑：从一大堆复杂问题（数学证明、系统工作流）出发，用 K-center-greedy 算法挑出一个话题上尽量分散的子集，再让 LLM 把这些问题转写成 Mermaid 和 Graphviz 源码，得到与源逻辑可验证对应的复杂图。关键是每张图都以图-码成对形式存在，这正是设计 2 里算法验证能成立的前提——没有源码，遍历算法就无从产出标准答案。最终覆盖至少六个专业领域。

4. 幻觉探针设计：语义改写 + 反事实 + 无解 query 逼出虚构

光有任务还不够，作者在题面上专门埋了抗幻觉陷阱。其一是语义改写（Semantic-Rewrite）：把问句同义改写、保留语义但换掉词面（如「Refine Solution」→「Refining an Initial Solution」），逼模型真正做语义 grounding 而不是关键词匹配——这一改写在结果里造成了所有模型的系统性掉点。其二是在综合能力的 Non-Semantic 任务里注入反事实（counterfactual）和无解（answerless）样本，测模型会不会面对「图里根本没有的结构」时硬编一个答案出来。其三是综合题把视觉属性显式绑定语义（如「粉框蓝填充的节点 = 关键里程碑」「红节点 = 紧急」），让查询贴近真实意图，同时考模型能不能把「看到的颜色」和「被赋予的含义」对齐。这套设计让基准不只测「答对率」，更测「在该说不知道时会不会幻觉」。

实验关键数据¶

主实验¶

评测覆盖 13 个 MLLM：闭源（GPT-4o、o3、GPT-5、Claude Sonnet 4.5、Gemini 2.5 Pro）、开源大/中（GLM-4.5V、Qwen2.5-VL-72B、LLaVA-OV-72B）、开源小（Qwen2.5-VL-7B、LLaVA-OV-7B、InternVL3.5-8B）。下表汇总各能力上的代表性指标（F1，Mermaid/Graphviz 平均）。

能力 / 子任务	指标	GPT-5	Gemini 2.5	o3	Qwen2.5-VL-7B(小)
结构·Graph Parsing(Full)	F1	96.00	97.89	95.48	86.90
结构·掩码 SM-CP(复杂路)	F1	84.51	83.43	73.95	13.19
视觉·交叉边 Crossing	F1	23.42	48.20	12.42	0.62
视觉·绝对定位 [email protected]	Acc	7.58	9.18	7.38	0.23
视觉·边属性 Edge	F1	78.65	88.43	73.61	27.54
语义·Semantic Query	F1	76.37	75.94	71.63	37.72
综合·Sem-Rewrite Path	F1	62.07	72.86	50.01	16.03

可以看到：基础识别（Graph Parsing）人人接近满分，但一进到细粒度推理（掩码补全、交叉边、绝对定位）就断崖式下滑，连最强模型都远未达标，这正是基准想暴露的「高层会、细节不会」现象。

SFT 消融实验（Qwen2.5-VL-7B 综合能力，F1，括号为相对 Base 增量）¶

作者对 Qwen2.5-VL-7B 训了 5 个 SFT 模型：4 个按单一能力类别训的 specialist + 1 个按结构→视觉→语义→综合顺序训的 curriculum，全在综合任务上做消融，看「补哪项基础能力能带动综合推理」。

训练配置	Non-Sem·Element	Non-Sem·Path	Sem·Element	Sem-Rewrite·Element
Base	13.77	15.99	16.98	12.00
Structural 专家	29.56 (+15.79)	25.49 (+9.50)	27.03 (+10.05)	17.60 (+5.60)
Visual 专家	27.14 (+13.37)	15.46 (−0.53)	31.54 (+14.56)	22.46 (+10.46)
Semantic 专家	12.47 (−1.30)	19.81 (+3.82)	17.39 (+0.41)	10.90 (−1.10)
Comprehensive 专家	53.41 (+39.64)	28.65 (+12.66)	55.09 (+38.11)	36.06 (+24.06)
Curriculum	51.67 (+37.90)	23.86 (+7.87)	47.53 (+30.55)	36.31 (+24.31)

关键发现¶

「边盲」现象（edge blindness）：节点属性识别很好（Gemini 节点 F1 89.88%），但边属性普遍崩——GPT-5 从节点 86.11% 掉到边 78.65%，小模型更惨。说明 MLLM 对封闭的、显眼的形状有感知偏好，对细丝状的边视而不见，这是图理解的根本性障碍。
缺尺度不变性：相对位置推理还行（GPT-5 相对定位 81.79%），但绝对 bounding box 定位所有模型 IoU 0.5 下都低于 10%，在 5× 缩略图上更是直接崩盘，对真实应用是致命短板。
靠词面匹配而非真懂语义：问句一改写（语义不变、词面变），所有模型显著掉点（Gemini F1 75.94→72.63，Acc 71.37→66.92 掉得更狠），暴露 MLLM 仍在做浅层关键词匹配。⚠️ 有趣反例：GPT-5/o3 在综合能力的 Semantic-Rewrite 上反而比 Semantic 更高，作者推测语义扰动可能激活了更深的泛化推理（以原文为准）。
结构/视觉基础能力是综合推理的发动机：消融里 Structural 专家几乎在所有综合任务上都涨，Visual 专家尤其拉高元素中心题；但 Semantic-only 训练反而损害元素中心推理（−1.30），因为它过拟合语言线索、牺牲了视觉-结构推理。直接训 Comprehensive 专家收益最大（最高 +39.64），而 Curriculum（顺序训）出现灾难性遗忘、反而不如直接训，说明朴素课程学习行不通。

亮点与洞察¶

「LLM 生成 + 算法验证」解耦是最值得借鉴的范式：让 LLM 只干它擅长的「问得多样」，把「答案对不对」这种确定性的活完全交给算法，从根上消除 LLM-as-judge 的偏差——这套思路可迁移到任何「答案可由程序从结构化源算出」的基准（代码、表格、知识图谱 QA）。
图-码成对是整个可验证性的隐形地基：因为每张图都有 Mermaid/Graphviz 源码，遍历算法才能产出 ground truth；这提醒做结构化视觉基准时，「保留可执行的符号表示」比只存图片值钱得多。
细粒度 taxonomy 把幻觉「可定位」：不是给一个总分，而是能说清模型栽在「交叉边/缩略图定位/语义改写」哪一环，对后续针对性改进 MLLM 极有价值。
「边盲」是一个干净的、可复现的机制性发现：节点 vs 边的感知鸿沟横跨所有模型，几乎是 MLLM 视觉编码器的共性缺陷，值得专门研究。

局限与展望¶

合成图依赖 LLM 转写：新合成数据集靠 LLM 把问题转成 Mermaid/Graphviz 源码，虽然有「与源逻辑可验证对应」兜底，但转写本身的多样性/真实性边界没有充分量化。
SFT 只在 Qwen2.5-VL-7B 一个 backbone 上做：「结构/视觉基础能力驱动综合推理」「Semantic-only 有害」「课程学习灾难性遗忘」这些结论是否跨模型规模成立，未验证。
横向比较需谨慎：不同任务难度差异巨大（Graph Parsing 近满分 vs 绝对定位 <10%），把不同子任务的分数直接横比意义有限；GPT-5/o3 在改写题反超的反例也提示「语义改写一定更难」并非铁律。
改进思路：针对「边盲」可在视觉编码阶段加强细丝状结构的表征；针对绝对定位崩盘可引入显式坐标/分块 grounding；课程学习的灾难性遗忘提示需要回放或更细的能力调度。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个面向复杂有向图幻觉+细粒度推理的统一 VQA 基准，「LLM 生成+算法验证」解耦范式扎实。
实验充分度: ⭐⭐⭐⭐⭐ 13 个开闭源模型 + 5 个 SFT 变体，四能力 12 任务全覆盖，消融定位到能力级。
写作质量: ⭐⭐⭐⭐ taxonomy 与发现（边盲/尺度不变性/词面匹配）清晰，但表格密集、部分子任务命名缩写多需对照。
价值: ⭐⭐⭐⭐⭐ 暴露了 MLLM 图理解的系统性缺陷，并提供可验证、可复现、可诊断的评测地基，对推进鲁棒图理解有长期价值。