Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs¶

会议: CVPR 2026
arXiv: 2510.00507
代码: github.com/YurunChen/Graph2Eval
领域: 人机理解 / Agent 评估
关键词: 知识图谱, 自动任务生成, agent评估, 文档理解, 网页理解, benchmark构建

一句话总结¶

提出 Graph2Eval，一个知识图谱驱动的 agent 评估任务自动生成框架——通过从文档/网页构建结构化知识图谱、子图采样、LLM 条件生成和多阶段过滤，自动产出语义一致（+20%）且可解（+17%）的多模态 agent 任务，构建了包含 1319 个任务的 Graph2Eval-Bench。

研究背景与动机¶

多模态 agent（文档理解 agent、网页浏览 agent）的评估严重依赖人工标注的静态 benchmark，存在三大缺陷：

规模瓶颈：人工构造任务成本高、速度慢，难以跟上 agent 能力的快速迭代

覆盖不足：静态 benchmark 只覆盖有限的任务类型和难度级别，容易被"刷榜"过拟合

时效性差：真实的文档/网页不断更新，固定 benchmark 的 ground truth 可能过时

现有自动化方法的不足： - 纯 LLM 合成（Self-Instruct、Evol-Instruct）：直接让 LLM 从文本片段生成 QA 对，但缺乏对实体间关系的显式建模——生成的问题可能引用不存在的实体组合（语义不一致），或要求跨越不可达路径的信息（不可解） - 模板填充：基于预定义模板的方法只能生成格式固定的任务，多样性差 - 随机采样：从文档中随机抽取片段生成 QA，缺乏结构感知，容易产出琐碎或不合理的任务

核心 idea：用知识图谱作为中间结构化表示——先从文档/网页中抽取实体和关系构建 KG \(G=(V,E,R)\)，再通过子图采样获取语义连贯的上下文子图，最后基于子图约束 LLM 生成任务。KG 的结构保证了实体关系的可达性（可解性）和语义完整性（一致性）。

核心问题¶

如何自动生成语义一致、可解、多样的多模态 agent 评估任务？关键挑战：(1) 如何从异构文档/网页中提取结构化知识？(2) 如何采样出适合做任务素材的子图？(3) 如何保证生成任务的质量（不出幻觉、确实可完成）？

方法详解¶

整体框架¶

Graph2Eval 是一个五阶段流水线：Data Ingestion → KG Construction → Subgraph Sampling → Task Generation → Multi-stage Filtering。

关键设计¶

数据摄入（Data Ingestion）:
- 文档模式：对 PDF/HTML 文档进行语义分块（段落/标题/表格/图注），为每个块生成嵌入向量并保留元数据（页码、层级、上下文窗口）
- 网页模式：解析 DOM 树，抽取交互元素（表单、按钮、链接、下拉框）的属性和层级关系，同时抓取页面截图供多模态理解
- 设计动机：统一异构来源为结构化节点表示，为后续建图奠基
知识图谱构建（KG Construction）:
- 图定义 \(G = (V, E, R)\)
- 节点类型 \(V\)：paragraph、heading、hyperlink、form_field、table_cell、image_caption 等
- 边类型：
  - 文本边：序列关系（同一文档内的顺序）、语义关系（嵌入相似度 > 阈值）、引用关系（交叉引用/脚注/超链接指向）
  - 网页边：导航关系（链接跳转）、交互关系（按钮↔表单、下拉↔选项）、布局关系（DOM 父子/兄弟）
- 设计动机：多类型边能捕获不同粒度的语义联系——序列边保持局部上下文，语义边连接远距离相关内容，交互边编码 agent 可执行的操作
子图采样（Subgraph Sampling）:
- 文档模式：cosine similarity + StructMatch——先选择一个种子节点，然后按 embedding 相似度扩展邻域，同时用 StructMatch 评估候选子图的结构多样性（包含不同类型节点/边的比例），确保采样子图既语义相关又结构丰富
- 网页模式：seed-driven k-hop——从种子交互元素出发，沿导航/交互边进行 k 跳扩展（\(k\)=2-3），获取 agent 完成任务所需经过的完整操作路径
- 设计动机：(1) 文档任务需要跨段落推理→语义扩展；(2) 网页任务需要多步操作→路径扩展。两种采样策略分别适配两种模态的任务特点
任务生成（Task Generation）:
- 模板构造：将采样子图序列化为结构化 prompt（包含节点内容、边关系、元数据），指导 LLM 基于子图信息构造任务指令 + 期望答案
- Meta-path 引导：定义常见的元路径模式（如 heading→paragraph→table_cell 表示"根据章节描述查找表格数据"），LLM 沿 meta-path 生成需要多步推理的复杂 QA
- 设计动机：meta-path 机制使 LLM 不再"自由发挥"——生成的每个推理步骤都有 KG 中的实体关系支撑，从源头减少幻觉
多阶段过滤（Multi-stage Filtering）:
- 阶段 1：节点可达性检查——验证任务答案涉及的所有实体在 KG 中是否从任务起点可达（不可达→不可解→丢弃）
- 阶段 2：LLM 质量评分——用另一个 LLM 对任务的清晰度、难度合理性、答案正确性打分（1-5），< 3 分的丢弃
- 阶段 3：相似度去重分析——计算任务间的 embedding 相似度，对高度相似的任务簇只保留最高质量的一个，保证整体多样性
- 设计动机：三级过滤递进——结构级（可达性）→语义级（质量）→集合级（多样性），层层把关

损失函数 / 训练策略¶

无需训练：Graph2Eval 是纯推理时流水线
KG 构建使用现成的 embedding 模型（如 text-embedding-3-small）
任务生成和质量评分分别使用 GPT-4o 和 GPT-4-turbo
文档任务平均生成耗时 34.87s/task，网页任务 95.51s/task

实验关键数据¶

Graph2Eval-Bench 数据集统计¶

类别	数量	平均步骤数	涉及节点类型
文档任务	1002	2.8	paragraph, table, heading, image
网页任务	317	4.2	form, button, link, dropdown
总计	1319	3.1	—

与 baseline 任务生成方法对比¶

方法	语义一致性 ↑	可解性 ↑	多样性 ↑	幻觉率 ↓
Self-Instruct	0.62	0.58	0.71	18.3%
Evol-Instruct	0.67	0.63	0.68	15.1%
Template-based	0.78	0.82	0.41	5.2%
Graph2Eval	0.84	0.80	0.76	4.7%

Graph2Eval 在语义一致性上比最强 baseline Evol-Instruct 提升 +20%（0.84 vs 0.67+），可解性 +17%（0.80 vs 0.63+）。

Agent 在 Graph2Eval-Bench 上的表现¶

Agent	文档任务准确率	网页任务成功率	整体
GPT-4o	61.3%	42.7%	56.8%
Claude-3.5	58.9%	39.2%	54.1%
Gemini-1.5	55.2%	36.8%	50.5%
Open-source best	41.7%	28.3%	38.4%

Graph2Eval-Bench 具有足够的区分度——最强的 GPT-4o 也仅 56.8%，开源模型 38.4%，存在显著提升空间。

关键发现¶

KG 结构是核心：去掉 KG 直接用文本块生成任务，语义一致性下降 22%，可解性下降 19%——实体关系建模不可或缺
Meta-path 引导有效：使用 meta-path 的任务平均推理步骤更多（3.4 vs 2.1），且答案正确率更高（+8%）
多阶段过滤不可替代：无过滤时约 31% 的任务有质量问题（不可解或幻觉），三级过滤后降至 4.7%
网页任务显著更难：所有 agent 在网页任务上的表现比文档任务低 15-20 个百分点——多步交互操作是瓶颈

亮点与洞察¶

KG 作为"任务生成的骨架"是巧妙的设计——将自由文本的非结构化问题转化为图论问题，用图的连通性保证可解性，用节点内容保证语义一致性
文档模式和网页模式的统一框架体现了方法的通用性——只需更换节点/边类型定义即可适配新模态
多阶段过滤的设计实用且高效——结构检查计算量极小，LLM 评分只对通过结构检查的任务执行，相似度分析在最后做全局去重
构建了 1319 个任务的 benchmark，对 agent 社区有直接贡献价值

局限与展望¶

KG 构建的质量依赖 embedding 模型和阈值设定——对专业领域文档（如医学、法律），通用 embedding 可能不够准确
网页任务仅 317 个（vs 文档 1002 个），规模不均衡——网页 DOM 解析和交互边抽取更复杂，扩展成本高
任务生成和评分都依赖 GPT-4 级别 LLM——成本高，且引入了对特定 LLM 的偏好偏差
未考虑动态网页——真实网页内容会随时间变化，生成的任务可能很快失效
可解性检查仅验证 KG 中的节点可达性——实际可解性还受 agent 工具能力限制（如无法操作某些 JavaScript 控件）
Meta-path 模式是预定义的——对新型文档结构可能需要人工扩展模式库

评分¶

新颖性: ⭐⭐⭐⭐ 将知识图谱引入 agent 任务自动生成是新颖的视角，五阶段流水线设计完整
实验充分度: ⭐⭐⭐⭐ 多 baseline 对比、消融分析、多 agent 评测、任务质量统计齐全
写作质量: ⭐⭐⭐⭐ 框架清晰，流水线各阶段描述详尽
价值: ⭐⭐⭐⭐⭐ benchmark + 自动生成框架双重贡献，对 agent 评估社区有直接实用价值