Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs¶

会议: CVPR 2026
arXiv: 2510.00507
代码: GitHub
领域: Agent 评估 / 知识图谱
关键词: knowledge graph, agent evaluation, task generation, multimodal, benchmark

一句话总结¶

提出 Graph2Eval，利用从异构数据源构建的知识图谱作为结构化任务空间，通过子图采样、任务模板和 meta-path 策略自动生成语义一致且可解的多模态 agent 评估任务，生成的任务在语义一致性和可解性上分别提升 20% 和 17%。

研究背景与动机¶

领域现状：随着多模态 LLM 驱动的 agent 在自主性和泛化性上的不断进步，评估其真实能力变得至关重要。现有评估方式主要依赖静态数据集（如 GAIA、MiniWoB++、Mind2Web）或需要大量人工标注的环境（如 OSWorld、AndroidWorld）。

现有痛点： 1. 静态数据集无法区分 agent 的真正泛化能力与记忆检索能力，且扩展性差 2. 已有 LLM 合成方法（如 TaskCraft）缺乏显式的实体关系建模，生成的任务语义不一致、可解性差 3. 网页交互任务生成方法依赖静态数据和预定义页面关系，无法有效迁移到动态网页场景

核心矛盾：如何在无需大量人工标注的前提下，自动生成语义一致、可解且多样化的 agent 评估任务。

本文目标：构建一个自动化、可扩展、语义上有根据的 agent 任务生成框架，同时覆盖文档理解和网页交互两种场景。

切入角度：将知识图谱（KG）视为结构化任务空间，利用图谱中的实体和关系来约束任务生成，确保语义一致性和可解性。

核心 idea：用知识图谱编码数据中的实体关系，通过子图采样和模板驱动生成机制自动产出高质量 agent 评估任务。

方法详解¶

整体框架¶

Graph2Eval 的数据集生成流程包含五个阶段：数据摄入 → 知识图谱构建 → 子图采样 → 任务生成 → 覆盖优化。整体思路是先从文档/网页数据构建结构化知识图谱，再通过子图采样提取局部子图，最后结合任务模板和 LLM 生成具体任务实例。

关键设计¶

数据摄入（Data Ingestion）:
- 对文档数据进行语义分块（Semantic Chunking），将文档切分为最小语义单元并映射为图节点
- 使用 all-MiniLM-L6-v2 计算每个节点的 \(d=384\) 维嵌入向量，存入向量数据库
- 为每个节点标注元数据（文件路径、标题、作者等）
- 对网页数据通过自动化 URL 爬取收集 DOM 结构和截图，集成模拟人类交互以处理复杂页面设计
知识图谱构建（KG Construction）:
- 定义 KG 为 \(G = (V, E, R)\)，其中 \(V\) 是节点集，\(E\) 是边集，\(R\) 是关系类型集
- 节点提取：解析文档/网页中的段落、标题、超链接、表单、按钮等元素，映射为节点 \(V = \{v_i \mid v_i \in \text{Elements}(D), \text{type}(v_i) \in \text{NodeTypeSet}\}\)
- 节点表示：将文本内容 \(c_i^T\) 和视觉内容 \(c_i^V\)（通过 \(\phi_{\text{visual}}\) 转为文本描述）拼接后编码为向量 \(h_i = f_{\text{embed}}(c_i^{T+V})\)
- 边构建：构建异构边集 \(E = E_{\text{text}} \cup E_{\text{web}}\)，文本边编码结构关系（包含/序列）、语义关系、上下文关系和引用关系；网页边编码导航关系、交互关系和布局关系
子图采样（Subgraph Sampling）:
- 文档理解模式：基于语义相关性（余弦相似度 \(\cos(h_i, h_g) > \tau\)）和结构匹配（\(\text{StructMatch}\)）选择节点，仅保留指定类型的节点
- 网页交互模式：采用种子驱动策略，先识别任务特定种子节点 \(S_{\text{seed}}(g)\)（按钮、表单等），再收集种子节点的 \(k\)-hop 邻居
- 最终子图 \(G_g = (V_g, E_g, R) \subseteq G\) 包含所有选中节点及其内部连边
任务生成（Task Generation）:
- 文档理解任务：维护任务模板库（覆盖问答、比较、分析、推理等），从采样子图中提取模板变量，结合 LLM 生成具体任务实例
- 网页交互任务：提出种子驱动子图采样策略，先识别页面关键操作节点作为"任务种子"，再通过 meta-path 匹配产生具体任务链（如 Search → Filter → Detail），最后由 LLM 结合子图结构和页面上下文生成任务
覆盖优化（Coverage Optimization）:
- 使用多阶段优化确保任务质量、多样性和代表性
- 基于 Maximal Marginal Relevance (MMR) 策略迭代选择任务，平衡覆盖度和新颖度
- 覆盖维度包括：节点类型、边类型、模式、页面级别、网站类型和难度

损失函数 / 训练策略¶

本工作不涉及模型训练，而是一个任务生成框架。任务生成和优化基于 GPT-4o，评估使用多种模型（GPT-4o、Deepseek-V3、Qwen2.5-VL 系列、Gemini 2.5 Flash 等）。生成效率方面，文档理解任务平均 34.87 秒/个，网页交互任务平均 95.51 秒/个。

实验关键数据¶

主实验¶

模型	设置	F1	ROUGE-L	LLM Judge
GPT-4o	Single Agent	0.5766	0.4874	0.7854
GPT-4o	Multi-Agent	0.5916	0.4873	0.7623
Deepseek-V3	Single Agent	0.5376	0.4518	0.8351
Deepseek-V3	Multi-Agent	0.5497	0.4635	0.7984
Qwen2.5-VL-72B	Single Agent	0.5730	0.4837	0.7094
Qwen2.5-VL-7B	Single Agent	0.2093	0.1939	0.5427

Web 交互任务（Agent S 2.5 整体 Success Rate）：

模型	Overall SR
Gemini 2.5 Flash	69.20%
Qwen2.5-VL-72B	38.80%
GPT-4o mini	33.12%
UI-TARS-1.5-7B	7.19%

消融实验¶

方法	Doc Consistency	Doc Solvability	Web Consistency	Web Solvability
Graph2Eval w/o KG	0.74	0.73	0.62	0.60
Graph2Eval (完整)	0.95 (+20%)	0.93 (+17%)	0.78	0.72

Agent 评估消融（Qwen2.5-VL-72B）：

方法	Doc Acc	Web SR
w/o KG	0.68	0.12
Graph2Eval	0.85	0.24

关键发现¶

知识图谱的引入显著提升了任务语义一致性（+20%）和可解性（+17%），KG 边精度达 88%
无 KG 的 baseline 生成的网页任务大多局限于单页交互，多页工作流因缺乏页间关系建模而不可解
Graph2Eval-Bench 能有效区分不同规模模型的性能差异（如 Qwen-72B vs 7B）
与 TaskCraft 的自底向上方法相比，Graph2Eval 的自顶向下范式（先建 KG 再采样）生成的任务类型更丰富

亮点与洞察¶

KG 作为任务空间的思路很有创意——将任务生成问题转化为图上的子图采样问题，天然保证了语义一致性
统一框架覆盖两类场景：文档理解（RAG Agent）和网页交互（Web Agent），通过统一的图抽象实现
种子驱动 + meta-path 策略使网页任务生成具有组合灵活性，避免了全有或全无的刚性约束
验证了当前 agent 在动态、自动生成的任务上仍有很大提升空间（最强模型 Agent S 2.5 也只有 69% SR）

局限与展望¶

KG 构建质量高度依赖于数据预处理和实体/关系提取的准确性，边精度为 88% 而非 100%
当前仅覆盖文档理解和网页交互两类场景，未涵盖工具使用、多模态推理等更广泛的 agent 任务
任务生成依赖 GPT-4o，成本较高且可能引入模型偏差
知识图谱的动态更新机制未详细讨论，如何应对网页内容变化仍是挑战
生成任务的难度分布控制有限，可能集中在中等难度

评分¶

维度	评分
创新性	⭐⭐⭐⭐
实用性	⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
综合	⭐⭐⭐⭐