ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools¶
会议: ICCV 2025
arXiv: 2508.03284
代码: GitHub
领域: 多模态VLM
关键词: 视觉问答, 工具使用, 多步推理, 数据集, 大模型, 工具代理
一句话总结¶
提出 ToolVQA——一个包含 23K 样本的大规模多模态工具增强 VQA 数据集,通过 ToolEngine 管道(结合图像引导的 DFS 和 LCS 示例匹配)自动生成真实场景下的多步推理数据,在其上微调的 LLaVA-7B 在 5 个 OOD 基准上超越 GPT-3.5-Turbo。
研究背景与动机¶
将外部工具集成到大型基础模型(LFM)中是构建通用 AI 助理的关键方向。但现有工具增强 VQA 数据集存在三大差距:
场景不真实:使用合成图像或过度简化的 PDF 文件,与真实世界场景复杂度不匹配
查询过于简单:仅需单步推理或显式提供工具使用提示(如"使用 Cheap YouTube API 工具"),缺乏隐式多步推理
标注成本高:依赖人工标注的数据集(如 GAIA 仅 500 样本)难以扩展
本文核心目标:构建同时满足真实场景(Real-world Scenarios)和真实查询(Real-world Queries)的大规模可扩展数据集,弥合合成数据与真实工具使用之间的差距。
与现有数据集的对比优势(Table 1):ToolVQA 是唯一同时满足多模态输入、真实场景/查询、可评估答案、高推理复杂度(2.38)的大规模数据集。
方法详解¶
ToolEngine 数据构建管道¶
包含三个核心组件(Fig. 3):
1. 真实世界示例构建
邀请 10 位来自不同学科(数学、计算机、经济学、中文、艺术)的用户,每人记录 15 个常见工具使用场景。合并功能相似的工具后选出 10 个最常用工具,并将 150 个初始场景精炼为 34 个代表性示例。
2. 图像引导的 DFS 搜索
在工具图上执行深度优先搜索,构建多步工具使用轨迹:
其中控制器 \(\mathcal{M}\) 为 ChatGPT-4o-latest,每步选择工具并生成参数,涉及真实工具调用以提取图像信息。
3. LCS 示例匹配
基于最长公共子序列(LCS)算法进行动态示例匹配。在第 \(i\) 步,计算当前轨迹 \(\mathcal{P}_i\) 与示例集 \(\mathcal{P}^e\) 中每个元素的 LCS 匹配度,检索 Top-k 最匹配示例:
关键优势:不同于固定示例匹配,LCS 允许在 DFS 过程中动态切换示例,融合不同类型知识,显著提升推理复杂度和数据质量。
工具集设计¶
10 个工具覆盖 4 大类: - 感知:ImageCaption, OCR, ObjectDetection, RegionDescription - 操作:DrawBox, GoogleSearch - 逻辑:Calculator, Plot, ItemCount - 创造:TextToImage
训练目标¶
使用交叉熵损失微调 LLaVA-7B:
训练配置:batch_size=2, lr=2e-4, LoRA 微调, 4000 epochs, 4×GTX3090。
实验关键数据¶
主实验:ToolVQA 测试集(Table 4)¶
| 模型 | 设置 | End-to-End Acc.↑ | Inst.↑ | Tool.↑ | Arg.↑ | Summ.↑ |
|---|---|---|---|---|---|---|
| ChatGPT-4o-latest | VLM | 38.29 | - | - | - | - |
| ChatGPT-4o-latest | VLM+tool | 34.96 | 36.5 | 14.68 | 8.92 | 56.1 |
| GPT-3.5-Turbo | LLM+tool | 18.37 | 73.24 | 30.46 | 20.08 | 58.18 |
| LLaVA-7B(原始) | VLM+tool | 1.17 | 16.39 | 9.43 | 0 | 0.01 |
| Tuned LLaVA-7B | VLM+tool | 18.80 | 86.62 | 61.61 | 39.34 | 30.91 |
关键发现: - 微调后 7B 模型的端到端准确率接近大规模闭源 GPT-3.5-Turbo - 指令格式化和工具选择显著提升(Inst. 86.62%, Tool. 61.61%),但参数预测和答案总结仍是瓶颈 - GPT-4o 的 VLM+tool 反而不如纯 VLM(34.96 < 38.29),工具引入的噪声超过了收益
OOD 泛化实验(Table 5)¶
| 模型 | TextVQA | TallyQA | InfoSeek | GTA | TEMPLAMA |
|---|---|---|---|---|---|
| GPT-3.5-Turbo | 36.3 | 61 | 11.3 | 23.62 | 33.67 |
| LLaVA-7B | 41.2 | 60.1 | 5.2 | 12.12 | 3.06 |
| Tuned LLaVA-7B | 47 | 64.3 | 13.8 | 33.29 | 21.43 |
微调模型在 5 个 OOD 基准中的 4 个上超越 GPT-3.5-Turbo,展示了强泛化能力。
ToolEngine 消融实验(Table 3)¶
| 方法 | Acc.↑ | Cor.↑ | Nec.↑ | R.C.↑ |
|---|---|---|---|---|
| ToolEngine(完整) | 90.8 | 85.2 | 87.51 | 2.38 |
| w/o Example + LCS | 27.3 | 77.6 | 21.04 | 1.1 |
| w/o LCS | 41.6 | 81.4 | 54.26 | 1.61 |
LCS 匹配对数据质量至关重要:移除后准确率从 90.8% 降至 41.6%,推理复杂度从 2.38 降至 1.61。
Few-shot ICL 实验(Table 6)¶
| 模型 | 0-shot | 1-shot | 5-shot | 10-shot |
|---|---|---|---|---|
| GPT-4o | 34.96 | 37.20 | 38.41 | 38.63 |
| Tuned LLaVA-7B | 18.80 | 19.41 | 21.13 | 20.69 |
微调模型仍能从 ICL 中受益(18.80→21.13),说明微调和 ICL 是互补的。
数据集统计¶
- 总样本数:23,655
- 工具调用次数:65,785
- 平均推理轨迹长度:2.78 步
- 平均问题长度:15.74 tokens
- 平均答案长度:2.69 tokens(简洁可评估)
亮点与洞察¶
- LCS 动态匹配的精妙设计:通过逐步匹配不同示例,让 DFS 过程能够融合多种知识,产生更复杂的推理链。固定示例匹配无法适配不同场景,这是数据质量提升的关键
- 生成容易、回答难:用于生成问题的 GPT-4o 在回答自己生成的问题时准确率不到 40%,证明了 ToolEngine 管道成功解耦了单步推理与多步端到端推理
- 工具使用的双刃剑效应:多个模型的 VLM+tool 表现反而低于纯 VLM,说明工具引入的噪声可能超过收益。微调能有效抑制工具噪声
- 性能瓶颈在参数预测和答案总结:这些任务需要理解工具返回的新信息并从中提取有意义的响应,微调对此改进有限
局限性¶
- 工具集规模较小(10 个),虽然每个工具泛化能力强,但无法覆盖所有真实场景
- 数据生成依赖 GPT-4o,成本较高且可能引入偏差
- 90.8% 的自动生成准确率意味着约 10% 的训练数据存在噪声
- 仅在 7B 规模模型上进行微调实验,更大模型的表现未知
相关工作与启发¶
- 与 MM-Traj(Gao et al., 2025)相比,ToolVQA 使用真实场景图像且答案经过验证
- LCS 匹配思路可推广到其他需要动态示例选择的数据合成场景
- 工具使用能力的瓶颈(参数预测、答案总结)指向了多轮对话中动态信息处理的研究方向
- 将高泛化工具(如 GoogleSearch)与特定任务工具结合的设计理念值得借鉴
评分 ⭐⭐⭐⭐¶
创新性 ★★★★☆:ToolEngine 管道和 LCS 示例匹配设计新颖 实验 ★★★★☆:覆盖多种模型和 OOD 基准,分析全面 写作 ★★★★☆:数据质量评估透彻,错误分析有深度 实用性 ★★★★★:公开代码和数据集,可直接用于工具代理训练和评估