Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models¶

论文信息¶

会议: ACL 2025
arXiv: 2503.01763
代码: https://github.com/shizhl/Tool-Retrieval-Benchmark
领域: LLM评测
关键词: Tool Retrieval, Tool Learning, Information Retrieval, Benchmark, LLM Agent

提出ToolRet——首个大规模工具检索基准（7.6k检索任务、43k工具），揭示现有强IR模型在工具检索任务上表现不佳（最强模型nDCG@10仅33.83），并贡献超20万训练实例的ToolRet-train数据集，显著提升IR模型的工具检索能力和端到端工具使用任务通过率。

领域现状: 工具学习（Tool Learning）旨在为LLM配备外部工具以解决实际任务，在大规模工具集场景下，使用IR模型检索有用工具是关键的第一步。
已有基准局限: 现有工具使用基准（如ToolBench、ToolACE）通过人工预标注每个任务仅10-20个相关工具来简化检索步骤，远离真实应用场景中面对数万工具的挑战。
关键差距: 先导实验表明，用检索工具替代官方标注工具集后，Agent任务通过率显著下降；即使是ColBERTv2等强检索器也难以有效检索目标工具。
核心动机: 需要(1)系统性评估IR模型在多样化工具检索场景中的表现；(2)分析检索质量对端到端工具使用任务通过率的影响。

ToolRet基准的构建包含三个阶段：(1) 数据收集——从AI顶会论文、会议资源和开源社区收集超30个工具使用数据集；(2) 数据采样——通过K-means聚类去冗余并合并工具集；(3) 指令构建——使用GPT-4o自动生成检索指令以支持指令性检索评估。

异构工具语料库: 43k工具涵盖三种类型——Web API（36,978个）、代码函数（3,794个）和自定义应用（2,443个），覆盖多样化的工具文档类型和领域。
基于聚类的任务采样: 使用NV-embed-v1编码任务并执行K-means聚类，将聚类数设为工具集大小与查询数的最小值，从每个簇随机采样一个任务，确保多样性同时减少冗余。
目标感知指令生成: 邀请3位专家手写100条种子指令，再用GPT-4o通过上下文学习为每个任务自动生成指令，使指令能桥接查询意图与目标工具功能。

扩展数据收集至ToolACE、APIGen和ToolBench的训练集，构建超20万检索任务的训练数据。每个训练样本包含查询、生成指令、目标工具和10个由NV-embed-v1检索的负样本工具。训练采用对比学习框架，使用hard negative mining增强模型对工具相似性的辨别力。

分析维度	发现
词汇重叠率	工具检索任务中查询与目标工具的词汇重叠率远低于传统检索任务，要求IR模型具备更强的语义表示能力
任务迁移	从信息搜索型任务到工具检索的任务偏移导致IR模型性能下降
训练效果	在ToolRet-train上微调后，IR模型检索性能显著提升，端到端任务通过率也随之提高
检索对Agent影响	检索Recall@10与Agent任务通过率呈强正相关，验证了工具检索质量对下游的关键影响