BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models¶

会议: ICLR 2026
arXiv: 2510.00307
代码: https://github.com/thierry123454/tool-selection-bias
领域: AI安全
关键词: tool selection bias, LLM agent, fairness, API marketplace, debiasing

一句话总结¶

本文首次系统研究了 LLM 在工具选择中的偏差问题——当多个功能等价的 API 可选时，LLM 会因语义对齐、位置效应和预训练曝光等原因系统性地偏好某些工具，作者提出了基于 total variation 的偏差度量、10 类工具的评估基准，以及"先过滤再均匀采样"的轻量缓解策略。

研究背景与动机¶

领域现状：LLM agent 日益依赖外部工具/API 来完成无法直接执行的任务（如查询数据库、获取实时信息、调用外部服务）。工具选择是 agent pipeline 中的关键步骤——先检索候选工具，再由 LLM 推理选择最终调用的 API。

现有痛点：在 API marketplace 中，多个提供商提供功能完全等价的工具（如多个天气 API、多个翻译 API）。理想情况下 LLM 应公平对待这些等价工具，但实际上模型会系统性偏好某些提供商——这不仅影响用户体验（反复选择慢或不可靠的服务），还在按请求计费模式下造成市场不公平。

核心矛盾：现有 LLM bias 研究主要集中在社会偏见（性别、种族等）和认知偏见（锚定效应等），工具选择偏差这一关键盲区几乎未被研究。已有少量工作关注对抗性攻击下的工具选择（如恶意元数据注入），但非对抗性条件下的偏差——工具名称、描述、排列位置等细微差异导致的选择不公平——尚无系统分析。

本文目标 三个子问题：(a) LLM 工具选择偏差有多严重？(b) 偏差的根源是什么？(c) 如何缓解？

切入角度：构建功能等价工具簇，用 total variation distance 量化选择分布与均匀分布的偏差，通过控制变量实验（元数据扰动、持续预训练）隔离各因素影响。

核心 idea：用等价工具簇基准 + TV 距离指标系统刻画 LLM 工具选择偏差，发现语义对齐是主要驱动力，并提出过滤-均匀采样的轻量缓解方案。

方法详解¶

整体框架¶

BiasBusters 是一个"发现-解释-缓解"的端到端框架：首先定义偏差指标并构建测试基准评估偏差（Uncover），然后通过特征分析、元数据扰动和有偏预训练三条线索解释偏差来源（Explain），最后提出过滤+均匀采样的缓解策略（Mitigate）。

关键设计¶

偏差度量体系
- 功能：量化 LLM 在等价工具间选择的不公平程度
- 核心思路：将偏差分为两个维度——API 偏差 \(\delta_{\text{API}}\)（对特定 API 的偏好）和位置偏差 \(\delta_{\text{pos}}\)（对列表中特定位置的偏好），两者都用选择分布与均匀分布的 total variation 距离衡量：\(\delta_{\text{API}} = \text{TV}(P^{\text{API}}, U)\)，最终综合指标 \(\delta_{\text{model}} = (\delta_{\text{API}} + \delta_{\text{pos}}) / 2\)
- 设计动机：区分 API 偏差和位置偏差很关键——位置偏差可通过随机打乱顺序消除，而 API 偏差需要更深层的干预。使用 cyclic rotation（循环轮换 API 顺序）确保每个 API 都出现在每个位置一次
等价工具簇基准
- 功能：构建可控的偏差评测数据集
- 核心思路：基于 ToolLLM 的 RapidAPI 数据库，将 API 聚类为 10 个功能等价簇（如天气预报、翻译、地理编码等），每簇 5 个 API + 100 个用户查询，共 1000 个测试对。用 LLM 生成均衡的、不偏向特定提供商的查询
- 设计动机：功能等价是公平评估的前提——只有当工具确实做同一件事时，偏好某一个才构成"偏差"
多维度偏差解释
- 特征级分析：提取 7 个 API 特征（语义相似度、参数数量、描述长度、可读性、推广性用语等），用 Pearson 相关、线性回归和随机森林分析哪些特征预测选择率。发现查询-描述语义相似度是最强预测因子，但 \(R^2 < 0.4\)，说明还有大量不可解释的因素
- 元数据扰动实验：设计 8 种控制扰动（打乱名称、打乱描述、交换描述等），发现描述级语义是模型区分等价 API 的主要线索，打乱描述+参数造成最大选择偏移；名称扰动影响较小且方差大
- 有偏持续预训练：在 Qwen3-8B 上用 350 万 token（饱和于单一 API 元数据）做持续预训练，目标 API 选择率从 0.6% 升到 12.8%（>20 倍），但远未占据主导地位，说明预训练曝光只能部分解释偏差
轻量缓解策略
- 功能：在不牺牲任务覆盖率的前提下减少偏差
- 核心思路：用小型 LLM（Qwen3-14B）作过滤器，先从候选列表中筛出能解决当前查询的 API 子集，再从子集中均匀随机采样。解耦了"识别能力"和"选择行为"
- 效果：Micro-Precision ~1.00（几乎不引入错误 API），Micro-Recall ~0.89（保留大部分正确 API），偏差指标大幅下降

实验设置¶

评估 7 个 LLM：GPT-3.5-turbo、GPT-4.1 mini、Claude 3.5 Sonnet、DeepSeek-V3.2-Exp、Gemini 2.5 Flash、ToolLLaMA-2-7B、Qwen3 (1.7B-235B)
每个查询用 5 种循环轮换顺序执行，temperature=0.5，top-p=1.0
约 50 万次推理运行

实验关键数据¶

主实验¶

模型	\(\delta_{\text{API}}\)	\(\delta_{\text{pos}}\)	\(\delta_{\text{model}}\)
Qwen3 235B	0.330	0.168	0.249
GPT-3.5-turbo	0.320	0.336	0.328
Gemini 2.5 Flash	0.365	0.306	0.335
ToolLLaMA	0.277	0.391	0.334
Claude 3.5 Sonnet	0.370	0.325	0.347
DeepSeek-V3.2-Exp	0.249	0.504	0.377
GPT-4.1 mini	0.331	0.423	0.377

消融 / 缓解效果¶

配置	Micro-Precision	Micro-Recall	Exact Match	说明
过滤+均匀采样 (整体)	0.9964	0.8856	0.69	几乎不引错误工具
K=2	1.0000	0.7717	0.5433	小集合recall略低
K=4	0.9940	0.9633	0.9100	最佳表现
K=5	1.0000	0.8610	0.5350	大集合略有遗漏

关键发现¶

所有测试模型都存在显著偏差：\(\delta_{\text{model}}\) 在 0.25-0.38 之间，意味着 25%-38% 的选择概率需要重新分配才能达到公平
两种偏差模式互补：高 API 偏差伴随低位置偏差，反之亦然；当没有明显的 API 偏好时，模型依赖位置线索（偏好靠前的工具）
模型间偏差高度对齐：GPT-4.1 mini、Claude、Gemini、DeepSeek、Qwen3 235B 倾向于偏好相同的 API，暗示偏差源于共同的隐式决策规则
元数据扰动的影响是上下文依赖的：同一扰动在不同簇中可能反转、重分配或几乎不改变偏好
Temperature 升高略微降低偏差；模型越大偏差越小；系统提示改变偏好对象但不消除偏差

亮点与洞察¶

将工具选择偏差正式化为公平性问题：这是一个非常实际且被忽视的问题——随着 agent 生态发展，API marketplace 的公平竞争至关重要。用 TV 距离量化偏差简洁有效
区分 API 偏差和位置偏差的设计很巧妙：cyclic rotation 实验设计精巧地控制了位置变量，使两种偏差可以独立衡量
"过滤 + 均匀采样"的缓解思路可迁移：将"识别"和"选择"解耦的思想可以推广到其他需要公平选择的 LLM 场景（如推荐系统、内容分发）
有偏 CPT 实验定量证明了预训练数据可以"植入"工具偏好，对理解 LLM 预训练偏差的传播机制有启发

局限与展望¶

基准规模有限：仅 10 个簇、每簇 5 个 API、100 个合成查询——扩展到真实生产环境的数百个 API 类别时效果可能不同
特征解释力不足：线性回归 \(R^2 < 0.4\)，说明有大量偏差来自不可解释的因素（可能是预训练中的隐式关联）
缓解策略依赖额外 LLM：过滤器本身可能也有偏差（虽然实验显示影响不大），且增加了推理成本
仅覆盖英文查询和 RapidAPI：跨语言、跨平台泛化性未验证
未分析 RLHF/偏好调优对工具选择偏差的贡献——这可能是重要来源

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究工具选择偏差，问题定义和基准设计有原创性
实验充分度: ⭐⭐⭐⭐ 7 个模型、50 万次推理、多维度分析，但基准规模较小
写作质量: ⭐⭐⭐⭐ 结构清晰，"发现-解释-缓解"逻辑链完整
价值: ⭐⭐⭐⭐ 对 agent 生态公平性有实际意义，缓解策略简单可用