BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models¶
会议: ICLR 2026
arXiv: 2510.00307
代码: https://github.com/thierry123454/tool-selection-bias
领域: AI安全
关键词: tool selection bias, LLM agent, fairness, API marketplace, debiasing
一句话总结¶
本文首次系统研究了 LLM 在工具选择中的偏差问题——当多个功能等价的 API 可选时,LLM 会因语义对齐、位置效应和预训练曝光等原因系统性地偏好某些工具,作者提出了基于 total variation 的偏差度量、10 类工具的评估基准,以及"先过滤再均匀采样"的轻量缓解策略。
研究背景与动机¶
领域现状:LLM agent 日益依赖外部工具/API 来完成无法直接执行的任务(如查询数据库、获取实时信息、调用外部服务)。工具选择是 agent pipeline 中的关键步骤——先检索候选工具,再由 LLM 推理选择最终调用的 API。
现有痛点:在 API marketplace 中,多个提供商提供功能完全等价的工具(如多个天气 API、多个翻译 API)。理想情况下 LLM 应公平对待这些等价工具,但实际上模型会系统性偏好某些提供商——这不仅影响用户体验(反复选择慢或不可靠的服务),还在按请求计费模式下造成市场不公平。
核心矛盾:现有 LLM bias 研究主要集中在社会偏见(性别、种族等)和认知偏见(锚定效应等),工具选择偏差这一关键盲区几乎未被研究。已有少量工作关注对抗性攻击下的工具选择(如恶意元数据注入),但非对抗性条件下的偏差——工具名称、描述、排列位置等细微差异导致的选择不公平——尚无系统分析。
本文目标 三个子问题:(a) LLM 工具选择偏差有多严重?(b) 偏差的根源是什么?(c) 如何缓解?
切入角度:构建功能等价工具簇,用 total variation distance 量化选择分布与均匀分布的偏差,通过控制变量实验(元数据扰动、持续预训练)隔离各因素影响。
核心 idea:用等价工具簇基准 + TV 距离指标系统刻画 LLM 工具选择偏差,发现语义对齐是主要驱动力,并提出过滤-均匀采样的轻量缓解方案。
方法详解¶
整体框架¶
BiasBusters 是一个"发现-解释-缓解"的端到端框架:首先定义偏差指标并构建测试基准评估偏差(Uncover),然后通过特征分析、元数据扰动和有偏预训练三条线索解释偏差来源(Explain),最后提出过滤+均匀采样的缓解策略(Mitigate)。
关键设计¶
-
偏差度量体系
- 功能:量化 LLM 在等价工具间选择的不公平程度
- 核心思路:将偏差分为两个维度——API 偏差 \(\delta_{\text{API}}\)(对特定 API 的偏好)和位置偏差 \(\delta_{\text{pos}}\)(对列表中特定位置的偏好),两者都用选择分布与均匀分布的 total variation 距离衡量:\(\delta_{\text{API}} = \text{TV}(P^{\text{API}}, U)\),最终综合指标 \(\delta_{\text{model}} = (\delta_{\text{API}} + \delta_{\text{pos}}) / 2\)
- 设计动机:区分 API 偏差和位置偏差很关键——位置偏差可通过随机打乱顺序消除,而 API 偏差需要更深层的干预。使用 cyclic rotation(循环轮换 API 顺序)确保每个 API 都出现在每个位置一次
-
等价工具簇基准
- 功能:构建可控的偏差评测数据集
- 核心思路:基于 ToolLLM 的 RapidAPI 数据库,将 API 聚类为 10 个功能等价簇(如天气预报、翻译、地理编码等),每簇 5 个 API + 100 个用户查询,共 1000 个测试对。用 LLM 生成均衡的、不偏向特定提供商的查询
- 设计动机:功能等价是公平评估的前提——只有当工具确实做同一件事时,偏好某一个才构成"偏差"
-
多维度偏差解释
- 特征级分析:提取 7 个 API 特征(语义相似度、参数数量、描述长度、可读性、推广性用语等),用 Pearson 相关、线性回归和随机森林分析哪些特征预测选择率。发现查询-描述语义相似度是最强预测因子,但 \(R^2 < 0.4\),说明还有大量不可解释的因素
- 元数据扰动实验:设计 8 种控制扰动(打乱名称、打乱描述、交换描述等),发现描述级语义是模型区分等价 API 的主要线索,打乱描述+参数造成最大选择偏移;名称扰动影响较小且方差大
- 有偏持续预训练:在 Qwen3-8B 上用 350 万 token(饱和于单一 API 元数据)做持续预训练,目标 API 选择率从 0.6% 升到 12.8%(>20 倍),但远未占据主导地位,说明预训练曝光只能部分解释偏差
-
轻量缓解策略
- 功能:在不牺牲任务覆盖率的前提下减少偏差
- 核心思路:用小型 LLM(Qwen3-14B)作过滤器,先从候选列表中筛出能解决当前查询的 API 子集,再从子集中均匀随机采样。解耦了"识别能力"和"选择行为"
- 效果:Micro-Precision ~1.00(几乎不引入错误 API),Micro-Recall ~0.89(保留大部分正确 API),偏差指标大幅下降
实验设置¶
- 评估 7 个 LLM:GPT-3.5-turbo、GPT-4.1 mini、Claude 3.5 Sonnet、DeepSeek-V3.2-Exp、Gemini 2.5 Flash、ToolLLaMA-2-7B、Qwen3 (1.7B-235B)
- 每个查询用 5 种循环轮换顺序执行,temperature=0.5,top-p=1.0
- 约 50 万次推理运行
实验关键数据¶
主实验¶
| 模型 | \(\delta_{\text{API}}\) | \(\delta_{\text{pos}}\) | \(\delta_{\text{model}}\) |
|---|---|---|---|
| Qwen3 235B | 0.330 | 0.168 | 0.249 |
| GPT-3.5-turbo | 0.320 | 0.336 | 0.328 |
| Gemini 2.5 Flash | 0.365 | 0.306 | 0.335 |
| ToolLLaMA | 0.277 | 0.391 | 0.334 |
| Claude 3.5 Sonnet | 0.370 | 0.325 | 0.347 |
| DeepSeek-V3.2-Exp | 0.249 | 0.504 | 0.377 |
| GPT-4.1 mini | 0.331 | 0.423 | 0.377 |
消融 / 缓解效果¶
| 配置 | Micro-Precision | Micro-Recall | Exact Match | 说明 |
|---|---|---|---|---|
| 过滤+均匀采样 (整体) | 0.9964 | 0.8856 | 0.69 | 几乎不引错误工具 |
| K=2 | 1.0000 | 0.7717 | 0.5433 | 小集合recall略低 |
| K=4 | 0.9940 | 0.9633 | 0.9100 | 最佳表现 |
| K=5 | 1.0000 | 0.8610 | 0.5350 | 大集合略有遗漏 |
关键发现¶
- 所有测试模型都存在显著偏差:\(\delta_{\text{model}}\) 在 0.25-0.38 之间,意味着 25%-38% 的选择概率需要重新分配才能达到公平
- 两种偏差模式互补:高 API 偏差伴随低位置偏差,反之亦然;当没有明显的 API 偏好时,模型依赖位置线索(偏好靠前的工具)
- 模型间偏差高度对齐:GPT-4.1 mini、Claude、Gemini、DeepSeek、Qwen3 235B 倾向于偏好相同的 API,暗示偏差源于共同的隐式决策规则
- 元数据扰动的影响是上下文依赖的:同一扰动在不同簇中可能反转、重分配或几乎不改变偏好
- Temperature 升高略微降低偏差;模型越大偏差越小;系统提示改变偏好对象但不消除偏差
亮点与洞察¶
- 将工具选择偏差正式化为公平性问题:这是一个非常实际且被忽视的问题——随着 agent 生态发展,API marketplace 的公平竞争至关重要。用 TV 距离量化偏差简洁有效
- 区分 API 偏差和位置偏差的设计很巧妙:cyclic rotation 实验设计精巧地控制了位置变量,使两种偏差可以独立衡量
- "过滤 + 均匀采样"的缓解思路可迁移:将"识别"和"选择"解耦的思想可以推广到其他需要公平选择的 LLM 场景(如推荐系统、内容分发)
- 有偏 CPT 实验定量证明了预训练数据可以"植入"工具偏好,对理解 LLM 预训练偏差的传播机制有启发
局限与展望¶
- 基准规模有限:仅 10 个簇、每簇 5 个 API、100 个合成查询——扩展到真实生产环境的数百个 API 类别时效果可能不同
- 特征解释力不足:线性回归 \(R^2 < 0.4\),说明有大量偏差来自不可解释的因素(可能是预训练中的隐式关联)
- 缓解策略依赖额外 LLM:过滤器本身可能也有偏差(虽然实验显示影响不大),且增加了推理成本
- 仅覆盖英文查询和 RapidAPI:跨语言、跨平台泛化性未验证
- 未分析 RLHF/偏好调优对工具选择偏差的贡献——这可能是重要来源
相关工作与启发¶
- vs Mo et al. (2025) / Faghih et al. (2025):他们关注对抗性攻击(恶意元数据注入)下的工具选择脆弱性,本文关注非对抗性的自然偏差,更具普遍性
- vs 位置偏差研究 (Pezeshkpour, Zheng 等):他们研究 MCQ 中的位置偏差,本文扩展到工具选择场景并提出了同时考虑 API 偏差和位置偏差的综合框架
- vs LLM 公平性研究:现有研究集中在社会偏见和认知偏见,本文开辟了"工具选择偏差"这一新方向
- 这篇论文的偏差度量方法可以用于评估 LLM agent 在其他决策场景中的公平性(如路由选择、模型选择)
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统研究工具选择偏差,问题定义和基准设计有原创性
- 实验充分度: ⭐⭐⭐⭐ 7 个模型、50 万次推理、多维度分析,但基准规模较小
- 写作质量: ⭐⭐⭐⭐ 结构清晰,"发现-解释-缓解"逻辑链完整
- 价值: ⭐⭐⭐⭐ 对 agent 生态公平性有实际意义,缓解策略简单可用