Do LLMs Know Tool Irrelevance? Demystifying Structural Alignment Bias in Tool Invocations¶
会议: ACL 2026
arXiv: 2604.11322
代码: GitHub
领域: 可解释性
关键词: 工具调用, 结构对齐偏差, 不相关工具拒绝, 可解释性, 注意力归因
一句话总结¶
发现并形式化了 LLM 工具调用中的"结构对齐偏差"——当查询属性可以有效映射到工具参数时(即使工具功能与用户目标无关),LLM 仍倾向调用该工具。构建 SABEval 数据集解耦结构对齐和语义相关性,用对比注意力归因揭示内部存在语义检查和结构匹配两条竞争路径,提出再平衡策略实现 80% 的相对错误减少。
研究背景与动机¶
领域现状:LLM 使用外部工具的能力已成为关键能力,但在实际场景中模型经常面对与用户查询无关的工具——此时正确行为是拒绝调用。
现有痛点:(1) LLM 存在一个被忽视的系统性缺陷:即使工具功能与用户目标不匹配(语义不相关),只要查询中的属性可以有效填入工具参数(结构对齐),模型就倾向调用该工具;(2) 现有评测通过随机配对查询和工具来构造不相关场景,但这种构造通常同时引入结构不对齐,混淆了评估结果——模型可能只是因为参数填不上才拒绝,而非真的理解语义不相关性。
核心矛盾:LLM 是否真的理解"语义相关性"是工具调用的必要条件,还是仅仅依赖"结构对齐"作为捷径来决策?
本文目标:(1) 识别和形式化结构对齐偏差;(2) 构建数据集解耦两个因素;(3) 揭示内部机制;(4) 提出缓解方法。
切入角度:借鉴面向对象编程中的多态原则——不同服务可以共享统一接口(即结构对齐但语义不同),构造真实场景的评估数据。
核心 idea:结构对齐偏差 = LLM 将"参数能填上"当作"工具该调用"的系统性捷径。通过揭示内部存在的两条竞争信息流(语义检查 vs 结构匹配),提出路径再平衡来缓解偏差。
方法详解¶
整体框架¶
问题识别 → SABEval 数据集构建(解耦结构对齐和语义相关性)→ 行为分析(量化偏差严重程度)→ 对比注意力归因(揭示内部机制)→ 路径再平衡(缓解偏差)。
关键设计¶
-
SABEval 数据集(基于多态原则):
- 功能:严格隔离"结构对齐但语义不相关"的场景
- 核心思路:三步构建:(1) 层次化工具构建——从工具模板派生共享相同参数接口的兄弟工具(如"任天堂游戏查询"和"PlayStation 游戏查询"共享 game_title + region 参数);(2) 为每个工具生成查询;(3) 兄弟配对——将查询与其兄弟工具配对,确保结构对齐但语义不相关。101 个工具模板,每工具 5 查询,10 兄弟组合,共 5050 样本。无任何有效工具可用——任何调用都是错误
- 设计动机:现有数据集随机配对导致结构也不对齐,无法区分模型是因为"语义不相关"还是"参数填不上"而拒绝
-
对比注意力归因(CAA):
- 功能:揭示模型内部做工具调用决策时的信息流
- 核心思路:追踪从工具调用 token 到输入 token 的注意力归因,发现两条竞争路径:(1) 语义检查路径——关注工具功能描述和查询目标之间的语义一致性;(2) 结构匹配路径——关注查询属性和工具参数之间的结构映射关系。两条路径的相对强度决定了最终的调用决策
- 设计动机:传统反事实分析要求严格的 token 级对应,但工具调用场景中工具描述和查询长度不同。CAA 绕开了这个限制
-
路径再平衡策略:
- 功能:在不损害正常工具使用能力的前提下缓解结构对齐偏差
- 核心思路:基于 CAA 识别出的两条路径,增强语义检查路径的相对强度(或抑制结构匹配路径的影响),实现 80% 的相对错误减少
- 设计动机:不需要重训练模型,精确干预发现的竞争机制
实验关键数据¶
主实验(5 个工具增强 LLM)¶
| 模型 | 随机配对 TIR↓ | SABEval TIR↓ | Δ |
|---|---|---|---|
| Qwen3-4B | 0.16% | 40.04% | +39.88 |
| Qwen3-8B | 0.04% | 34.26% | +34.22 |
| Qwen3-14B | ~0.1% | ~35% | ~+35 |
| ToolACE-2.5-8B | ~0.1% | ~42% | ~+42 |
| Watt-Tool-8B | ~0.2% | ~45% | ~+45 |
结构对齐程度实验¶
| 结构对齐程度 | 错误调用率 |
|---|---|
| 无对齐(随机配对) | <0.2% |
| 基础对齐(SABEval D0) | 41.9% |
| 更强对齐(+4 参数) | 90.4% |
关键发现¶
- 结构对齐偏差非常严重:在结构不对齐时错误率 <0.2%,结构对齐时飙升到 41.9%,更强对齐时达 90.4%
- 所有 5 个主流工具增强 LLM 都受影响,说明这是一个系统性问题
- 反事实分析确认因果关系:结构对齐与错误调用之间存在强因果联系
- CAA 成功识别了两条竞争路径:语义检查路径和结构匹配路径
- 路径再平衡实现 80% 相对错误减少且不损害正常工具使用能力
亮点与洞察¶
- "结构对齐偏差"的发现和形式化是本文最大贡献——揭示了一个普遍但被忽视的安全风险,对工具增强 LLM 的部署有直接警示
- SABEval 的构造方法论(基于面向对象多态原则)非常巧妙——从软件工程借鉴设计真实场景的评估数据
- 从行为分析到内部机制再到缓解的完整链条展示了可解释性驱动的安全改进范式
局限与展望¶
- SABEval 的构造依赖 GPT-4o 生成附加参数,可能引入偏差
- 路径再平衡的效果可能因模型架构而异
- 仅在 5 个模型上验证,更大规模模型(70B+)的表现未知
- 未考虑多工具选择场景(当前是单工具判断)
- 偏差的根源可能在预训练数据中——大量工具调用示例都是正例
相关工作与启发¶
- vs Patil et al. (2025) / 现有评测: 现有评测混淆了结构对齐和语义相关性,本文首次解耦
- vs 工具选择研究: 工具选择关注"选哪个工具",本文关注"该不该调用任何工具"
- vs 注意力归因方法: 传统方法需要反事实对的 token 级对应,CAA 放松了这一限制
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 问题识别+形式化+数据集+机制分析+缓解,全链条创新
- 实验充分度: ⭐⭐⭐⭐⭐ 5 模型+因果分析+程度实验+再平衡验证
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,实验设计严谨
- 价值: ⭐⭐⭐⭐⭐ 对工具增强 LLM 的安全部署有直接指导意义