When Agents Look the Same: Quantifying Distillation-Induced Similarity in Tool-Use Behaviors¶

会议: ACL 2026
arXiv: 2604.21255
代码: https://github.com/Syuchin/AgentEcho
领域: LLM Agent
关键词: 模型蒸馏、行为同质化、工具使用、Agent评测、行为相似度

一句话总结¶

本文提出了 RPS 和 AGS 两个互补指标来量化 LLM Agent 在工具使用行为上的蒸馏导致的同质化现象，通过区分必要行为和非必要行为，在 18 个模型上揭示了跨家族行为继承模式，发现 Kimi-K2 与 Claude Sonnet 4.5 的行为相似度甚至超过 Anthropic 自家模型。

研究背景与动机¶

领域现状：当前 LLM Agent 正经历"寒武纪大爆发"，大量高性能 Agent 不断涌现。然而，尽管这些模型来源各异，它们在推理步骤、工具调用习惯甚至失败模式上表现出高度一致的行为，暗示许多模型可能是少数主导教师模型的"蒸馏回声"。

现有痛点：现有的相似度度量方法主要关注静态对话中的响应级别相似性，无法捕捉多步工具使用轨迹的动态特性。更关键的是，这些方法无法区分"必要行为"（任务成功所必需的操作）和"非必要行为"（反映模型自主偏好的操作），导致相似度被任务本身要求的共同正确路径所膨胀。

核心矛盾：不区分必要行为和非必要行为，就无法判断两个模型趋同是因为只有一条正确路径，还是因为一个模型在盲目模仿另一个模型的习惯——这是量化蒸馏影响的根本障碍。

本文目标：设计一套系统框架来隔离非必要行为模式，从语言表达和工具操作两个维度量化 Agent 之间的蒸馏引发的行为同质化。

切入角度：作者观察到很多 Agent 会执行冗余的工具调用（如在答案显而易见时仍逐个尝试所有可用工具），这些非必要的行为选择恰恰是判断模型是否被蒸馏的"行为指纹"。

核心 idea：通过将 Agent 轨迹分解为必要行为和非必要行为，分别用 RPS（语言表达相似度）和 AGS（动作图相似度）两个指标来捕捉不同维度的行为继承信号。

方法详解¶

整体框架¶

框架的输入是一组待检测模型和一个工具使用任务集，目标是量化模型之间被蒸馏"传染"的行为同质化程度。具体做法是先收集每个模型在任务上的完整执行轨迹，再从两个正交维度切入：RPS 关注模型如何用语言表达回复（verbal fingerprint），AGS 关注模型如何选择和组织工具调用（behavioral fingerprint）。分析时以 Claude Sonnet 4.5 (thinking) 作为参考 oracle，计算其余模型与它的相似度，最终输出每个模型在两个维度上的行为继承得分。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["待测模型集 + 工具使用任务集"] --> B["收集各模型完整执行轨迹"]
    B --> R1
    B --> G1
    subgraph RPS["RPS：语义对齐后比语言指纹"]
        direction TB
        R1["阶段标注<br/>对齐到认证/信息获取/执行/验证/通知五阶段"] --> R2["LLM Judge 在共享阶段打分<br/>风格 / 结构 / 对齐，1–5 分取 Overall 均值"]
    end
    subgraph AGS["AGS：剥掉必做工具后比行为指纹"]
        direction TB
        G1["构建动作流图<br/>节点=工具调用，含时序边与依赖边"] --> G2["依赖边 LLM 验证<br/>剔除巧合匹配的假阳性"]
        G2 --> G3["三子维度相似度<br/>S_node 排除 mandatory 工具 / S_seq / S_dep"]
    end
    R2 --> O["以 Claude Sonnet 4.5 为参考<br/>输出各模型两维行为继承得分"]
    G3 --> O

关键设计¶

1. Response Pattern Similarity（RPS）：在语义对齐后的阶段上比语言指纹

直接拿整条轨迹或逐轮去对齐，会把功能上无关的内容也匹配进来，使评分变得不可靠——尤其当不同模型用不同轮次数完成同一任务时。RPS 因此采用两阶段管线：先做 Stage Annotation，把轨迹语义对齐到认证、信息获取、执行、验证、通知这五个规范阶段，保证只比较功能等价的交互片段；再在共享阶段上由 LLM Judge 从风格（Style）、结构（Structure）、对齐（Alignment）三个维度各打 1–5 分，取 Overall 分的均值作为两模型的语言相似度。

2. Action Graph Similarity（AGS）：剥掉"必做"工具后再比行为指纹

工具调用层面最大的陷阱是：任务本身只有一条正确路径时，模型们会因"被迫做对"而显得高度相似，从而虚高分数。AGS 先把对话轨迹建成有向图 \(G=(V, E_s, E_d)\)，节点是工具调用、\(E_s\) 是时序边、\(E_d\) 是依赖边（前一工具的输出被后一工具使用），再从三个子维度度量相似度：\(S_{\text{node}}\) 是可选工具一致率，\(S_{\text{seq}}\) 取写后验证率/写前确认率/错误重试率三维特征向量的余弦相似度，\(S_{\text{dep}}\) 取输出复用率/最长依赖链长度/输出扇出率的余弦相似度。其中真正的关键是 \(S_{\text{node}}\)：它先用交集 \(\mathcal{F}_t^{\text{mandatory}} = \bigcap_{M \in \mathcal{M}_t^*} \text{Tools}(M, t)\) 识别出所有成功模型都必须调用的 mandatory 工具并排除，只在可选工具上算一致性，从而避开因共同正确性带来的分数膨胀（平均膨胀达 12.2pp），把"自主偏好"这部分非必要行为单独暴露出来。

3. 依赖边的 LLM 验证：让依赖图不被巧合污染

依赖边若靠字符串匹配判定会产生大量假阳性——一个日期或 ID 恰好在两处出现，并不代表后者真的消费了前者的输出。为此每条候选依赖边都交给 LLM Judge 做语义有效性验证，判断匹配到的值是否确实来自源工具的输出，还是事先已知的信息（如用户输入）。这一步保证了 \(E_d\) 的准确性，避免噪声边把 \(S_{\text{dep}}\) 等依赖相关指标带偏。

实验关键数据¶

主实验¶

模型	AGS (%)	RPS Overall	\(S_{\text{node}}\) (%)	\(S_{\text{dep}}\) (%)
Claude Opus 4.1 (thinking)	83.0	3.85	81.0	93.7
Kimi-K2 (thinking)	82.7	3.65	82.6	94.7
GPT-4.1	79.5	3.15	75.9	88.0
GPT-5	76.1	2.70	71.3	87.7
DeepSeek-R1	78.6	3.05	78.3	85.0
GLM-4.6	80.3	3.42	80.4	88.7
Qwen3-235B (thinking)	75.9	2.40	68.1	92.4

消融实验¶

配置	AGS toward Teacher	AGS toward Control	说明
Baseline (未蒸馏)	0.59	0.64	原始 Qwen2.5-14B
Distilled (蒸馏后)	0.72 (+0.13)	0.59 (-0.05)	AGS 呈现方向性信号
GED Baseline	0.42	0.39	原始对比
GED Distilled	0.65 (+0.23)	0.59 (+0.20)	GED 无法区分方向

关键发现¶

Within-family 模型对的 AGS 比 cross-family 高 5.9pp，验证了指标能捕捉行为继承
Kimi-K2 (thinking) 的 \(S_{\text{node}}\) 和 \(S_{\text{dep}}\) 均超过 Anthropic 自家的 Opus 4.1，暗示强烈的跨家族行为继承
RPS 和 AGS 的 Pearson 相关系数仅为 0.491，说明两个指标捕捉了独立的行为维度

亮点与洞察¶

将 mandatory/optional 工具的区分引入蒸馏检测是非常巧妙的设计，排除 mandatory 工具后 \(S_{\text{node}}\) 平均降低 12.2pp，说明不做此区分会严重高估跨模型相似度。这一思路可推广到其他 Agent 行为分析场景。
受控蒸馏实验的方向性验证设计精巧：AGS 向教师方向增加（+0.13）而向对照方向减少（-0.05），而 GED 向两个方向都增加（+0.23/+0.20），清晰证明了 AGS 能区分"特定教师导向的趋同"与"通用能力提升"。
案例分析中发现 Kimi-K2 和 Claude 共享"热情肯定语气"（如 "Excellent!", "Perfect!"）和冗余验证偏好（先调用 find_user_id_by_email 再继续），而 GPT-5 风格完全不同，这些细粒度的行为指纹非常有说服力。

局限与展望¶

仅以 Claude Sonnet 4.5 (thinking) 为参考模型报告结果，完整的 18 模型两两比较需要 153 次对比，计算成本较高
评测仅覆盖 τ-Bench 和 τ²-Bench 的三个英语客服领域，对其他领域、任务类型和语言的泛化性有待验证
RPS 依赖于特定领域的阶段分类法，推广到代码生成或多 Agent 协作等非工具使用范式需要进一步方法论工作

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出区分必要/非必要行为的工具使用蒸馏检测框架，切入点非常独特
实验充分度: ⭐⭐⭐⭐ 覆盖 8 个提供商 18 个模型，受控实验设计严谨，但仅限英语客服领域
写作质量: ⭐⭐⭐⭐⭐ 论文结构清晰，案例分析生动，从直觉到量化的论证链条完整
综合推荐: ⭐⭐⭐⭐⭐ 对理解当前 LLM 生态中的行为同质化现象具有重要价值