跳转至

Talk, Evaluate, Diagnose: User-aware Agent Evaluation with Automated Error Analysis

会议: ICLR 2026
arXiv: 2603.15483
代码: GitHub
领域: LLM评测
关键词: Agent评估, 用户感知, LLM-as-judge, 错误分析, 效率指标

一句话总结

提出TED(Talk, Evaluate, Diagnose)框架,通过通用可复用的expert/non-expert persona模板实现用户感知的动态Agent评估、grading notes+LLM-as-judge+MaxProgressRate@k等新指标进行细粒度效率评估、自动化错误发现和聚类提供可操作的改进反馈,在τ²-bench和ToolSandbox上揭示新的Agent性能洞察。

研究背景与动机

  • 领域现状:LLM Agent日益用于自动化各种工作流,但评估框架碎片化——每个领域用独立方法(数据库查询、正则匹配等)判定成功。
  • 现有痛点:(1) 缺乏跨领域统一评估方法;(2) 不系统考虑用户角色对Agent表现的影响;(3) 评估止步于metrics报告,缺乏诊断和可操作的改进建议。
  • 核心矛盾:Agent行为受用户交互影响巨大 vs 评估时用户角色不被控制。
  • 本文目标:构建统一的、用户感知的、可诊断的Agent评估框架。
  • 切入角度:Talk(用户模拟)+Evaluate(评估)+Diagnose(诊断)三阶段统一。
  • 核心 idea:有效的Agent评估不仅需要正确性,还需要对话质量、效率和系统性的错误诊断。

方法详解

整体框架

Talk→用可复用persona模板模拟expert/non-expert用户与Agent交互。Evaluate→将子目标转为grading notes、LLM-as-judge评分、MaxProgressRate@k等指标。Diagnose→分析judge和agent的不一致性、自动发现和聚类错误模式。

关键设计

设计1:通用可复用Persona模板 - 功能:解耦用户persona和任务指令,提供与任务/Agent无关的通用expert/non-expert模板。 - 核心思路\(u = f(p, i)\),persona prompt \(p\)和task instruction \(i\)组合。同一任务改变persona即可测试用户影响。包含反思+回应两步过程。 - 设计动机:现有方法persona与任务紧耦合,无法隔离用户行为的独立影响。

设计2:Grading Notes + 效率指标 - 功能:将所有子目标(工具调用、响应内容等)统一为自然语言检查项;提出MaxProgressRate@k、MaxAUC@k、MaxPPT@k等指标。 - 核心思路:progress(i) = 已达成grading notes占比;MaxProgressRate@k取k次试验中最高progress的期望。AUC评估早期进展效率,PPT评估每轮进展率。 - 设计动机:success rate太粗粒度;需要捕捉部分进展和对话轮次效率。

设计3:自动化错误发现 - 功能:两步错误分析——低级错误识别+语义聚类。 - 核心思路:对judge不一致的子目标,用LLM提取具体错误描述(low-level);再对所有低级错误做语义聚类得到高级错误类别。分析judge方差和agent方差分别反映judge不可靠性和agent不稳定性。 - 设计动机:报告metrics→发现错误→提供改进建议的闭环。

损失函数/训练策略

无训练,评估框架。LLM-as-judge多次运行取majority vote。gpt-4.1作为judge和user proxy。

实验关键数据

主实验

τ²-bench Airline Easy(Expert | Non-expert)

Agent模型 MeanProg@k MaxProg@k pass@k
gpt-4.1 0.95 | 0.82 1.00 | 1.00 1.00 | 1.00
gpt-4o 0.79 | 0.86 1.00 | 1.00 1.00 | 1.00
gpt-4o-mini 0.70 | 0.61 0.90 | 0.90 0.80 | 0.80
gpt-5 0.92 | 0.92 1.00 | 1.00 1.00 | 1.00

消融实验

发现 说明
Expert vs Non-expert Non-expert用户系统性降低Agent的MeanProg(多数模型)
错误修复后性能提升 8-10%的MaxProgressRate提升
Judge方差分析 高方差子目标多为模糊描述的grading notes

关键发现

  1. 用户专业度系统性地影响Agent性能——Non-expert用户导致更多轮次和更低平均进展。
  2. MaxProgressRate@k比pass@k提供更细粒度的评估,区分"几乎成功"和"完全失败"。
  3. 自动错误分析发现的常见错误模式可直接用于改进Agent提示词,带来8-10%提升。
  4. gpt-5在某些baseline上反而不如gpt-4o(ToolSandbox),说明模型升级不等于Agent能力提升。

亮点与洞察

  1. Talk-Evaluate-Diagnose三阶段闭环设计完整且实用。
  2. Persona解耦的idea简洁但影响深远——隔离用户因素是公平评估的前提。
  3. 从评估到诊断到改进的完整闭环,不止于"报告分数"。

局限与展望

  1. Grading notes的构建仍需人工,自动化程度有限。
  2. 仅两种persona(expert/non-expert),更细粒度的用户建模未探索。
  3. Judge本身的可靠性是系统性风险,需要更多验证。

相关工作与启发

  • AgentBoard首次引入进度率但在环境交互设定中,TED扩展到多轮对话。
  • τ²-bench有domain-specific persona但不通用,TED实现了通用化。
  • 启发:Agent评估应成为工程闭环的一部分,而非独立的学术练习。

评分

维度 评分
创新性 ★★★★☆
实用性 ★★★★★
实验充分性 ★★★★☆
写作清晰度 ★★★★★