AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts¶
会议: ACL 2026
arXiv: 2601.11044
代码: GitHub
领域: LLM Agent / Benchmark
关键词: 自主智能体, 长程任务, 真实世界基准, 用户模拟, Docker沙箱评估
一句话总结¶
提出AgencyBench——一个包含138个真实世界任务的综合基准,评估6种核心智能体能力,每个场景平均需90次工具调用和100万token,通过用户模拟agent和Docker沙箱实现全自动化评估。
研究背景与动机¶
领域现状:LLM-based自主智能体正在渗透软件开发、科学研究、日常使用等多个领域,但评估基准严重滞后于智能体能力的发展。
现有痛点:(1) 现有基准聚焦单一能力(如工具使用或软件工程),无法捕捉真实世界任务的多维性和长程性;(2) 真实任务评估依赖human-in-the-loop反馈,成为自动化评估的瓶颈;(3) 任务复杂度不够——大多数基准仅需数十次工具调用。
核心矛盾:前沿智能体的能力已远超现有基准的测试范围,亟需更具挑战性的评测。
本文目标:构建高复杂度、多维度、全自动化评估的真实世界智能体基准。
切入角度:由20位人类专家(AI研究者、开发者)收集真实工作场景中的任务,构建层次化的能力-场景-任务体系。
核心 idea:通过用户模拟agent替代人类反馈、Docker沙箱执行可视化评估,实现长程复杂任务的全自动化rollout收集和评分。
方法详解¶
整体框架¶
层次化设计:6种核心能力(游戏开发、前端、后端、代码生成、研究、MCP工具)→ 32个真实场景 → 138个具体任务。每个场景包含1-5个难度递增的顺序任务,前序任务结果影响后续。评估通过workspace-sandbox-evalspace三空间分离确保隔离性。
关键设计¶
-
用户模拟Agent:
- 功能:在多轮交互中替代人类提供迭代反馈
- 核心思路:模拟真实用户行为——当智能体提交中间结果时,模拟agent基于任务描述和rubric提供修改建议和确认
- 设计动机:消除human-in-the-loop瓶颈,使长达数小时的rollout可以全自动完成
-
Docker沙箱评估:
- 功能:对智能体产出的代码/文件进行可视化和功能性评估
- 核心思路:将deliverables同步到Docker容器中,模拟人机操作(UI渲染、鼠标点击、屏幕录制),生成可视化artifacts,再由评估脚本和LLM judge基于rubric打分
- 设计动机:很多真实任务的输出(如游戏、网页)无法仅靠文本评估,需要实际运行和视觉检查
-
层次化任务设计:
- 功能:模拟真实工作流的渐进式复杂度
- 核心思路:每个场景的1-5个任务难度递增,前序完成结果影响后续——如"五子棋游戏"场景从基础棋盘到添加AI对手、回退功能、主题切换等
- 设计动机:真实世界任务从不是一步完成的,这种设计测试了智能体的上下文保持和长程规划能力
损失函数 / 训练策略¶
评估采用基于rubric的0-10分评分,结合规则评估脚本和LLM-based judge。全一致同意策略用于数据质量——4位专家需全部同意任务才能纳入。
实验关键数据¶
主实验¶
| 模型类型 | 平均分 | 最高 | 最低 |
|---|---|---|---|
| 闭源模型 | 48.4% | GPT-5.2 (56.5%) | Grok-4.1-Fast (44.3%) |
| 开源模型 | 32.1% | GLM-4.6 (38.6%) | Qwen-3-235B (27.0%) |
关键行为差异¶
| 模型 | 特点 | 说明 |
|---|---|---|
| GPT-5.2 | 反馈自校正强 | 最善于利用用户反馈改进 |
| Grok-4.1-Fast | Token效率高 | 用更少token完成任务 |
| Claude-4.5-Opus | 偏好Shell工具 | 更多使用命令行操作 |
| Gemini-3-Pro | 偏好文件管理 | 更多使用文件和记忆管理工具 |
关键发现¶
- 闭源模型显著优于开源模型(48.4% vs 32.1%),差距比短任务基准上更大
- "主场优势"效应明显——模型在原生框架(如Claude+Claude-Agent-SDK)中表现最佳
- 当前最强模型也仅达56.5%,说明长程真实世界任务仍是巨大挑战
- 不同模型有明显的工具使用偏好差异,暗示架构和训练数据的影响
亮点与洞察¶
- 任务复杂度远超现有基准——平均90次工具调用和100万token是质的飞跃
- 用户模拟agent和Docker沙箱的组合解决了长程任务自动评估的核心难题
- "主场优势"发现对智能体框架设计有重要启示——通用框架可能不如专用框架
局限与展望¶
- 138个任务可能仍不足以全面覆盖真实世界场景
- 用户模拟agent的质量是评估可靠性的上限
- Docker沙箱的环境配置复杂,可能限制社区采用
- 未来可扩展到更多领域(如数据分析、设计、写作)
相关工作与启发¶
- vs SWE-bench: SWE-bench聚焦软件工程单一能力,AgencyBench覆盖6种能力
- vs GAIA: GAIA平均仅10K token,AgencyBench是100倍复杂度
- vs ToolLLM: ToolLLM关注工具调用正确性,AgencyBench关注端到端任务完成
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 在规模和真实性上显著超越现有基准
- 实验充分度: ⭐⭐⭐⭐ 多模型对比、行为分析、框架对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰,案例丰富
- 价值: ⭐⭐⭐⭐⭐ 为下一代智能体评估设立新标杆