AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts¶

会议: ACL 2026
arXiv: 2601.11044
代码: GitHub
领域: LLM Agent / Benchmark
关键词: 自主智能体, 长程任务, 真实世界基准, 用户模拟, Docker沙箱评估

一句话总结¶

提出AgencyBench——一个包含138个真实世界任务的综合基准，评估6种核心智能体能力，每个场景平均需90次工具调用和100万token，通过用户模拟agent和Docker沙箱实现全自动化评估。

领域现状：LLM-based自主智能体正在渗透软件开发、科学研究、日常使用等多个领域，但评估基准严重滞后于智能体能力的发展。

现有痛点：(1) 现有基准聚焦单一能力（如工具使用或软件工程），无法捕捉真实世界任务的多维性和长程性；(2) 真实任务评估依赖human-in-the-loop反馈，成为自动化评估的瓶颈；(3) 任务复杂度不够——大多数基准仅需数十次工具调用。

核心矛盾：前沿智能体的能力已远超现有基准的测试范围，亟需更具挑战性的评测。

本文目标：构建高复杂度、多维度、全自动化评估的真实世界智能体基准。

切入角度：由20位人类专家（AI研究者、开发者）收集真实工作场景中的任务，构建层次化的能力-场景-任务体系。

核心 idea：通过用户模拟agent替代人类反馈、Docker沙箱执行可视化评估，实现长程复杂任务的全自动化rollout收集和评分。

层次化设计：6种核心能力（游戏开发、前端、后端、代码生成、研究、MCP工具）→ 32个真实场景 → 138个具体任务。每个场景包含1-5个难度递增的顺序任务，前序任务结果影响后续。评估通过workspace-sandbox-evalspace三空间分离确保隔离性。

用户模拟Agent:
- 功能：在多轮交互中替代人类提供迭代反馈
- 核心思路：模拟真实用户行为——当智能体提交中间结果时，模拟agent基于任务描述和rubric提供修改建议和确认
- 设计动机：消除human-in-the-loop瓶颈，使长达数小时的rollout可以全自动完成
Docker沙箱评估:
- 功能：对智能体产出的代码/文件进行可视化和功能性评估
- 核心思路：将deliverables同步到Docker容器中，模拟人机操作（UI渲染、鼠标点击、屏幕录制），生成可视化artifacts，再由评估脚本和LLM judge基于rubric打分
- 设计动机：很多真实任务的输出（如游戏、网页）无法仅靠文本评估，需要实际运行和视觉检查
层次化任务设计:
- 功能：模拟真实工作流的渐进式复杂度
- 核心思路：每个场景的1-5个任务难度递增，前序完成结果影响后续——如"五子棋游戏"场景从基础棋盘到添加AI对手、回退功能、主题切换等
- 设计动机：真实世界任务从不是一步完成的，这种设计测试了智能体的上下文保持和长程规划能力

评估采用基于rubric的0-10分评分，结合规则评估脚本和LLM-based judge。全一致同意策略用于数据质量——4位专家需全部同意任务才能纳入。

模型类型	平均分	最高	最低
闭源模型	48.4%	GPT-5.2 (56.5%)	Grok-4.1-Fast (44.3%)
开源模型	32.1%	GLM-4.6 (38.6%)	Qwen-3-235B (27.0%)