AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents¶
会议: ICLR 2026
arXiv: 2506.14205
代码: https://github.com/sunblaze-ucb/AgentSynth
领域: LLM Agent
关键词: 合成数据生成, 计算机使用代理, 信息不对称, 任务链式组合, 长程任务基准
一句话总结¶
提出AgentSynth pipeline,利用信息不对称原理(正向逐步生成简单、反向整体求解困难)将简单子任务链式组合为复杂长程计算机使用任务,自动生成6000+多样化任务和轨迹,每条轨迹仅需$0.60,SOTA Agent在最高难度下成功率仅4%。
研究背景与动机¶
领域现状:LLM agent在计算机使用任务(web导航、桌面操作)领域快速发展,但高质量训练和评估数据严重依赖人工标注。
现有痛点:(a) 人工标注代价巨大(如TheAgentCompany每个任务需17小时/$34-425);(b) 人工标注的多样性有限,难以覆盖真实计算机使用场景的全部复杂性;(c) 合成数据pipeline面临两个核心挑战——当前LLM agent无法可靠完成复杂任务的轨迹生成,以及简单生成策略的多样性不足。
核心矛盾:高质量的agent数据需要复杂+多样的任务,但LLM agent只能可靠完成简单任务——如何调和这一矛盾?
本文目标:设计一个低成本、高多样性的全自动pipeline,生成真实、可控难度的计算机使用任务和对应轨迹。
切入角度:利用信息不对称——正向逐步解决(每步只需完成一个简单子任务)远比从零推理整个解决方案容易。所以让agent正向生成子任务并收集轨迹,再用summarizer合并为一个高层级复合任务。
核心 idea:将复杂任务分解为简单子任务序列进行正向生成,再反向合并为看似一体的长程任务——生成容易、求解困难。
方法详解¶
整体框架¶
AgentSynth运行在OSWorld虚拟桌面环境中,由6个LLM-based agent协作:Task Proposer(初始任务)→ Task Executor(执行)→ Task Verifier(验证)→ Task Reviser(失败时修正)→ Follow-up Task Proposer(后续子任务)→ Task Summarizer(合并为高层任务)。通过迭代生成n个子任务后,summarizer将前1到n个子任务分别汇总,自然形成难度1到n的任务变体。
关键设计¶
-
信息不对称驱动的任务构建
- 功能:利用"正向逐步简单、反向整体困难"的不对称性构建挑战性任务
- 核心思路:每个子任务是在当前桌面状态下的简单操作(几个原子动作即可完成),agent可以可靠执行并收集轨迹。但将多个子任务合并后的高层任务描述中不包含中间步骤信息,测试时的agent需要从零推理整个解决路径
- 设计动机:解决"agent无法可靠完成复杂任务"和"数据需要复杂任务"之间的矛盾——生成端用简单任务保证轨迹质量,评估端用合并后的复合任务保证挑战性
-
六智能体协作Pipeline
- 功能:端到端自动化任务生成-执行-验证-迭代
- 核心思路:
- Task Proposer: 基于随机persona和桌面截图生成初始任务
- Task Executor: GPT-4.1做规划 + computer-use-preview做精确坐标操作(两阶段架构分离高层推理和底层操作)
- Task Verifier: WebJudge-style架构,从任务描述提取关键需求→从截图序列选关键帧→判定成功/失败和完成百分比
- Task Reviser: 部分完成时修正任务描述使其匹配实际完成的内容
- Follow-up Proposer: 基于历史子任务和当前截图生成逻辑连续的下一个子任务
- Task Summarizer: 将子任务序列抽象为单一高层任务描述,变换子任务数量控制难度
- 设计动机:Executor的两阶段设计(GPT-4.1规划+computer-use模型执行)在高层推理和底层操作上各取所长
-
可控任务难度
- 功能:通过变化合并的子任务数量(1到6),生成不同难度级别的任务
- 核心思路:Level k对应合并前k个子任务。Level 1平均5步/1.2应用/2步记忆跨度;Level 6平均45步/3.3应用/18步记忆跨度/4.3次应用切换
- 设计动机:现有benchmark缺乏系统性的难度控制,无法精确定位agent的能力边界
安全措施¶
- 禁止涉及登录凭据和邮件发送等操作
- 所有任务在虚拟机中执行
实验关键数据¶
主实验¶
在生成的benchmark上评估多种SOTA agent(成功率%):
| Agent模型 | Level 1 | Level 2 | Level 3 | Level 4 | Level 5 | Level 6 |
|---|---|---|---|---|---|---|
| SOTA Range | ~18% | ~14% | ~10% | ~8% | ~6% | ~4% |
从Level 1到Level 6,成功率从18%骤降至4%,展示了benchmark的区分力和挑战性。
质量评估(人工100样本)¶
| 质量指标 | 通过率 |
|---|---|
| 可行性和现实性 | 91% |
| 子任务连贯性 | 90% |
| Persona相关性 | 94% |
| 验证器准确率 | 88% |
成本对比¶
| 框架 | 典型步骤数 | 每任务人工时 | 每任务成本 |
|---|---|---|---|
| τ-bench | 20-30 | 2h | $4-50 |
| OSWorld | 10-15 | 4.4h | $8.8-110 |
| TheAgentCompany | 30-40 | 17h | $34-425 |
| AgentSynth | 40-60 | N/A | $0.60 |
关键发现¶
- 信息不对称原理的有效性:同样的子任务序列,正向生成成功率高(子任务验证通过),但合并后反向求解成功率极低(Level 6仅4%)
- 60%+轨迹涉及2+个应用,40%+涉及3+个应用——真实反映了跨应用协调的复杂性
- Verifier的对抗测试表现良好:near-miss误接受率仅12%,benign正确接受率94%
- 任务多样性覆盖办公、信息检索、娱乐、编程、研究等多个领域
亮点与洞察¶
- 信息不对称作为合成数据的核心设计原则非常巧妙:从认知心理学角度,"顺序执行"和"从零规划"确实是两种截然不同的认知负荷——本文将这一直觉系统化为数据生成方法论
- $0.60 vs $34-425的成本对比触目惊心,真正实现了agent数据的可规模化生产
- 难度可控的设计使其不仅是benchmark,更是训练数据source——可以按需生成特定难度的数据进行curriculum learning
- GPT-4.1 planner + computer-use executor 的两阶段执行器设计值得借鉴
局限与展望¶
- 当前任务生成依赖GPT-4.1,不同模型可能产生系统性偏差(复杂度、现实性)——作者承认这是open question
- 验证器仍有12%的near-miss误接受率,对于训练数据这可能引入噪声
- 仅在OSWorld(Ubuntu桌面)验证,Windows/macOS场景的迁移性未知
- 子任务之间的逻辑连贯性由LLM保证,可能出现不自然的任务组合
- 缺乏用生成数据训练agent后的下游性能评估——pipeline的最终价值需要通过训练效果验证
相关工作与启发¶
- vs OS-Genesis/Learn-by-interact: 它们是"执行轨迹后追溯定义任务",AgentSynth是"先定义子任务再组合为复合任务",后者对任务质量控制更强
- vs Evol-Instruct: 只生成最终指令的轨迹,无子任务链组合机制
- vs WorkArena compositional: 用预定义的原子任务组合,AgentSynth的子任务由LLM动态生成,多样性更高
- vs 人工benchmark(OSWorld/TheAgentCompany): 质量相当但成本低50-700倍
评分¶
- 新颖性: ⭐⭐⭐⭐ 信息不对称原理在agent数据合成中的应用是核心创新,六智能体pipeline设计思路清晰
- 实验充分度: ⭐⭐⭐⭐ 人工质量验证+对抗测试+成本对比+难度梯度分析都很扎实,但缺乏训练效果评估
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,pipeline每个组件解释详尽,图表信息量大
- 价值: ⭐⭐⭐⭐⭐ 对agent社区有基础设施级贡献——真正可规模化的高质量数据生成方案