跳转至

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

会议: ICLR 2026
arXiv: 2506.14205
代码: https://github.com/sunblaze-ucb/AgentSynth
领域: LLM Agent
关键词: 合成数据生成, 计算机使用代理, 信息不对称, 任务链式组合, 长程任务基准

一句话总结

提出AgentSynth pipeline,利用信息不对称原理(正向逐步生成简单、反向整体求解困难)将简单子任务链式组合为复杂长程计算机使用任务,自动生成6000+多样化任务和轨迹,每条轨迹仅需$0.60,SOTA Agent在最高难度下成功率仅4%。

研究背景与动机

领域现状:LLM agent在计算机使用任务(web导航、桌面操作)领域快速发展,但高质量训练和评估数据严重依赖人工标注。

现有痛点:(a) 人工标注代价巨大(如TheAgentCompany每个任务需17小时/$34-425);(b) 人工标注的多样性有限,难以覆盖真实计算机使用场景的全部复杂性;(c) 合成数据pipeline面临两个核心挑战——当前LLM agent无法可靠完成复杂任务的轨迹生成,以及简单生成策略的多样性不足。

核心矛盾:高质量的agent数据需要复杂+多样的任务,但LLM agent只能可靠完成简单任务——如何调和这一矛盾?

本文目标:设计一个低成本、高多样性的全自动pipeline,生成真实、可控难度的计算机使用任务和对应轨迹。

切入角度:利用信息不对称——正向逐步解决(每步只需完成一个简单子任务)远比从零推理整个解决方案容易。所以让agent正向生成子任务并收集轨迹,再用summarizer合并为一个高层级复合任务。

核心 idea:将复杂任务分解为简单子任务序列进行正向生成,再反向合并为看似一体的长程任务——生成容易、求解困难。

方法详解

整体框架

AgentSynth运行在OSWorld虚拟桌面环境中,由6个LLM-based agent协作:Task Proposer(初始任务)→ Task Executor(执行)→ Task Verifier(验证)→ Task Reviser(失败时修正)→ Follow-up Task Proposer(后续子任务)→ Task Summarizer(合并为高层任务)。通过迭代生成n个子任务后,summarizer将前1到n个子任务分别汇总,自然形成难度1到n的任务变体。

关键设计

  1. 信息不对称驱动的任务构建

    • 功能:利用"正向逐步简单、反向整体困难"的不对称性构建挑战性任务
    • 核心思路:每个子任务是在当前桌面状态下的简单操作(几个原子动作即可完成),agent可以可靠执行并收集轨迹。但将多个子任务合并后的高层任务描述中不包含中间步骤信息,测试时的agent需要从零推理整个解决路径
    • 设计动机:解决"agent无法可靠完成复杂任务"和"数据需要复杂任务"之间的矛盾——生成端用简单任务保证轨迹质量,评估端用合并后的复合任务保证挑战性
  2. 六智能体协作Pipeline

    • 功能:端到端自动化任务生成-执行-验证-迭代
    • 核心思路:
      • Task Proposer: 基于随机persona和桌面截图生成初始任务
      • Task Executor: GPT-4.1做规划 + computer-use-preview做精确坐标操作(两阶段架构分离高层推理和底层操作)
      • Task Verifier: WebJudge-style架构,从任务描述提取关键需求→从截图序列选关键帧→判定成功/失败和完成百分比
      • Task Reviser: 部分完成时修正任务描述使其匹配实际完成的内容
      • Follow-up Proposer: 基于历史子任务和当前截图生成逻辑连续的下一个子任务
      • Task Summarizer: 将子任务序列抽象为单一高层任务描述,变换子任务数量控制难度
    • 设计动机:Executor的两阶段设计(GPT-4.1规划+computer-use模型执行)在高层推理和底层操作上各取所长
  3. 可控任务难度

    • 功能:通过变化合并的子任务数量(1到6),生成不同难度级别的任务
    • 核心思路:Level k对应合并前k个子任务。Level 1平均5步/1.2应用/2步记忆跨度;Level 6平均45步/3.3应用/18步记忆跨度/4.3次应用切换
    • 设计动机:现有benchmark缺乏系统性的难度控制,无法精确定位agent的能力边界

安全措施

  • 禁止涉及登录凭据和邮件发送等操作
  • 所有任务在虚拟机中执行

实验关键数据

主实验

在生成的benchmark上评估多种SOTA agent(成功率%):

Agent模型 Level 1 Level 2 Level 3 Level 4 Level 5 Level 6
SOTA Range ~18% ~14% ~10% ~8% ~6% ~4%

从Level 1到Level 6,成功率从18%骤降至4%,展示了benchmark的区分力和挑战性。

质量评估(人工100样本)

质量指标 通过率
可行性和现实性 91%
子任务连贯性 90%
Persona相关性 94%
验证器准确率 88%

成本对比

框架 典型步骤数 每任务人工时 每任务成本
τ-bench 20-30 2h $4-50
OSWorld 10-15 4.4h $8.8-110
TheAgentCompany 30-40 17h $34-425
AgentSynth 40-60 N/A $0.60

关键发现

  • 信息不对称原理的有效性:同样的子任务序列,正向生成成功率高(子任务验证通过),但合并后反向求解成功率极低(Level 6仅4%)
  • 60%+轨迹涉及2+个应用,40%+涉及3+个应用——真实反映了跨应用协调的复杂性
  • Verifier的对抗测试表现良好:near-miss误接受率仅12%,benign正确接受率94%
  • 任务多样性覆盖办公、信息检索、娱乐、编程、研究等多个领域

亮点与洞察

  • 信息不对称作为合成数据的核心设计原则非常巧妙:从认知心理学角度,"顺序执行"和"从零规划"确实是两种截然不同的认知负荷——本文将这一直觉系统化为数据生成方法论
  • $0.60 vs $34-425的成本对比触目惊心,真正实现了agent数据的可规模化生产
  • 难度可控的设计使其不仅是benchmark,更是训练数据source——可以按需生成特定难度的数据进行curriculum learning
  • GPT-4.1 planner + computer-use executor 的两阶段执行器设计值得借鉴

局限与展望

  • 当前任务生成依赖GPT-4.1,不同模型可能产生系统性偏差(复杂度、现实性)——作者承认这是open question
  • 验证器仍有12%的near-miss误接受率,对于训练数据这可能引入噪声
  • 仅在OSWorld(Ubuntu桌面)验证,Windows/macOS场景的迁移性未知
  • 子任务之间的逻辑连贯性由LLM保证,可能出现不自然的任务组合
  • 缺乏用生成数据训练agent后的下游性能评估——pipeline的最终价值需要通过训练效果验证

相关工作与启发

  • vs OS-Genesis/Learn-by-interact: 它们是"执行轨迹后追溯定义任务",AgentSynth是"先定义子任务再组合为复合任务",后者对任务质量控制更强
  • vs Evol-Instruct: 只生成最终指令的轨迹,无子任务链组合机制
  • vs WorkArena compositional: 用预定义的原子任务组合,AgentSynth的子任务由LLM动态生成,多样性更高
  • vs 人工benchmark(OSWorld/TheAgentCompany): 质量相当但成本低50-700倍

评分

  • 新颖性: ⭐⭐⭐⭐ 信息不对称原理在agent数据合成中的应用是核心创新,六智能体pipeline设计思路清晰
  • 实验充分度: ⭐⭐⭐⭐ 人工质量验证+对抗测试+成本对比+难度梯度分析都很扎实,但缺乏训练效果评估
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,pipeline每个组件解释详尽,图表信息量大
  • 价值: ⭐⭐⭐⭐⭐ 对agent社区有基础设施级贡献——真正可规模化的高质量数据生成方案