AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents¶

会议: ICLR 2026
arXiv: 2506.14205
代码: https://github.com/sunblaze-ucb/AgentSynth
领域: LLM Agent
关键词: 合成数据生成, 计算机使用代理, 信息不对称, 任务链式组合, 长程任务基准

一句话总结¶

提出AgentSynth pipeline，利用信息不对称原理（正向逐步生成简单、反向整体求解困难）将简单子任务链式组合为复杂长程计算机使用任务，自动生成6000+多样化任务和轨迹，每条轨迹仅需$0.60，SOTA Agent在最高难度下成功率仅4%。

研究背景与动机¶

领域现状：LLM agent在计算机使用任务（web导航、桌面操作）领域快速发展，但高质量训练和评估数据严重依赖人工标注。

现有痛点：(a) 人工标注代价巨大（如TheAgentCompany每个任务需17小时/$34-425）；(b) 人工标注的多样性有限，难以覆盖真实计算机使用场景的全部复杂性；(c) 合成数据pipeline面临两个核心挑战——当前LLM agent无法可靠完成复杂任务的轨迹生成，以及简单生成策略的多样性不足。

核心矛盾：高质量的agent数据需要复杂+多样的任务，但LLM agent只能可靠完成简单任务——如何调和这一矛盾？

本文目标：设计一个低成本、高多样性的全自动pipeline，生成真实、可控难度的计算机使用任务和对应轨迹。

切入角度：利用信息不对称——正向逐步解决（每步只需完成一个简单子任务）远比从零推理整个解决方案容易。所以让agent正向生成子任务并收集轨迹，再用summarizer合并为一个高层级复合任务。

核心 idea：将复杂任务分解为简单子任务序列进行正向生成，再反向合并为看似一体的长程任务——生成容易、求解困难。

方法详解¶

整体框架¶

AgentSynth运行在OSWorld虚拟桌面环境中，由6个LLM-based agent协作：Task Proposer（初始任务）→ Task Executor（执行）→ Task Verifier（验证）→ Task Reviser（失败时修正）→ Follow-up Task Proposer（后续子任务）→ Task Summarizer（合并为高层任务）。通过迭代生成n个子任务后，summarizer将前1到n个子任务分别汇总，自然形成难度1到n的任务变体。

关键设计¶

信息不对称驱动的任务构建
- 功能：利用"正向逐步简单、反向整体困难"的不对称性构建挑战性任务
- 核心思路：每个子任务是在当前桌面状态下的简单操作（几个原子动作即可完成），agent可以可靠执行并收集轨迹。但将多个子任务合并后的高层任务描述中不包含中间步骤信息，测试时的agent需要从零推理整个解决路径
- 设计动机：解决"agent无法可靠完成复杂任务"和"数据需要复杂任务"之间的矛盾——生成端用简单任务保证轨迹质量，评估端用合并后的复合任务保证挑战性
六智能体协作Pipeline
- 功能：端到端自动化任务生成-执行-验证-迭代
- 核心思路：
  - Task Proposer: 基于随机persona和桌面截图生成初始任务
  - Task Executor: GPT-4.1做规划 + computer-use-preview做精确坐标操作（两阶段架构分离高层推理和底层操作）
  - Task Verifier: WebJudge-style架构，从任务描述提取关键需求→从截图序列选关键帧→判定成功/失败和完成百分比
  - Task Reviser: 部分完成时修正任务描述使其匹配实际完成的内容
  - Follow-up Proposer: 基于历史子任务和当前截图生成逻辑连续的下一个子任务
  - Task Summarizer: 将子任务序列抽象为单一高层任务描述，变换子任务数量控制难度
- 设计动机：Executor的两阶段设计（GPT-4.1规划+computer-use模型执行）在高层推理和底层操作上各取所长
可控任务难度
- 功能：通过变化合并的子任务数量（1到6），生成不同难度级别的任务
- 核心思路：Level k对应合并前k个子任务。Level 1平均5步/1.2应用/2步记忆跨度；Level 6平均45步/3.3应用/18步记忆跨度/4.3次应用切换
- 设计动机：现有benchmark缺乏系统性的难度控制，无法精确定位agent的能力边界

安全措施¶

禁止涉及登录凭据和邮件发送等操作
所有任务在虚拟机中执行

实验关键数据¶

主实验¶

在生成的benchmark上评估多种SOTA agent（成功率%）：

Agent模型	Level 1	Level 2	Level 3	Level 4	Level 5	Level 6
SOTA Range	~18%	~14%	~10%	~8%	~6%	~4%

从Level 1到Level 6，成功率从18%骤降至4%，展示了benchmark的区分力和挑战性。

质量评估（人工100样本）¶

质量指标	通过率
可行性和现实性	91%
子任务连贯性	90%
Persona相关性	94%
验证器准确率	88%

成本对比¶

框架	典型步骤数	每任务人工时	每任务成本
τ-bench	20-30	2h	$4-50
OSWorld	10-15	4.4h	$8.8-110
TheAgentCompany	30-40	17h	$34-425
AgentSynth	40-60	N/A	$0.60

关键发现¶

信息不对称原理的有效性：同样的子任务序列，正向生成成功率高（子任务验证通过），但合并后反向求解成功率极低（Level 6仅4%）
60%+轨迹涉及2+个应用，40%+涉及3+个应用——真实反映了跨应用协调的复杂性
Verifier的对抗测试表现良好：near-miss误接受率仅12%，benign正确接受率94%
任务多样性覆盖办公、信息检索、娱乐、编程、研究等多个领域

亮点与洞察¶

信息不对称作为合成数据的核心设计原则非常巧妙：从认知心理学角度，"顺序执行"和"从零规划"确实是两种截然不同的认知负荷——本文将这一直觉系统化为数据生成方法论
$0.60 vs $34-425的成本对比触目惊心，真正实现了agent数据的可规模化生产
难度可控的设计使其不仅是benchmark，更是训练数据source——可以按需生成特定难度的数据进行curriculum learning
GPT-4.1 planner + computer-use executor 的两阶段执行器设计值得借鉴

局限与展望¶

当前任务生成依赖GPT-4.1，不同模型可能产生系统性偏差（复杂度、现实性）——作者承认这是open question
验证器仍有12%的near-miss误接受率，对于训练数据这可能引入噪声
仅在OSWorld（Ubuntu桌面）验证，Windows/macOS场景的迁移性未知
子任务之间的逻辑连贯性由LLM保证，可能出现不自然的任务组合
缺乏用生成数据训练agent后的下游性能评估——pipeline的最终价值需要通过训练效果验证

评分¶

新颖性: ⭐⭐⭐⭐ 信息不对称原理在agent数据合成中的应用是核心创新，六智能体pipeline设计思路清晰
实验充分度: ⭐⭐⭐⭐ 人工质量验证+对抗测试+成本对比+难度梯度分析都很扎实，但缺乏训练效果评估
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，pipeline每个组件解释详尽，图表信息量大
价值: ⭐⭐⭐⭐⭐ 对agent社区有基础设施级贡献——真正可规模化的高质量数据生成方案