Efficient Agent Training for Computer Use¶

会议: ICLR 2026
arXiv: 2505.13909
代码: https://github.com/GAIR-NLP/PC-Agent-E
领域: Agent
关键词: computer use agent, trajectory augmentation, data efficiency, GUI agent, SFT

一句话总结¶

PC Agent-E 仅用 312 条人工标注的 Windows 操作轨迹，通过 Trajectory Boost 方法让 Claude 3.7 Sonnet 在每个时间步合成多样化的替代动作决策，训练后的 Qwen2.5-VL-72B 在 WindowsAgentArena-V2 上相对提升 141%，甚至超越教师模型 Claude 3.7 Sonnet 10%。

研究背景与动机¶

领域现状：Computer use agent 是当前 AI 的重要方向，目标是让模型像人类一样通过 GUI 操作电脑（点击、输入、导航）。当前主流方案分为模块化多智能体工作流和原生智能体模型两类，后者（如 Claude Computer Use、OpenAI Operator）因灵活性和可优化性成为主流范式。

现有痛点：开源模型在 computer use 任务上远落后于闭源系统（Claude 3.7 Sonnet），核心瓶颈在于高质量轨迹数据的极度稀缺。现有数据合成方法要么依赖大规模人工标注，要么通过端到端蒸馏从强模型采样完整轨迹，后者存在错误累积、速度慢（需要在线交互 VM 环境）等问题。

核心矛盾：如何用最少的人工标注数据获取最大化的 computer use 能力？直接用人工轨迹训练效果有限（单一路径），直接蒸馏效率低下且质量不稳定（900 小时 vs 3 小时）。

本文目标 (a) 极少量人工数据如何高效利用？(b) 如何避免端到端蒸馏的错误累积？(c) 如何让开源模型达到闭源水平？

切入角度：受 DeepSeek-R1 等推理模型的数据合成启发，作者观察到 computer use 任务天然存在多条有效路径——同一时间步可以有多种合理的动作选择。因此可以利用人工轨迹作为环境快照，让强模型在每个时间步合成替代动作，而无需在线环境交互。

核心 idea：用人工轨迹的环境快照作为锚点，让前沿模型在每步离线合成多样动作决策来扩增轨迹数据，实现数据高效训练。

方法详解¶

整体框架¶

这篇论文要解决的是：开源 computer use agent 远落后于 Claude 这类闭源系统，而追平差距最直接的办法——堆高质量轨迹数据——又被标注成本和蒸馏的低效卡死。PC Agent-E 的整体思路是「少量人工轨迹 + 单步离线扩增」：先让两名标注者录 312 条真实的 Windows 操作轨迹当作可靠骨架，再为每一步补回缺失的思维过程，然后在每个时间步上让前沿模型离线合成多条替代动作，把单条轨迹「长」成一棵决策树（Traj Tree），最后把树上所有节点拆成独立样本去训练 Qwen2.5-VL-72B。推理时模型按 ReAct 范式工作：输入是当前截图、任务描述和历史记录，输出是「思维 + 动作」对。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["312 条人工 Windows 操作轨迹<br/>(任务+截图+键鼠动作)"] --> B["Trajectory Collection<br/>人工录制可靠骨架 + 去污染"]
    B --> C["Thought Completion<br/>逐步反推补回缺失思维"]
    C --> D["Trajectory Boost<br/>每步用环境快照并行合成 9 个替代动作"]
    D --> E["Traj Tree<br/>人工主干 + 合成替代动作叶节点"]
    E --> F["拆成 27K 条独立 (思维+动作) 样本"]
    F --> G["SFT 训练 Qwen2.5-VL-72B"]

关键设计¶

1. Trajectory Collection：用人完成任务的天然正确性换取无需验证的高质量骨架

数据稀缺是核心瓶颈，作者的应对不是大规模标注，而是只录一小批但保证每条都对。两名标注者用 PC Tracker 工具在 Windows 上完成 312 个任务，录制内容包括任务描述、截图序列和人类的键盘/鼠标动作，动作空间 \(\mathcal{A}\) 覆盖 click、right click、double click、drag、scroll、press key、hotkey、type text、wait、finish、fail 共 11 种操作；标注者可以随时丢弃不满意的轨迹或修改任务描述。因为是人亲手做完的，结果正确性天然有保障，不需要任何额外验证环节，两个人一天就能完成全部标注，成本极低。为防止评测泄漏，再对任务做去污染：13-gram overlap 与语义相似度（阈值 0.85）双重过滤掉与测试集过近的样本。

2. Thought Completion：给只有动作的人工轨迹补回 ReAct 训练所需的思维

人录下来的轨迹只有动作没有推理，而要训练 ReAct 范式的 agent 必须有「思维 + 动作」成对的监督，这一步就是把缺失的思维补回去。对轨迹里的每个动作，作者把任务描述、历史动作连同已重建的思维、当前动作和对应截图一起喂给 Claude 3.7 Sonnet，让它反推出该动作背后的思维过程。补全是迭代进行的——后一步的上下文里包含前面各步已经重建好的思维，从而保持整条轨迹的推理连贯。补完之后轨迹既能直接用于训练，也为下一步的 Trajectory Boost 提供了必要的历史上下文。

3. Trajectory Boost：用人工轨迹锚定环境状态，在每步离线合成多条替代动作把单轨迹扩成一棵树

这是全文最核心的创新，针对的是端到端蒸馏「在线交互慢、多步累积误差」的痛点。作者观察到 computer use 任务每个时间步天然存在多条有效路径，于是把人工轨迹的每一步看成一个环境快照 \(\langle T, o_k, h_k \rangle\)（任务描述、当前观测截图、历史上下文），将快照输入 Claude 3.7 Sonnet 并行采样 9 个单步动作决策 \((t'_k, a'_k)\)。这样每条人工轨迹就长成一棵 Traj Tree：人工轨迹是主干，每步合成的替代动作挂成叶节点。相比端到端蒸馏，这个设计同时拿下三点：其一，每步的环境状态都由人工轨迹锚定，模型只决策当前一步而不会顺着自己的错误偏离，从根上避免了错误累积；其二，合成是离线的、不与真实 VM 环境交互，因此可以自然并行化，速度比在线蒸馏快约 300 倍（3 小时 vs 900 小时）；其三，它同时吃到了人工轨迹的真实性和前沿模型的多样性，比单条人工路径或纯蒸馏样本都更有信息量。

损失函数 / 训练策略¶

训练基于 Qwen2.5-VL-72B，使用标准 SFT 损失
Traj Tree 上的每个动作节点（包括人工和合成的）都转化为独立训练样本
训练样本格式与推理时 scaffold 直接对应：输入为截图+任务描述+历史，输出为 thought+action
所有合成节点的历史上下文仅包含主干（人工轨迹）的前序步骤，保持一致性
312 条轨迹最终产生 27K 训练样本，图像分辨率 1280×720，上下文长度 8192

实验关键数据¶

主实验¶

模型	LibreOffice	Chrome	Edge	System	VS Code	VLC	Utils	Total
GPT-4o	0.0	5.9	0.0	8.3	0.0	0.0	0.0	2.1
Qwen2.5-VL-72B	0.0	34.7	15.4	20.8	26.3	7.6	16.7	14.9
UI-TARS-72B-DPO	0.0	40.6	38.5	58.3	36.8	7.6	25.0	26.2
Claude 3.7 Sonnet	2.4	46.5	61.5	54.2	52.6	29.0	16.7	32.6
Claude 3.7 (thinking)	2.4	64.1	46.2	66.7	52.6	21.9	25.0	35.4
PC Agent-E	4.8	64.1	46.2	50.0	57.9	35.7	33.3	36.0

PC Agent-E 相对 Qwen2.5-VL-72B 提升 141%，超越 Claude 3.7 Sonnet 10%。

消融实验¶

方法	数据量	WindowsAgentArena-V2 (%)	说明
Base (Qwen2.5-VL-72B)	0	14.9	基线
Human only (s=1)	2.7K	17.2	仅用人工轨迹
Direct Distillation (s=10)	3120 traj	~28	端到端蒸馏
Trajectory Boost (s=10)	27K	36.0	本文方法

关键发现¶

Trajectory Boost 远优于单纯人工数据：scaling factor 从 1 增到 10，性能从 17.2 跃升至 36.0，而仅用人工轨迹只能到 17.2
远优于直接蒸馏：同等数据规模下，Trajectory Boost 比 Direct Distillation 高出约 8 个百分点，且时间效率高 300 倍（3h vs 900h）
跨平台泛化：在 Linux 系统的 OSWorld 上，PC Agent-E 同样获得 34% 相对提升（4.4→10.9%），尽管训练数据全部来自 Windows
提升主要来自规划能力：定性分析显示训练后模型产生更长的思维过程，self-correction 和 verification 能力显著增强，但知识和定位（grounding）能力未明显改善
Infeasible Hacking 现象：弱模型在不可行任务上反而得分更高（Qwen 86.7% vs PC Agent-E 63.3%），说明当前评估存在漏洞

亮点与洞察¶

单步离线合成 vs 端到端在线蒸馏：这是一个非常巧妙的 insight——computer use 任务每步天然有多条有效路径，用人工轨迹锚定环境状态、单步合成替代动作，避免了多步蒸馏的错误累积，同时实现 300x 加速
极致数据效率：312 条轨迹→27K 样本→超越教师模型，这说明高质量的 diverse supervision 比大规模低质量数据更重要
WindowsAgentArena-V2 的评估改进：修复了评估依赖、infeasible hacking、VM 状态不稳定等问题，对社区有独立贡献价值
Traj Tree 结构可迁移：这个思路可用于任何基于环境快照的 sequential decision-making 任务（如 web navigation、mobile GUI、robotics），只要每步有多条有效路径

局限与展望¶

训练数据仅 312 条轨迹，覆盖范围有限：主要集中在 Chrome、系统设置等常用应用，LibreOffice 等复杂场景表现仍弱（4.8%）
未利用图像历史：推理时只用当前截图，不利用过去截图，作者也承认加入图像历史可能有益
知识和 Grounding 瓶颈未解决：主要提升来自规划能力，对于需要特定软件知识的任务（如 VLC 功能）和精确定位的场景改进有限
合成动作未在真实环境中验证：Trajectory Boost 的合成动作只是"看起来合理"但未实际执行，可能包含无法成功执行的动作
仅做了 SFT 未做 RL：结合 RL（如 GRPO + 环境奖励）可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ Trajectory Boost 思路简洁优雅，但本质是利用人工轨迹+强模型单步合成，概念并不复杂
实验充分度: ⭐⭐⭐⭐⭐ 对比了多种基线、消融完整、跨平台泛化、test-time scaling、定性分析一应俱全
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，图表精美，motivation 推导流畅
价值: ⭐⭐⭐⭐ 对 GUI agent 数据高效训练有重要参考价值，300x 加速和超越教师模型的结果令人印象深刻