VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=xxYPqm1qWz
代码: https://videoagenttrek.github.io （SCREENFILTER 与 VIDEO2ACTION 开源）
领域: Agent
关键词: 计算机操作智能体, 逆动力学, 无监督预训练, GUI 视频挖掘, 长程规划

一句话总结¶

本文提出 VideoAgentTrek，用一个逆动力学模块 VIDEO2ACTION 从 39,000 个无标注的 YouTube 屏幕录制教程里自动反推出带精确动作参数的操作轨迹（152 万步），再用"持续预训练 + 监督微调"两阶段把它喂给计算机操作智能体，把 OSWorld-Verified 成功率从 9.3% 拉到 15.8%（相对提升 70%）。

研究背景与动机¶

领域现状：训练计算机操作智能体（CUA，会点按钮、敲文字、在界面里导航的 agent）需要海量"截图 + 精确动作参数"的交互轨迹——每一步要记下截图、动作类型（click / type）以及参数（点击坐标 \((x,y)\)、输入的字符串）。近期视觉语言模型让这类 agent 越来越可行，但它们的发展被数据量卡住了。

现有痛点：人工标注这种轨迹极其昂贵。要在多种应用、多种操作系统上达到鲁棒泛化所需的规模，靠人手记录每一次点击和输入是不现实的。现有的三条造数据的路各有短板：人工标注精确但覆盖窄、成本高；在插桩环境里程序化合成量大但受模拟器 API 限制、和真实 UI 有差异；网络爬取的教程/录屏虽然多样，却普遍缺少精确的时间边界和动作参数。

核心矛盾：互联网上有数百万段屏幕录制教程（Excel 教程、软件演示……），它们其实隐式地包含了所需的监督信号——画面里能看到光标点在哪、敲了什么字、界面如何响应。可这份资源一直没被用上，因为视频缺少训练所需的结构化动作标签：光标在动但没被追踪、文字出现了但没被抽取、动作的时机是隐含的但没被标注。

本文目标：把"被动观看的录屏"转成"主动训练用的轨迹"——即在没有真值标签的前提下，自动从原始像素变化里恢复出"什么时候发生了什么动作、参数是多少"。

切入角度：借鉴机器人领域的逆动力学（inverse dynamics，从观测反推动作）思路。如果能训练专门的模型去检测动作何时发生、并推断其参数，就能把无标签视频转化为有标签的交互数据。

核心 idea：用一个学习得到的逆动力学模块（VIDEO2ACTION）把原始录屏反解成 (截图, 动作, 参数) 三元组，从而绕开人工标注，把网络视频规模化地变成计算机操作智能体的监督信号。

方法详解¶

整体框架¶

VideoAgentTrek 是一条把"网络教程视频"端到端转成"agent 训练监督"的流水线，分三段串行：视频采集与预处理 → VIDEO2ACTION 逆动力学 → 两阶段 agent 训练。第一段先用"频道一致性"思路从种子关键词滚雪球地抓教程视频，再用轻量级光标检测器 SCREENFILTER 把真正含 GUI 交互的片段留下来；第二段 VIDEO2ACTION 对每个片段先做密集事件检测（切出带类型和精确起止时刻的动作片段）、再做动作参数化（推断点击坐标 / 输入文本）、最后补一句"内心独白"说明意图，组装成 ReAct 风格的轨迹步 \((I_k, r_k, a_k, \pi_k)\)；第三段把挖出来的大规模视频轨迹 + 人工演示 + GUI grounding 数据混合，分两阶段训练：先在含噪但广覆盖的视频轨迹上做持续预训练稳住感知/grounding，再在干净的人工轨迹上做 SFT 收敛策略。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["YouTube 教程视频"] --> B["视频采集与过滤<br/>频道一致性扩展 + SCREENFILTER 光标过滤"]
    B --> C["事件检测<br/>密集时序定位出<br/>带类型的动作片段"]
    C --> D["动作参数化与内心独白<br/>推断坐标/文本 + 补意图说明"]
    D --> E["152 万步 ReAct 轨迹<br/>(截图, 独白, 动作, 参数)"]
    E --> F["两阶段训练<br/>视频轨迹预训练 + 干净轨迹 SFT"]
    F --> G["计算机操作智能体"]

关键设计¶

1. 频道一致性自发现 + SCREENFILTER：把脏的网络视频低成本筛成干净 GUI 语料

挖网络视频最大的麻烦是噪声多——关键词搜出来的视频里夹着 PPT 讲解、纯口播等大量非交互内容，逐个人工核验不现实。本文的解法分两步。采集端利用"频道一致性"这一观察：YouTube 频道通常内容类型和质量稳定，于是从"Excel tutorial""How to use Windows"这类种子关键词出发，一旦抽样发现某频道 \(\geq 80\%\) 的视频合格，就把整个频道收进候选、不再逐条审查，并借其标签做迭代扩展。这一步刻意重召回轻精度（把脏内容留给后续过滤），最终从少量人工种子滚雪球出 5.5 万候选视频（约 1 万小时）。过滤端用 SCREENFILTER——一个基于 YOLOv8x 的轻量光标检测模型：只保留"连续 6 秒以上、至少 80% 帧含光标"的片段（允许 2 秒合并间隙做时序平滑），从 1 万小时原始视频里精炼出 7,377 小时真正含 GUI 交互的内容。两步配合，既把人工监督压到最低（只需校验种子和周期性抽查扩展效果），又保证了进入下游的数据视觉清晰、主题对齐。

2. 动作事件检测：把 GUI 操作重构成"无提示词的密集时序事件检测"

要从录屏恢复动作，第一关是定位"何时发生了什么动作"。本文把它建模成 prompt-free 的密集事件检测：给一段长为 \(T\) 的录屏 \(v\)，模型 \(f_\theta(v)\to S=\{(a_k, t^s_k, t^e_k)\}_{k=1}^K\) 一次性吐出一组带类型 \(a_k\) 和紧致起止时刻 \((t^s_k, t^e_k)\) 的事件，而不是逐帧分类或基于查询检索。实现上给 Qwen2.5-VL-7B 装上视频 grounding 能力，对其做全参数微调，使它能直接从原始片段生成有序、带类型的事件区间。训练监督的妙处在于无需人工标注：用 OpenCUA 的标注工具采到"屏幕录像 + 时间戳同步的鼠标键盘事件"原始演示日志，把这些日志自动转成时序 grounding 监督。这样就把"关键帧检测"重构成"多类时序事件检测 + 紧边界定位"，为后续参数化切出干净的片段。

3. 动作参数化 + 内心独白：把片段补全成可训练的 ReAct 步

光知道"发生了点击"不够，还要知道"点在哪""敲了什么"，并补上"为什么这么做"。动作参数化用识别器 \(h_\phi(v_k)\to(\hat a_k, \pi_k)\)，对每个检测出的片段 \(v_k=v[t^s_k:t^e_k]\) 同时预测动作类型和参数——click 段输出坐标 \((x,y)\)、type 段输出输入文本 \(\langle content\rangle\)。它同样以 Qwen2.5-VL-7B 为底座、用 OpenCUA 日志转出的参数标签做全参微调，并可选地以检测器给的 \(a_k\) 为条件来稳住类型预测。但密集检测和参数化只恢复了"屏幕上发生了什么"，丢了"每一步的理由"，于是再用 GPT-5 Medium 为每步生成一句简短的内心独白 \(r_k\)：输入动作类型、参数、动作前后的屏幕关键帧、以及动作前后各 1 分钟的 ASR 字幕，输出一句把意图、局部计划、预期状态变化讲清的理由（如"在搜索框输入查询以显示结果"）。这一步把轨迹补成 ReAct 三元组 \((I_k, r_k, a_k, \pi_k)\)，给规划和信用分配提供结构化监督，对长程任务的纠错恢复尤其有帮助。

4. 两阶段训练：先在含噪视频轨迹上稳 grounding，再在干净人工轨迹上收策略

自动挖出来的轨迹规模大但难免残留噪声，直接当 SFT 数据会拖累策略学习。本文借"把感知/grounding 与策略学习解耦能提升鲁棒性"的经验，设计两阶段课程。底座是 Qwen2.5-VL-7B（一个通用 VLM，在 OSWorld 上端到端成功率仅 4.5%，正好用来检验 VideoAgentTrek 数据的增益）。Stage 1 用 152 万步视频轨迹对应的约 260 亿 token 训练一个 epoch（再掺少量 GUI grounding 对），数据排成图文交错的视觉-文本序列、帧与逐步文本输出按时序内联，loss 只算在文本部分、图像仅作条件不预测——这一步在广覆盖但不完美的监督上稳住基础 GUI 交互模式。Stage 2 再在约 80 亿 token 的干净人工标注轨迹上继续训练，数据改写成 user/assistant 对话模板、用标准 SFT 只对 assistant 轮计算 loss——这一步把策略收敛到任务相关的精确行为上。两阶段配合既吃到视频的广度，又靠干净数据校准了精度。

损失函数 / 训练策略¶

两阶段都用 masked 语言建模式监督：Stage 1 把图像当条件、只对文本 token 计 loss（260 亿 token，1 epoch）；Stage 2 用聊天模板、只对 assistant 轮计 loss（80 亿 token）。数据混合上，Stage 1 主体是 VideoAgentTrek 视频轨迹（约 26B）+ OSWorld-G 的 GUI grounding 对（约 1B），另有来自 OpenCUA / AGUVIS 的人工演示（约 8B，覆盖 Windows / macOS / Android）参与训练。

实验关键数据¶

主实验¶

在线基准 OSWorld-Verified（369 个 Ubuntu 桌面任务）与离线基准 AgentNetBench（100 个 Windows/macOS 代表任务）上，视频预训练带来一致增益：

基准	指标	底座模型	仅 Stage 2 (SFT)	Stage 1+2	+测试时扩展
OSWorld-Verified	任务成功率	4.5%	9.3%	14.13%	15.78%
AgentNetBench	步成功率	38.5%	64.1%	69.3%	—

OSWorld 上完整方法相对纯 SFT 基线提升 70%（9.3%→15.8%）、相对底座翻三倍多；AgentNetBench 上比纯 SFT 高 5.2 个点、比底座高 30.8 个点。

消融实验¶

按 Stage 1 视频 token 用量（0% / 50% / 100%）做数据规模消融，Stage 2 SFT 保持一致：

Stage 1 数据量	AgentNetBench 步 SR	OSWorld-Verified 任务 SR@50	说明
0%（仅 SFT）	64.1%	9.3%	无视频预训练
50%	68.1%	13.3%	半量视频预训练
100%	69.3%	15.7%	全量，单调上升

此外 VIDEO2ACTION 自身的逆动力学质量：动作事件检测在留出测试集上整体精度 0.88、召回 0.70、F1 0.78（click/scroll 等指针类动作可靠，press/type 等纯键盘动作召回偏低因视觉线索弱）；动作参数化在 500 条野外样本上整体准确率 0.658（click 0.713、scroll 0.735 最高，drag/press 因细微视觉线索较差）。

关键发现¶

数据规模单调有效：视频 token 从 0→50%→100%，两个基准都稳步上升，确立了"预训练数据量 ↔ CUA 性能"的清晰关系。
视频预训练解锁了测试时扩展：把动作步预算从 20 放到 50，仅 SFT 基线纹丝不动（卡在 9.3%），而 Stage 1+2 模型从 14.13% 升到 15.78%（+1.65 点 / +11.7% 相对）——说明长视频轨迹教会了模型分解子目标、扛过中间失败、用额外预算去探索纠错。
长程监督是增益来源：VideoAgentTrek 语料平均轨迹长 39.25 步，42.1% 超过 20 步、14.5% 达 50 步以上，远长于既有 CUA 语料，正是这份长程性带来了上述规划能力。
在线增益更大：OSWorld（在线、对视觉变化更敏感）上的相对提升比离线的 AgentNetBench 更显著，说明视频带来的多样性对真实环境鲁棒性最关键。

亮点与洞察¶

把机器人逆动力学搬到 GUI：VPT 早已证明无标签视频能反推动作训练 agent，本文的贡献是把这套思路具体落到 GUI 场景——用"密集事件检测 + 参数化"两段式，达成毫秒级时间定位和参数抽取，这是通用视频 grounding 框架做不到的精度。
频道一致性是低成本扩规模的钥匙：用"整频道打包 + 后置过滤"替代"逐视频审查"，把人工监督压到只剩种子校验，这个"重召回 + 强过滤"的工程取舍可迁移到任何网络数据挖掘任务。
用同分布日志造监督：检测器和参数化器都用 OpenCUA 的"录屏 + 时间戳事件日志"自动转监督，绕开了"GUI 没有真值框"的死结——这种"已有插桩数据反哺野外模型"的思路很值得复用。
测试时扩展作为预训练有效性的诊断信号：用"加步数预算能不能涨"来区分模型是真学会了长程规划还是只会刷重复步，是个很巧的评估视角。

局限与展望¶

纯键盘动作恢复弱：press / type 这类视觉证据细微的动作，检测召回（press 0.08）和参数化准确率（drag 0.366、press 0.362）都明显偏低，意味着挖出的轨迹在这些动作上噪声较大。
参数化无法自动评测：因为没有真值目标框，动作参数化只能靠野外人工盲评，500 条样本的评估规模有限，整体准确率 0.658 也说明轨迹质量离精确还有距离。
绝对成功率仍低：OSWorld 15.8% 虽是相对大涨，但绝对值仍低，离实用 CUA 有距离；底座固定为 7B，更大模型上的可扩展性未验证。
内心独白依赖 GPT-5 合成：理由 \(r_k\) 是事后用大模型配文生成的，可能与人类真实意图有偏差，且引入了对闭源模型的依赖。

评分¶

新颖性: ⭐⭐⭐⭐ 把逆动力学 + 频道一致性挖掘系统性地落到 GUI 录屏，思路清晰且工程完整。
实验充分度: ⭐⭐⭐⭐ 在线/离线双基准 + 数据规模消融 + 逆动力学质量评估都有，但参数化只能人工盲评、绝对成功率偏低。
写作质量: ⭐⭐⭐⭐ 三段式 pipeline 叙述清楚，图表完整，部分附录细节需另查。
价值: ⭐⭐⭐⭐ 提供了一条把互联网录屏规模化转成 CUA 监督的可复现路径，并开源 SCREENFILTER / VIDEO2ACTION，实用价值高。