WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认（作者声明全量开源数据、采集工具与 benchmark）
领域: Web Agent / GUI Agent / 数据集
关键词: web agent、人工标注轨迹、三重对齐、视觉定位、长程规划

一句话总结¶

WebChain 由真人在真实网站上操作采集，构建了目前最大规模的人工标注 Web 交互轨迹数据集（31,725 条轨迹、318k 步、428 个域名），核心是把视觉截图、结构 AX 树、动作坐标做"三重对齐"，并基于它提出解耦空间定位与长程规划的 Dual Mid-Training 训练配方，在自建 WebChainBench 及多个公开 GUI benchmark 上取得 SOTA。

研究背景与动机¶

领域现状：浏览器是绝大多数数字任务的入口，让 agent 学会"看懂页面 + 精准点击 + 长程规划"是 GUI agent 领域最有价值的目标之一。近年视觉-语言-动作（VLA）建模兴起，但训练这类 agent 高度依赖大规模、高质量的交互轨迹数据。

现有痛点：现有数据来源有两条路，各有硬伤。一条是开源人工标注数据集（Mind2Web、WebLINX、GUIAct 等），可信但规模偏小——Mind2Web 仅 2,350 条轨迹、WebLINX 2,337 条，不足以验证现代 GUI agent 的 scaling law；而且大多缺 AX 树这类结构监督。另一条是数据合成方法（Explorer、OS-Genesis 等），虽然能低成本在真实网页上"刨"轨迹，却被安全机制卡死：一遇反爬、CAPTCHA、需要登录认证的场景（如银行、电商下单）就崩，恰恰漏掉了最有价值的高价值工作流。

核心矛盾：规模、真实性、可复现性三者难以兼得。要规模就得合成，但合成进不去认证页面、覆盖不到复杂任务；要质量就得人工标注，但人工标注的数据集规模上不去。更糟的是，大量做模型 scaling 的工作用的是私有数据集，关键结论不可复现，阻碍社区形成共识。

本文目标：做一个"完全开源 + 最大规模 + 全人工标注 + 多模态对齐"的 Web 交互轨迹生态，既能验证 scaling 效应，又能支撑严谨可复现的评测。

切入角度：既然合成方法过不了安全门槛，那就让真人去操作真实网站——但要把真人操作时的每一层上下文（看到的像素、页面的结构、执行的动作）严格同步记录下来，形成密集监督信号。

核心 idea：用"三重对齐"（Triple Alignment）把视觉、结构、动作三层上下文逐步同步成一条轨迹，并配套一条可扩展的人在环采集流水线，再用这份数据验证出"空间定位与长程规划应当解耦训练"的 Dual Mid-Training 配方。

方法详解¶

整体框架¶

这是一篇数据集论文，"方法"主要由两部分组成：怎么造出这份数据（三阶段构建流水线 + 三重对齐 schema）和怎么用这份数据训练/评测（Dual Mid-Training 配方 + WebChainBench）。

数据构建是一条三阶段串行流水线：先用"功能约束"让 LLM 合成既可执行又多样的任务目标，再让真人标注员在真实网站上完成这些任务、被动且详尽地记录每一步的多模态轨迹，最后对原始轨迹做后处理增强（补全视觉定位负样本 + 合成 CoT 推理链）。产出的每一步都带视觉、结构、动作、推理四类标注，构成 (State, Action, Reward, Next State) 四元组。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实网站"] --> B["约束式任务合成<br/>功能 schema 抽取 → schema 约束生成"]
    B -->|可执行且分层的任务目标| C["人在环轨迹采集<br/>WebChain Builder 被动记录每步"]
    C --> D["三重对齐 schema<br/>视觉 + 结构 + 动作逐步同步"]
    D --> E["后处理上下文增强<br/>视觉定位稠密化 + 合成 CoT"]
    E --> F["WebChain 数据集<br/>31725 轨迹 / 318k 步"]
    F --> G["Dual Mid-Training<br/>解耦空间定位与长程规划"]
    F --> H["WebChainBench 评测<br/>WCB-S / WCB-L"]

关键设计¶

1. 三重对齐（Triple Alignment）：让模型不只"看见"页面，还能理解每个像素背后的结构逻辑

现有数据集要么只有截图（缺结构）、要么只有 DOM 文本（缺视觉），监督信号单一，模型容易产生空间幻觉、点歪元素。WebChain 的采集流水线在每一步严格同步三层上下文：视觉上下文（viewport 截图 + 整页截图）、结构上下文（HTML 与 Accessibility 树快照）、动作对齐（目标元素的像素坐标、bounding box、CSS selector、XPath、内部文本）。这样同一步里"我看到的画面""页面的结构语义""我点了哪里"三者一一对应，为视觉 grounding、注意力分配、DOM 感知导航同时提供监督。关键差异在于它是唯一同时覆盖真实网站、人工轨迹、bounding box、AX 树、事件时间戳的数据集（见下方对比表），而 Mind2Web 缺 AX 树、WebArena 缺人工轨迹。

2. 约束式任务合成（Constraint-Based Task Synthesis）：让 LLM 生成的任务"真能在这个网站上做出来"

直接让 LLM 出任务的最大问题是幻觉——它可能让标注员"在一个没有该功能的网站上按用户评分排序"。WebChain 用两步堵住这个洞。先对每个目标网站做静态功能抽取，得到一份结构化 functional schema：一层是 Domain Semantics（站点高层用途与服务粒度，如"只有国内航班"vs"含国际航班"），另一层是 Interactivity & Logic（枚举排序开关、faceted 过滤器，以及关键的条件依赖——如"选车型"下拉框只有先"选品牌"后才填充）。然后用一个 generator LLM 显式以该 schema 为条件生成任务，并自动按复杂度分层为：简单信息检索（单步）、多约束导航（组合多个过滤/筛选）、条件依赖任务（动作依赖前序状态的序列逻辑）。这样合成出来的任务既不会越出网站真实能力边界，又能系统覆盖从简单到复杂的难度谱。

3. 人在环轨迹采集（WebChain Builder）：被动而详尽地把真人操作录成密集监督

合成好的任务作为给标注员的精确目标。标注员在真实网站上尝试完成任务时，WebChain Builder 工具被动记录每一步：动作前后的完整 DOM 快照、具体执行的动作（click / type / scroll）、高保真空间信息（viewport 坐标 + 目标元素 bounding box）、以及元素级元数据（XPath、CSS selector、内部文本）。因为是真人真站操作，它天然能进入需要登录认证、含反爬保护的高价值工作流——这正是合成方法做不到的。最终每条轨迹是一串 (State, Action, Reward, Next State) 四元组，平均链长 10.02 步、平均耗时 1.07 分钟，强调长程依赖。

4. 后处理上下文增强：把"只标了点中的那个元素"补成稠密的版面理解 + 显式推理

原始轨迹有两个缺口：一是每步只标了被交互的那个正样本元素，模型学不到完整版面认知；二是缺少"为什么这么点"的推理监督。WebChain 用两招补全。视觉定位稠密化（Visual Grounding Densification, VGD）：解析整个 viewport，抽取所有可见可交互元素的 bounding box、类型（button / input / a）与文本，提供丰富的负采样，把"点单个元素"升级成"版面感知的稠密分割问题"，让 agent 学会区分可操作元素与装饰性文本。合成推理链（Synthetic Rationale Generation, CoT）：用一个强 VLM 在完整轨迹上下文（总目标 + (state, action) 历史 + 当前 GUI 状态）下"think aloud"，为每个动作生成自然语言推理（如"目标是找 $300 的电视，我已经按 TCL 过滤，现在看到价格区间过滤器，要点它输入价格上限"），把隐式认知过程显式化，作为鼓励可解释多步规划的监督信号。

5. Dual Mid-Training：把空间定位和长程规划解耦成两段中训，再交给 RL 收尾

这是用数据验证出的训练配方，也是性能 SOTA 的来源。作者把空间定位（SGRL，Spatial-Grounding RLVR）与长程规划（LCRL，Long-Chain RLVR）拆开。统一的奖励是两部分加权： $$r_t = \alpha\, r_t^{\text{type}} + (1-\alpha)\, r_t^{\text{content}}$$ 其中 $r_t^{\text{type}}$ 在预测动作类型匹配 ground-truth 时为 1（否则 0），$r_t^{\text{content}}$ 在动作参数满足正确性时为 1（如 click 要落进真值 bbox $b_t^*$、type 的预测文本要是目标串 $y_t^*$ 的词法超集）。空间定位最大化单步期望奖励 $\max_\theta \mathbb{E}_{(I_t,x_t)}[r_t(\hat a_t,\hat y_t)]$；长程规划则在全局目标 $g$、观测 $I_t$、历史 $h_{t-1}$ 上做序列决策优化。关键发现是：两个任务的感知需求不同——空间定位适合加 Reasoner Prompting（RP，先推理元素属性再预测坐标，当作降低空间幻觉的正则），而长程规划反而是 non-RP + VGD + LCRL 最好（端到端 RP 中训会限制对复杂任务结构的泛化）。再叠一段 CoT-SFT 中训稳定 warm start，最后 LCRL 专注长程奖励优化。Dual Mid-Training 就是把"空间感知"和"时序规划"在中训阶段解耦，各用最合适的 recipe。

与已有数据集对比¶

特性	WebChain	Mind2Web	WebArena(Env)	WebLINX	GUIAct(multi)
轨迹数	31,725	2,350	N/A	2,337	5,696
步数	318k	17,155	N/A	100k+	44k
网站数	428	137	4 域	155	121
真实网站	✓	✓	×	✓	✓
人工轨迹	✓	✓	×	✓	✓
Bounding Box	✓	✓	×	✓	✓
Accessibility 树	✓	×	✓	×	×
事件时间戳	✓	✓	×	✓	×

WebChain 在规模上比次大的开源人工集高一个量级，且是唯一把 bounding box、AX 树、事件时间戳同时备齐的真实网站人工数据集。

实验关键数据¶

数据集高层统计：31,725 条人工核验轨迹、317,993 个原子交互步、428 个唯一域名、平均链长 10.02（中位数 9）、平均耗时 1.07 分钟。WebChainBench（WCB）从留出数据采样 1.2k 交互步，分 WCB-S（空间定位）与 WCB-L（长程规划），并在短（<6）、中（6–10）、长（>10 步）三档轨迹上均衡。

主实验：公开 GUI benchmark 上的整体步成功率（SR）¶

模型	训练数据	Overall SR
Qwen2.5-VL-3B	Zero-shot	50.1
Qwen2.5-VL-7B	Zero-shot	70.9
GUI-R1-3B	其他数据集	70.5
GUI-R1-7B	其他数据集	74.2
WebChain-LCRL-3B	WebChain	73.5
WebChain-LCRL-3B +CoT-SFT	WebChain	75.3
WebChain-LCRL-3B +SGRL+CoT-SFT	WebChain	77.3
WebChain-LCRL-7B	WebChain	77.4
WebChain-LCRL-7B +CoT-SFT	WebChain	79.0
WebChain-LCRL-7B +SGRL+CoT-SFT	WebChain	81.4

在 AndroidControl、GUI-Act-Web、GUI-Odyssey、OmniAct 等覆盖移动/桌面/网页的 benchmark 上，WebChain 训练的 3B 模型整体超过用其他数据训练的 GUI-R1-3B，叠加 SGRL+CoT-SFT 后 7B 达到 81.4，展现强零样本与迁移能力。

消融：Dual Mid-Training 在 WCB-L 上的逐项收益¶

配置	WCB-L	说明
GUI-R1-3B	0.487	外部基线
Directly LCRL	0.603	直接 LCRL，无中训
+CoT-SFT	0.629	加 CoT-SFT 中训
+SGRL	0.632	加空间定位中训
+Both（Dual Mid-Training）	0.658	两段中训叠加

关键发现¶

规模直接决定长程能力：在 4k / 20k / 全量子集上对 Qwen2.5-VL-3B 做 LCRL 后训，WCB-L 成功率随数据量单调上升，全量模型能跟随更长的指令链，证实 WebChain 的规模是解锁鲁棒长程规划的关键。
空间定位与长程规划的"最优 recipe"相反：空间定位任务里 RP（先推理后定位）是有效正则、能降空间幻觉；但长程规划里带 RP 的中训反而一致掉点，non-RP + VGD + LCRL 最强——这说明两类任务的感知需求本质不同，支撑了"解耦中训"的设计。
VGD 是任务无关的普惠增强：无论空间定位还是长程规划，加入稠密化的指令-坐标增强对都能提升数据效率与奖励密度，是对两类任务都管用的知识富集手段。
CoT-SFT 提供 RL 的稳定 warm start：CoT 中训显著抬高下游 RL 性能上限，定性上让模型产出更长、更结构化、整合视觉观测与历史状态的推理链。

亮点与洞察¶

"真人进认证页面"补上了合成方法的最大盲区：银行登录、电商下单这类高价值工作流恰恰是反爬/CAPTCHA 挡住合成 agent 的地方，用人在环采集是绕开安全边界、拿到这些轨迹的务实做法。
三重对齐把"看图点击"重构成"版面感知 + 结构对齐"：同时给 bbox 和 AX 树，让模型把高层意图对到精确 bbox 与 DOM 元素，这种密集 grounding 监督正是缓解 VLM 空间幻觉所缺的。
"不同任务要用不同中训配方"是可迁移的洞察：RP 利于定位、害于规划这一非对称结论，提示训练 GUI agent 时不该用单一 recipe 一刀切，值得迁移到其他多能力 agent 的训练设计。
schema 约束生成是抑制 LLM 任务幻觉的通用招：先抽功能边界再以之为条件生成，这套"先约束后生成"思路可迁移到任何需要 LLM 生成可执行任务/指令的数据合成场景。

局限与展望¶

CoT 是 VLM 合成而非真人推理：第三阶段的推理链由强 VLM 事后"think aloud"生成，可能与标注员真实意图有偏差或引入合成噪声，作者未量化其可靠性。
奖励是规则式的代理信号：$r^{\text{content}}$ 用"落进 bbox""文本是超集"这类规则判定正确性，对语义等价但形式不同的动作可能误判，长程任务的稀疏奖励问题也未根治。
横向 benchmark 比较需谨慎：Table 3 跨 AndroidControl/OmniAct 等不同难度任务，整体 SR 的绝对值不宜直接横比；论文也未给出多次运行的方差。
采集成本与可持续性：全人工标注 31k 条轨迹成本高，且真实网站会随时间改版导致轨迹失效，数据的时效维护是个隐性挑战。

评分¶

新颖性: ⭐⭐⭐⭐ 三重对齐 + 全人工真实网站轨迹的组合在数据维度上确有突破，Dual Mid-Training 的非对称结论也有启发，但训练方法本身是 SFT/RL 既有范式的组合。
实验充分度: ⭐⭐⭐⭐ 覆盖 scaling、空间定位、长程规划三类问题，跨移动/桌面/网页多 benchmark，消融清晰；略缺方差与 CoT 质量的量化。
写作质量: ⭐⭐⭐⭐ 动机—痛点—方案逻辑顺畅，pipeline 与 schema 描述具体，表格信息密度高。
价值: ⭐⭐⭐⭐⭐ 最大规模全开源人工 Web 轨迹 + 工具 + benchmark，直击社区"数据垄断/不可复现"痛点，对 web/GUI agent 研究是高复用的基础设施。