跳转至

Go-Browse: Training Web Agents with Structured Exploration

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=IpzRWE52yw
代码: https://github.com/ApGa/Go-Browse
领域: LLM Agent / Web Agent / 自动数据采集
关键词: Web Agent, 结构化探索, 图搜索, 数据合成, WebArena, 监督微调

一句话总结

把网页智能体的训练数据采集建模成对网站的图搜索:用一个不断扩张的 URL 前沿(frontier)维护"已发现但未充分探索"的页面,每到一个页面就提任务、查可行性、采轨迹,并通过"重置到已发现页面"复用历史探索成果,从而在 WebArena 上采到 10K 条成功轨迹,微调 7B 模型即达 21.7% 成功率,超过 GPT-4o mini。

研究背景与动机

  • 领域现状:预训练 LLM 在网页 GUI 任务上表现糟糕——人类在 WebArena 上成功率 78%,而 GPT-4o 仅 38%、GPT-4o mini 仅 19%、Qwen-2.5-7B 仅 8%;专门训练过的 GUI 模型(Claude-3.7-Sonnet 45.4%、CUA 58%)则明显更强。这说明用智能体专用交互数据训练是做出可用网页智能体的关键。
  • 现有痛点:高质量网页数据极难获取。人工演示昂贵;无监督自动采集里又分两派——interaction-first(如 NNetNav,先用泛化指令漫游再事后打标签)各 episode 相互独立、探索高度冗余,反复踩同一批易找的页面;instruction-first(先提任务再求解)则任务提案锚定在初始静态观察上,只覆盖当前页、还会幻觉出不可行任务。
  • 核心矛盾:智能体缺乏对部署环境本身的先验理解。从教程或别处的演示学到的知识难以迁移到一个陌生网站,所以"直接探索目标环境"的方法(16% 成功率)远胜"用互联网通用知识"的方法(6%)——但直接探索又面临探索效率低、覆盖不全的难题。
  • 本文目标:设计一种探索策略,既能全局覆盖整个网站(不漏深层页面),又能在每个页面上局部充分地提任务采数据,同时跨 episode 复用信息以提高效率。
  • 核心 idea把数据采集当成图搜索。维护一个 URL 节点 + 轨迹边的图,外循环像 BFS 一样扩张前沿保证全局覆盖,内循环像 instruction-first 一样在每个页面深挖;关键创新是每轮把探索重置到一个已发现的页面——这既解耦了"网页导航"与"局部求解"两个难度不同的子问题,又让信息在 episode 间复用。灵感来自强化学习中的 Go-Explore(reset-then-explore 解 Montezuma's Revenge)。

方法详解

整体框架

Go-Browse 对每个网站构建图 \(G=(V,E)\),节点 \(v\) 是唯一 URL、边 \(e\) 是页面间的轨迹。外循环(全局覆盖)维护一个探索前沿 \(F\),每次从前沿取出一个页面 \(v\)内循环(局部探索)在 \(v\) 上跑三步:① 用 NavExplorer + PageExplorer 提出导航任务与局部任务,② 用 FeasibilityChecker 过滤不可行任务并采集首条轨迹,③ 用 Solvers 为可行任务补采更多轨迹。求解新任务时若发现新 URL,就把它加入 \(V\) 和前沿 \(F\),外循环继续扩张直到前沿清空。

flowchart TD
    A[选取前沿页面 v] --> B[NavExplorer: 提导航任务<br/>扩张前沿]
    A --> C[PageExplorer: 提局部任务<br/>深挖当前页]
    B --> D[FeasibilityChecker<br/>强模型试解 + VLM 评判]
    C --> D
    D -->|可行| E[Solvers: prefixed + unprefixed<br/>补采轨迹]
    D -->|发现新 URL| F[加入图 V 与前沿 F]
    E --> G[加入数据集 D]
    F --> A

关键设计

1. NavExplorer:把任务提案者做成会探索的智能体,负责扩张前沿。 传统 instruction-first 的 TaskProposer 只看一张静态观察就提任务,覆盖面窄还容易幻觉。Go-Browse 把 NavExplorer 实现成一个真正去交互的网页智能体:给它一个目标"找到当前页面的邻居页面并提出到达它们的导航任务",并给它扩展一个动作 add_tasks_to_dataset(tasks)。这样它能基于动态获取的真实观察来锚定任务提案,而且被要求优先添加那些"用户可能想去、且有常用任务"的新页面,从而高效地把前沿往有价值的方向扩张。

2. PageExplorer:局部任务采集,把单个页面的功能挖透。 与 NavExplorer 互补,PageExplorer 只负责当前页面 \(v\) 内部的任务:让 LLM 生成一组"用户在这个页面上可能想做的事"。它产出的训练数据系统性地覆盖每个页面的各项功能(如商品页的筛选、排序、加购、查看详情等),保证局部探索的充分性,而把"跳到别的页面"的活交给 NavExplorer。

3. FeasibilityChecker:用强模型 + VLM-as-a-judge 过滤幻觉任务。 前两个模块提出的任务里必然混有不可行/幻觉项。FeasibilityChecker 用一个强预训练智能体(Claude-3.7-Sonnet,最多试 3 次)去尝试求解每个任务,并用 GPT-4o 实现的 VLM-as-a-judge 奖励模型 \(R(g,\tau)\in\{0,1\}\) 判断轨迹是否真的完成了任务。最多采 \(N_{max}\) 条轨迹、一旦成功即停;只保留至少有一条成功轨迹的任务及其轨迹,其余丢弃——既过滤掉不可行任务,又顺手采到了首批高质量数据。

4. Solvers 的 prefixed/unprefixed 采样:解耦导航与求解,bootstrap 弱模型。 对过滤后的可行任务,Solvers 用更便宜的模型(GPT-4o-mini、Qwen-2.5-7B)大量补采轨迹,并混合两种起点:prefixed 从当前页面 \(v\) 直接开始求解(已经导航到位,只需局部操作);unprefixed 强制从网站根节点(首页/dashboard)开始求解(需自己先导航再求解)。prefixed 把"找到页面"的导航难题剥离出去,成功率显著更高、尤其在深层节点上,因此能让弱预训练模型也产出高质量数据(bootstrap);unprefixed 则保留长程任务求解与探索行为。两者结合让数据既好采又不失长程能力。

与既有范式的关系:内循环(NavExplorer + PageExplorer + FeasibilityChecker)本质是 instruction-first,但不只从根节点出发,而是每轮从前沿取新页面初始化,弥补了 instruction-first 的局部性,强制全局覆盖;同时通过"重置复用"弥补了 interaction-first 的冗余探索问题。

实验关键数据

数据集统计(GO-BROWSE-WA,WebArena 5 域、每域探索 20 页、共 100 URL)

指标 成功 失败 合计
轨迹数 9,504 17,245 26,749
步数 39,339 157,123 196,462
唯一任务数 3,422

采轨迹的成功轨迹来源较均衡:Qwen-2.5-7B 29.5% / GPT-4o-mini 36.6% / Claude-3.7-Sonnet 33.9%。整套采集约花费 $975.57。微调只用成功步,但完整数据(含失败、含 accessibility tree / HTML / 截图多种表示)全部开源。

主实验:WebArena 成功率(812 任务)

模型 Overall (%) Admin Shopping Reddit Gitlab Map
GPT-4o-mini(闭源) 19.3 19.2 19.3 21.1 20.9 15.6
GPT-4o 37.6 35.7 32.3 50.9 36.7 37.5
Claude-3.7-Sonnet 45.4 37.4 37.0 58.8 52.0 47.7
Qwen-2.5-7B-Instruct(基座) 8.3 7.1 9.4 7.9 8.7 7.8
NNetNav-7B(SOTA 对照) 18.8 14.3 20.3 23.7 19.9 17.2
GO-BROWSE-7B 21.7 25.3 22.4 30.7 15.3 17.9
  • 比基座 Qwen-2.5-7B 提升 +13.4%,比 sub-10B 前 SOTA NNetNav-7B +2.9%,并反超 GPT-4o-mini +2.4%
  • 除 Gitlab 外全域领先;在最难导航的 Shopping Admin 上比 NNetNav +11%、Reddit 上 +7%

泛化实验:Online-Mind2Web(300 任务 / 136 个真实网站,域外)

模型 SR (%)
NNetNav-7B 4.00
GO-BROWSE-7B 5.33
GPT-4o-mini 9.33

域外整体下降明显,但 GO-BROWSE-7B 仍领先 NNetNav-7B;在与 WebArena 相近的 In-Domain-Adjacent 网站上,GO-BROWSE-7B 逼近 GPT-4o-mini(<1% 差距),仍比 NNetNav-7B 高 3%。

关键发现

  • 任务更多样:用 GPT-4o-mini 把任务聚类成意图类别后,NNetNav 的分布出现明显大"楔形"(探索冗余,反复采易找页面),且 Gitlab 任务过多、Reddit 过少;GO-BROWSE 因重置复用使难找页面也被充分探索,分布更均衡。
  • 成功轨迹更深:仅 GO-BROWSE 成功的轨迹其 URL 深度分布更右偏,深层 URL(如编辑具体商品属性、查看特定订单、Reddit 搜索)访问次数远超 NNetNav(如某商品编辑页 9 vs 1、Reddit 搜索 7 vs 0),说明它的优势来自能解长程深层任务。
  • prefixed 采样 bootstrap 弱模型:prefixed 成功率整体更高,且随节点深度增大优势越明显、对弱模型(Qwen-2.5-7B)尤其显著——印证了"解耦导航与求解能让弱模型产出更高质量数据"。

亮点与洞察

  • 范式融合得漂亮:把 instruction-first 的"任务驱动、提案精准"和 interaction-first 的"能探深层、信息复用"统一进一个图搜索框架,外循环管覆盖、内循环管深度,职责清晰。
  • "reset-then-explore"迁移到网页:借鉴 Go-Explore 的核心思想——一旦发现难到达的状态就记住并反复从那里出发,把游戏里的硬探索难题平移到网页导航,是很自然且有效的类比。
  • 解耦导航与局部求解是全文最实用的洞察:网页智能体的真正瓶颈往往是"找到正确页面"而非"在页面上操作",prefixed 采样把前者剥离,直接让 7B 弱模型也能采到高质量长程数据。
  • 成本透明、数据全开源:$975 采全套、连失败轨迹和多模态表示都放出来,对后续研究复用价值高。

局限与展望

  • 强模型依赖:NavExplorer/FeasibilityChecker 重度依赖 Claude-3.7-Sonnet、GPT-4o 等强闭源模型来探索和评判,采集成本与可复现性受其约束;弱模型能否自举出整条管线尚未验证。
  • 仅在 WebArena 自托管克隆站上采集:100 个 URL、5 个域虽具代表性,但都是受控环境;域外 Online-Mind2Web 上绝对成功率仍低(5.33%),真实开放网页的泛化仍是大缺口。
  • Gitlab 域反而落后:在结构复杂、以"新建项目/fork"为主的 Gitlab 上不及 NNetNav,提示图搜索式探索对某些任务类型的覆盖仍有盲区。
  • 只做 SFT:仅在成功轨迹上做监督微调,未利用大量失败轨迹(可做 RL / 偏好学习 / 过程奖励),数据潜力未挖尽。
  • VLM-as-a-judge 作为奖励模型本身有噪声,可能引入错误的"可行/成功"标注。

相关工作与启发

  • Go-Explore(Ecoffet 等):reset-then-explore 解硬探索 RL 任务,本文直接的思想源头。
  • NNetNav(Murty 等):interaction-first 的代表与主要对照,本文针对其"episode 独立、探索冗余"痛点改进。
  • instruction-first 系列(Lai 等、PAE/Zhou 等):先提任务再求解;PAE 需要人工演示截图来辅助提案,本文用会探索的智能体自动获取上下文替代之。
  • WebArena / BrowserGym / Online-Mind2Web:评测与执行框架;ReAct 作为智能体的基本交互模式。
  • 启发:① "把数据采集建模成图搜索 + 状态重置"可推广到其他需要长程探索的智能体环境(GUI、OS、游戏);② "用强模型探索+评判、弱模型大规模采样"的分工是高性价比合成数据的通用配方;③ 解耦"导航/定位"与"局部执行"对任何分层任务的弱模型 bootstrap 都值得借鉴。

评分

  • 新颖性: ⭐⭐⭐⭐ — 图搜索 + reset-then-explore 迁移到网页数据采集,把两类探索范式优雅融合,思路清晰且有 Go-Explore 的扎实根基;非颠覆性创新但组合得当。
  • 实验充分度: ⭐⭐⭐⭐ — 主实验全域对比 + 域外泛化 + 任务多样性/深度/prefixed 三类细致分析,附统计显著性检验;不足是仅 WebArena 采集、只做 SFT。
  • 写作质量: ⭐⭐⭐⭐ — 动机层层递进,把 interaction-first/instruction-first 的优劣讲得透彻,算法伪代码与图示清晰。
  • 价值: ⭐⭐⭐⭐ — 让 7B 开源模型反超 GPT-4o-mini,数据/代码/模型全开源且成本透明,对开源网页智能体社区是实打实的资产。