跳转至

WebArbiter: A Principle-Guided Reasoning Process Reward Model for Web Agents

会议: ICLR2026
arXiv: 2601.21872
代码: WebArbiter Project Page
领域: LLM Agent
关键词: Web Agent, 过程奖励模型, 推理优先, 原则引导, 强化学习, 推理蒸馏

一句话总结

WebArbiter 提出一种推理优先、原则引导的过程奖励模型 (WebPRM),将奖励建模形式化为文本生成任务,通过推理蒸馏+强化学习的两阶段训练,在 WebPRMBench 上以 7B 模型超越 GPT-5 达 9.1 个百分点。

背景与动机

  • Web Agent 涉及长视域、多步决策和不可逆动作,需要过程级 (step-level) 监督
  • 结果奖励模型 (ORM) 仅提供稀疏且延迟的反馈,可能误判错误轨迹为成功
  • 已有 WebPRM 存在明显缺陷:
    • 标量 WebPRM:将进度压缩为粗粒度分数,缺乏可解释性和弱接地
    • 检查列表 WebPRM:依赖脆弱的模板匹配,在布局或语义变化下失效
    • LLM-as-Judge:成本高、可扩展性差、易产生幻觉
  • 核心问题:如何构建一个既可解释又稳健的过程奖励模型,能够抵抗表面相关性并提供可审计的推理链?

方法详解

1. 问题形式化

Web 导航建模为 POMDP:\(\mathcal{E} = (\mathcal{S}, \mathcal{A}, \mathcal{O})\)

给定任务指令 \(\mathcal{I}\)、当前观察 \(o_p\)、历史动作和推理 \((a_{<p}, c_{<p})\),以及候选动作对 \((a_p^1, c_p^1)\)\((a_p^2, c_p^2)\),WebArbiter 生成结构化论证 \(j = (j_1, \ldots, j_L)\),最终产出偏好裁决 \(\hat{y}\)

输入紧凑表示: $\(x = (\mathcal{I}, o_p, a_{<p}, c_{<p}, (a_p^1, c_p^1), (a_p^2, c_p^2))\)$

自回归生成论证: $\(\pi_\theta(j | x) = \prod_{l=1}^{L} \pi_\theta(j_l | x, j_{<l})\)$

2. 训练数据构建

基于 WebPRM Collection (Chae et al., 2025): - 每个实例包含指令、观察序列和专家标注轨迹 - 正向动作来自专家演示 \(A^+\),负向动作来自被拒绝的轨迹 \(A^-\) - 转化为成对偏好样本用于训练

3. 两阶段训练流程

总体目标: $\(\max_{\pi_\theta} \mathbb{E}_{(x,y) \sim \mathcal{D}_{\text{Train}}, \hat{y} \sim \pi_\theta(j|x)} [\mathbb{1}(\hat{y} = y)]\)$

Stage 1: 推理蒸馏 - 使用更强的教师模型 (o3) 生成原则引导的结构化论证 - 论证流程:从指令和状态推导任务特定原则 → 将原则落实到页面 → 比较候选动作 → 输出偏好 - 蒸馏损失:

\[\mathcal{L}_{\text{SFT}}(\theta) = -\frac{1}{K} \sum_{i=1}^{K} \sum_{l=1}^{L_i} \log \pi_\theta(\hat{j}_l^{(i)} | x^{(i)}, \hat{j}_{<l}^{(i)})\]
  • 使用 10K 样本进行蒸馏训练

Stage 2: 强化学习 - 用可验证奖励对齐裁决与正确性信号 - 奖励函数:\(R(x, \hat{y}) \in \{-1, 1\}\)(基于裁决是否匹配真值) - 蒸馏模型作为参考策略 \(\pi_{\text{ref}}\)

RL 优化目标(使用 GRPO): $\(\mathcal{L}_{\text{RL}}(\theta) = \max_{\pi_\theta} \mathbb{E}_{(x,y) \sim \mathcal{D}_{\text{RL}}, \hat{y} \sim \pi_\theta(j|x)} [R(x, \hat{y})] - \beta \mathbb{D}_{\text{KL}}(\pi_\theta \| \pi_{\text{ref}})\)$

  • 使用剩余 20K 样本进行 RL 训练

4. 核心创新

  • 原则引导:从用户意图和当前状态动态推导原则(而非使用固定检查列表模板)
  • 推理优先:先生成结构化推理论证,再输出裁决,使判断可审计
  • 模型基于 Qwen2.5-3B/7B-Instruct,使用 LoRA 微调

WebPRMBench 基准

数据分布

  • 跨 4 个 Web 环境:Mind2Web、WebArena、AssistantBench、WorkArena
  • 共 1,150 个步骤级偏好实例(每个包含 1 个正确+4 个被拒绝动作)

评估指标

成对准确率 (Pairwise Acc): $\(\text{Acc}_{\text{Pairwise}} = \frac{1}{|\mathcal{D}|} \sum_{(a^+, a^-)} \mathbb{1}[\pi_\theta(a^+) \succ \pi_\theta(a^-)]\)$

Best-of-N 准确率 (BoN Acc):更严格,要求正确动作同时优于所有 4 个干扰项: $\(\text{Acc}_{\text{BoN}} = \frac{1}{|\mathcal{D}|} \sum_{i=1}^{|\mathcal{D}|} \prod_{q=1}^{4} \mathbb{1}[\pi_\theta(a_i^+) \succ \pi_\theta(a_i^{-_q})]\)$

实验关键数据

WebPRMBench 主要结果

模型 Mind2Web BoN WebArena BoN AssistantBench BoN WorkArena BoN Avg BoN
GPT-4o 52.62 66.67 66.67 55.19 60.29
GPT-5 62.39 71.64 63.33 64.62 65.50
Claude-3.7-Sonnet 57.90 64.10 61.30 60.60 60.98
DeepSeek-R1 57.37 60.21 56.18 63.89 59.41
WebShepherd-8B 73.69 43.88 30.00 25.53 43.28
WebArbiter-7B 89.53 68.66 70.00 70.19 74.60

WebArbiter-7B 以 Avg BoN Acc 超越 GPT-5 达 9.1 个百分点,超越前 SOTA WebShepherd-8B 达 31.32 个百分点

训练策略消融实验

方法 Mind2Web BoN WebArena BoN AssistantBench BoN WorkArena BoN Avg BoN
Instruct (原始) 39.18 42.79 53.33 35.85 42.78
+ Cold Start RL 86.00 35.80 33.60 37.90 48.33
+ Cold Start RL + Principles 88.00 46.30 48.90 51.80 58.75
+ SFT (无原则) + RL 94.34 41.50 40.20 44.60 55.16
WebArbiter (SFT+原则+RL) 89.53 68.66 70.00 70.19 74.60

WebArena-Lite 实际搜索效果

在奖励引导轨迹搜索中,WebArbiter 超越 WebShepherd 最高达 7.2 个百分点

核心消融发现

1. 冷启动 RL 不稳定

  • 直接在 Instruct 模型上做 RL,Mind2Web 上升到 86.00,但其他环境反而下降
  • 说明没有推理蒸馏基础的 RL 在跨环境泛化上不稳定

2. 原则引导至关重要

  • 去除显式原则仅保留推理论证:BoN Acc 从 74.60 降至 55.16(-19.44)
  • 原则引导使判断更有根据,抵抗表面相关性

3. SFT 是 RL 的必要前提

  • 推理蒸馏为 RL 提供稳定的起点,RL 主要起放大器作用
  • SFT + RL 的组合效果远超任一单独使用

亮点

  1. 推理优先范式:将奖励建模从分数预测转变为可审计的推理生成,极大提升可解释性
  2. 原则动态引导:从任务指令和状态推导原则,而非依赖固定模板,适应性强
  3. 跨环境稳健泛化:仅在 Mind2Web 训练,在 4 个不同环境均达最佳
  4. 小模型超大模型:7B 模型超越 GPT-5 和 DeepSeek-R1
  5. 两阶段训练策略:推理蒸馏 + RL 的组合互补性强

局限与展望

  • 训练数据仅 30K 且来自 Mind2Web 单一环境,扩展多环境训练数据可能进一步提升
  • 当前仅支持成对比较,多候选设置需要进一步验证
  • 基于文本的观察表示(accessibility tree),未利用视觉信息
  • 推理生成增加了推理延迟,实时部署场景需权衡
  • WebPRMBench 的负样本由模型生成,可能存在分布偏差

与相关工作的对比

  • 相比 WebShepherd(检查列表 WebPRM):WebArbiter 在新环境上完全碾压(WorkArena BoN 70.19 vs 25.53)
  • 相比标量 WebPRM(Miao et al., 2025):提供可审计的推理链而非数值分数
  • 相比 LLM-as-Judge:7B 专用模型远超通用 GPT-5
  • 相比 Reasoning RM 文献(Chen et al., 2025):首次将推理 RM 应用于 Web Agent 领域

启发与关联

  • 原则引导的推理蒸馏范式可推广到其他过程奖励建模场景
  • 两阶段 SFT → RL 流程对训练可验证奖励模型有参考价值
  • WebPRMBench 提供了标准化的 WebPRM 评估框架
  • 推理优先的奖励模型可与搜索/规划算法结合,实现推理时扩展

评分

  • 新颖性: ⭐⭐⭐⭐⭐ (推理优先+原则引导的WebPRM设计全新,两阶段训练策略创新)
  • 实验充分度: ⭐⭐⭐⭐⭐ (4环境benchmark、多类型baseline、详细消融、实际搜索验证)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,但符号较多,需要仔细阅读)
  • 价值: ⭐⭐⭐⭐⭐ (7B超越GPT-5,开源WebPRMBench,对Web Agent领域贡献巨大)