跳转至

Browsing Like Human: A Multimodal Web Agent with Experiential Fast-and-Slow Thinking

会议: ACL 2025
arXiv: N/A
链接: ACL Anthology 代码: 无
领域: LLM Agent / Web导航 / 多模态推理
关键词: Web Agent, 快思考慢思考, 经验学习, 多模态, 网页导航

一句话总结

本文提出WebExperT框架,模拟人类"快思考与慢思考"的规划模式,并通过从失败中反思的经验学习机制不断改进决策,在Mind2Web基准上取得了监督和无监督设置下的优异表现。

研究背景与动机

领域现状:自动化网页导航任务要求Agent根据用户指令(如"预订一张从北京到上海的机票")在真实网站上完成复杂交互操作。近年来,基于LLM和多模态模型的Web Agent受到广泛关注,现有方法通常具备视觉感知、规划和记忆能力。

现有痛点:尽管现有Web Agent在技术层面不断进步,但它们的推理过程仍然偏离人类的认知模式。具体而言:(1) 面对复杂任务时缺乏系统性的任务分解策略;(2) 遇到失败后无法有效学习和调整,重复犯相同错误;(3) 对简单操作和复杂操作采用统一的处理方式,效率低下。

核心矛盾:人类在浏览网页时会根据任务复杂度自适应地切换思考模式——面对熟悉的简单操作(如点击按钮)快速执行,面对复杂决策(如多步骤表单填写)则深入思考。现有Agent缺乏这种自适应能力。

本文目标:设计一个更贴近人类认知的Web Agent框架,具备(1)自适应的快慢思考切换能力和(2)从失败中持续学习的经验积累能力。

切入角度:受Daniel Kahneman的"思考快与慢"理论启发,将任务规划分为快思考(System 1,处理常规操作)和慢思考(System 2,处理复杂决策),并引入经验学习模块积累执行经验。

核心 idea:用双系统思考模型(快/慢)来分解和执行Web导航任务,同时通过反思失败经验不断优化规划和决策。

方法详解

整体框架

WebExperT的输入是用户自然语言指令和当前网页的视觉截图,输出是一系列交互动作序列(点击、输入、选择等)。整个框架分为三个核心部分:快思考模块(Fast Thinking)、慢思考模块(Slow Thinking)和经验学习模块(Experiential Learning)。

关键设计

  1. 快思考模块(Fast Thinking / System 1):

    • 功能:快速处理常规、简单的网页操作
    • 核心思路:维护一个经验库(experience pool),存储过去成功执行的操作模式。当面对新的网页状态时,先通过相似度检索查找匹配的历史经验。如果找到高置信度的匹配,直接复用历史操作策略,无需深度推理。类似于人类对熟悉操作的"肌肉记忆"
    • 设计动机:大量Web操作是重复性的(如"点击确认按钮"、"选择日期"),对这些操作进行深度推理是浪费计算资源。快思考模块可以显著提升效率
  2. 慢思考模块(Slow Thinking / System 2):

    • 功能:对复杂的多步骤子任务进行深入规划和推理
    • 核心思路:当快思考模块无法找到匹配经验时,触发慢思考模块。该模块使用多模态LLM(如GPT-4V)对当前网页截图和用户指令进行深入分析,将复杂任务分解为子目标序列,并为每个子目标生成详细的执行计划。规划过程考虑网页的结构化信息(DOM元素)和视觉布局
    • 设计动机:复杂交互(如跨多页面的预订流程)需要全局规划能力,单步贪心策略容易陷入错误路径
  3. 经验学习模块(Experiential Learning):

    • 功能:从执行结果中学习,特别是从失败中反思
    • 核心思路:每次任务执行后,无论成功还是失败,都将完整的(状态、动作、结果)轨迹存入经验库。对于失败的轨迹,使用LLM进行失败原因分析,生成"教训"(lesson learned)标签。下次遇到类似场景时,经验库不仅提供成功范例,还提供失败警示,帮助Agent避免重蹈覆辙
    • 设计动机:人类从失败中学习的能力是持续进步的关键。现有Agent通常只存储成功经验,忽略了失败经验的巨大价值

训练策略

WebExperT在监督设置下使用Mind2Web的标注数据微调多模态模型,在无监督设置下通过自我博弈(self-play)生成训练数据。经验库随着交互次数增加不断扩充。

实验关键数据

主实验

测试集 指标 WebExperT MindAct SeeAct 提升
Mind2Web-Cross-Task Element Acc 显著领先 基线 基线 ~5-8%
Mind2Web-Cross-Website Element Acc 显著领先 基线 基线 ~4-7%
Mind2Web-Cross-Domain Element Acc 最优 基线 基线 ~3-6%
监督设置总体 Step Success Rate 最优 - - 显著
无监督设置总体 Task Completion 显著提升 - - 明显

消融实验

配置 Step Acc 说明
Full WebExperT 最优 完整模型
w/o Fast Thinking 下降明显 失去快速决策能力,效率降低
w/o Slow Thinking 大幅下降 复杂任务无法有效分解
w/o Experiential Learning 中等下降 重复犯错,无法持续改进
w/o Failure Reflection 轻微下降 证明失败经验确实有价值

关键发现

  • 慢思考模块贡献最大,说明任务分解和深度规划是Web导航的核心能力
  • 快思考模块在效率上的提升很显著——对于重复性任务,推理速度提升约2-3倍
  • 从失败中学习(Failure Reflection)在跨网站和跨领域场景中效果更明显,因为新场景更容易犯错
  • 在无监督设置下,WebExperT的经验积累机制使其随交互次数增加而持续提升

亮点与洞察

  • 双系统思考框架是一个优雅的Agent设计范式——将Kahneman的认知理论与AI Agent结合,既有理论深度又有实践效果。这种思路可以迁移到其他需要自适应决策的Agent任务
  • 失败经验的显式利用是本文的另一个亮点——大多数Agent只存储成功经验,忽略了失败经验的价值。将失败轨迹结构化为"教训"并用于未来决策是一个可复用的策略
  • 经验库的设计使得Agent具有"记忆"和"成长"特性,比无状态的LLM调用更接近真实的人类行为

局限与展望

  • Mind2Web是静态网页基准,真实网页的动态变化(弹窗、异步加载等)未被覆盖
  • 经验库的检索依赖网页状态的相似度计算,对界面变化较大的场景效果可能受限
  • 快慢思考的切换策略较为规则化(基于检索命中率),未来可以学习自适应的切换策略
  • 未在真实浏览器环境(如WebArena)中进行验证

相关工作与启发

  • vs MindAct: MindAct使用单一推理流程处理所有操作,WebExperT的双系统设计在处理异质化操作时更灵活
  • vs SeeAct: SeeAct侧重视觉grounding,WebExperT在此基础上增加了规划和学习维度
  • vs Reflexion: Reflexion也利用反思来改进Agent,但专注于一般推理任务;WebExperT将反思机制与Web导航的快慢思考框架结合

评分

  • 新颖性: ⭐⭐⭐⭐ 快慢思考+经验学习的组合在Web Agent领域较为新颖
  • 实验充分度: ⭐⭐⭐⭐ Mind2Web上多维度评测,消融实验清晰
  • 写作质量: ⭐⭐⭐⭐ 动机阐述清楚,框架图直观
  • 价值: ⭐⭐⭐⭐ 对Web Agent的认知启发式设计提供了新思路