跳转至

X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System

会议: ACL 2025 Findings
arXiv: 2505.15372
代码: 无
领域: 多语言翻译
关键词: 多语言智能体、网页交互基准、跨语言对齐、全球化评测、规划与交互

一句话总结

提出 X-WebAgentBench——一个多语言交互式网页基准,用于评估语言智能体在多种语言下的规划和交互能力,并评测了多种 LLM 及跨语言对齐方法,发现即使 GPT-4o 结合跨语言技术也无法达到令人满意的结果。

研究背景与动机

领域现状:基于 LLM 的智能体(Agent)在交互式环境中取得了显著成功,尤其是在网页操作任务上——智能体可以根据自然语言指令在网页上执行点击、输入、导航等操作来完成任务。WebArena、Mind2Web 等基准推动了这一领域的快速发展。

现有痛点:当前几乎所有的网页智能体研究都聚焦于英语场景。但全球有超过 7,000 种语言,所有语言的用户都需要可比的智能体服务。一个中文用户需要让智能体在中文网站上完成任务,一个阿拉伯语用户需要在阿拉伯语网页上操作——但目前缺乏评估智能体多语言能力的基准。

核心矛盾:LLM 的多语言能力存在严重不均衡——在高资源语言(如英语)上表现优秀,在低资源语言上显著退化。将这种不均衡放到交互式智能体场景中,问题会被放大:智能体不仅要理解多语言的指令,还要在多语言的网页上正确识别元素、做出决策、执行操作。

本文目标:(1) 构建一个覆盖多种语言的交互式网页智能体基准;(2) 评估现有 LLM 和跨语言对齐方法在多语言智能体场景下的实际表现;(3) 揭示多语言智能体面临的核心挑战。

切入角度:基于已有的英文网页智能体环境进行多语言扩展,构建包含多种语言的任务指令和网页环境,并引入跨语言对齐技术来尝试缩小语言间的差距。

核心 idea:将成熟的英文网页智能体评测框架扩展到多语言场景,通过对比不同语言、不同 LLM、不同跨语言方法的组合表现,系统性地揭示多语言网页智能体的瓶颈所在。

方法详解

整体框架

X-WebAgentBench 的构建包含三部分:(1) 多语言任务构建——将英文任务指令翻译为多种目标语言,并相应调整网页环境中的语言设置;(2) 交互式评测环境——基于真实网站架构搭建可交互的网页环境,智能体通过 actions(click、type、scroll 等)与网页交互;(3) 跨语言方法评测——在基准上评测多种 LLM 和跨语言对齐策略的组合效果。

关键设计

  1. 多语言任务与环境构建:

    • 功能:提供覆盖多种语言的高质量网页交互任务
    • 核心思路:以英文版网页智能体任务为基础,通过专业翻译和本地化(localization)将任务指令翻译为中文、日文、韩文、阿拉伯文、法文、德文、西班牙文、葡萄牙文等多种语言。翻译不仅是文本转换——还需要调整网页环境中的语言设置、货币单位、日期格式等本地化要素。每个语言版本都经过母语者审校确保自然性和正确性。
    • 设计动机:简单的机器翻译会导致任务不够自然,而本地化确保了每种语言的任务看起来都像是为该语言原生设计的。这使评测结果更能反映智能体在真实多语言场景中的表现。
  2. 规划与交互双维度评测:

    • 功能:分别评估智能体的高层规划能力和低层交互执行能力
    • 核心思路:将网页任务的完成分解为两个维度——规划(Planning)评分衡量智能体是否能制定正确的步骤序列(如"先搜索商品→选择第一个结果→添加到购物车→结账"),交互(Interaction)评分衡量智能体能否正确执行每个步骤中的具体操作(如正确定位搜索框、输入正确内容、点击正确按钮)。综合指标是任务完成率(Success Rate)。
    • 设计动机:将规划和交互分开评测能更精确地定位多语言场景下的瓶颈——是智能体在非英语环境中不知道该怎么做(规划失败),还是知道怎么做但无法正确操作(交互失败)?
  3. 跨语言对齐方法集成:

    • 功能:评测多种方法能否缩小多语言智能体的语言差距
    • 核心思路:评测了三类跨语言对齐方法——(1) 翻译辅助(Translate-then-Act):将非英语指令翻译为英语后让智能体执行,依赖翻译质量;(2) 跨语言 prompt(Cross-lingual Prompting):在 prompt 中加入多语言示例或跨语言指令,引导模型利用其跨语言能力;(3) 多语言微调(Multilingual Fine-tuning):在多语言数据上微调智能体模型。每种方法与多种 LLM(GPT-4o、Qwen、LLaMA 等)组合评测。
    • 设计动机:如果有简单的跨语言方法就能消除差距,那多语言智能体问题就不那么紧迫。实验结果表明即使组合最强模型和最好的跨语言方法,差距依然显著,这凸显了问题的紧迫性和重要性。

训练策略

X-WebAgentBench 本身是一个评测基准,不涉及模型训练。评测的多语言微调方法使用标准的指令微调流程,在多语言任务指令和对应的动作序列上微调基础模型。

实验关键数据

主实验

模型 英文 SR 中文 SR 日文 SR 阿拉伯文 SR 平均 SR
GPT-4o 42.3 31.5 28.7 22.4 31.2
GPT-4o + Translate 42.3 34.8 31.2 26.1 33.6
GPT-4o + XL-Prompt 42.3 33.2 30.5 24.8 32.7
Qwen-Max 38.7 35.2 26.3 19.8 30.0
LLaMA-3-70B 35.1 24.8 21.5 16.2 24.4
LLaMA-3-70B + XL-FT 35.1 28.6 25.1 20.7 27.4

规划 vs 交互分析

模型 英文规划 非英语规划 英文交互 非英语交互
GPT-4o 68.5 52.3 61.7 48.1
Qwen-Max 63.2 54.8 58.4 43.6
LLaMA-3-70B 58.4 41.7 53.2 37.5

关键发现

  • 所有模型在非英语语言上的性能都显著低于英语,GPT-4o 在英文上 42.3% SR 而在阿拉伯文上仅 22.4%,差距近 20 个百分点
  • 翻译辅助方法(Translate-then-Act)是最简单有效的跨语言策略,但提升有限(平均仅 +2.4%)且依赖翻译质量
  • 跨语言对齐方法无法消除语言差距:即使 GPT-4o 结合最好的跨语言方法,非英语平均 SR 也仅 33.6%,远不及英语的 42.3%
  • 规划和交互都受多语言影响,但交互维度的退化更严重——智能体在非英语网页上定位和操作元素的能力下降更多
  • Qwen-Max 在中文上表现接近英语(35.2 vs 38.7),可能得益于其在中文上的强大预训练,但在其他语言上同样退化明显

亮点与洞察

  • 首个多语言交互式网页智能体基准填补了重要空白——此前所有网页智能体评测都假设英语环境,但实际应用场景远比英语更多样
  • 规划-交互双维度评测的设计很有价值:它揭示了多语言退化主要发生在交互层(找不到正确的网页元素)而非规划层(不知道要做什么),这为解决方案指明了方向——改进网页元素理解比改进任务规划更紧迫
  • "最强模型 + 最好方法仍然不够"的结论非常有警示意义——它说明多语言智能体不是一个可以通过简单 trick 解决的问题,需要更根本性的技术突破

局限与展望

  • 多语言任务主要通过翻译已有英文任务构建,可能无法覆盖某些语言特有的网页交互模式
  • 覆盖的语言数量虽多但仍有限,很多低资源语言(如斯瓦希里语、印地语方言等)未被包含
  • 网页环境是模拟构建的,与真实网站可能存在差异
  • 没有深入分析具体是什么语言特征导致了智能体退化(如文字方向、形态复杂性、分词难度等)

相关工作与启发

  • vs WebArena: WebArena 是最有影响力的英文网页智能体基准,X-WebAgentBench 可以看作其多语言扩展版本,核心差异在于引入了跨语言维度
  • vs XTREME / XGLUE: 这些是多语言 NLU 评测基准,但只评估文本理解/生成能力,不涉及交互式环境中的规划和行动能力
  • vs AgentBench: AgentBench 评测 LLM 在多种交互环境中的能力,但所有任务都是英文的。X-WebAgentBench 在网页这一特定环境中增加了多语言维度

评分

  • 新颖性: ⭐⭐⭐⭐ 多语言网页智能体评测是新颖且重要的方向
  • 实验充分度: ⭐⭐⭐⭐ 多模型、多语言、多方法的全面评测
  • 写作质量: ⭐⭐⭐⭐ 问题定义清楚,实验结果展示清晰
  • 价值: ⭐⭐⭐⭐ 揭示了多语言智能体的重要差距,推动社区关注这一被忽视的方向