X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System¶
会议: ACL 2025 Findings
arXiv: 2505.15372
代码: 无
领域: 多语言翻译
关键词: 多语言智能体、网页交互基准、跨语言对齐、全球化评测、规划与交互
一句话总结¶
提出 X-WebAgentBench——一个多语言交互式网页基准,用于评估语言智能体在多种语言下的规划和交互能力,并评测了多种 LLM 及跨语言对齐方法,发现即使 GPT-4o 结合跨语言技术也无法达到令人满意的结果。
研究背景与动机¶
领域现状:基于 LLM 的智能体(Agent)在交互式环境中取得了显著成功,尤其是在网页操作任务上——智能体可以根据自然语言指令在网页上执行点击、输入、导航等操作来完成任务。WebArena、Mind2Web 等基准推动了这一领域的快速发展。
现有痛点:当前几乎所有的网页智能体研究都聚焦于英语场景。但全球有超过 7,000 种语言,所有语言的用户都需要可比的智能体服务。一个中文用户需要让智能体在中文网站上完成任务,一个阿拉伯语用户需要在阿拉伯语网页上操作——但目前缺乏评估智能体多语言能力的基准。
核心矛盾:LLM 的多语言能力存在严重不均衡——在高资源语言(如英语)上表现优秀,在低资源语言上显著退化。将这种不均衡放到交互式智能体场景中,问题会被放大:智能体不仅要理解多语言的指令,还要在多语言的网页上正确识别元素、做出决策、执行操作。
本文目标:(1) 构建一个覆盖多种语言的交互式网页智能体基准;(2) 评估现有 LLM 和跨语言对齐方法在多语言智能体场景下的实际表现;(3) 揭示多语言智能体面临的核心挑战。
切入角度:基于已有的英文网页智能体环境进行多语言扩展,构建包含多种语言的任务指令和网页环境,并引入跨语言对齐技术来尝试缩小语言间的差距。
核心 idea:将成熟的英文网页智能体评测框架扩展到多语言场景,通过对比不同语言、不同 LLM、不同跨语言方法的组合表现,系统性地揭示多语言网页智能体的瓶颈所在。
方法详解¶
整体框架¶
X-WebAgentBench 的构建包含三部分:(1) 多语言任务构建——将英文任务指令翻译为多种目标语言,并相应调整网页环境中的语言设置;(2) 交互式评测环境——基于真实网站架构搭建可交互的网页环境,智能体通过 actions(click、type、scroll 等)与网页交互;(3) 跨语言方法评测——在基准上评测多种 LLM 和跨语言对齐策略的组合效果。
关键设计¶
-
多语言任务与环境构建:
- 功能:提供覆盖多种语言的高质量网页交互任务
- 核心思路:以英文版网页智能体任务为基础,通过专业翻译和本地化(localization)将任务指令翻译为中文、日文、韩文、阿拉伯文、法文、德文、西班牙文、葡萄牙文等多种语言。翻译不仅是文本转换——还需要调整网页环境中的语言设置、货币单位、日期格式等本地化要素。每个语言版本都经过母语者审校确保自然性和正确性。
- 设计动机:简单的机器翻译会导致任务不够自然,而本地化确保了每种语言的任务看起来都像是为该语言原生设计的。这使评测结果更能反映智能体在真实多语言场景中的表现。
-
规划与交互双维度评测:
- 功能:分别评估智能体的高层规划能力和低层交互执行能力
- 核心思路:将网页任务的完成分解为两个维度——规划(Planning)评分衡量智能体是否能制定正确的步骤序列(如"先搜索商品→选择第一个结果→添加到购物车→结账"),交互(Interaction)评分衡量智能体能否正确执行每个步骤中的具体操作(如正确定位搜索框、输入正确内容、点击正确按钮)。综合指标是任务完成率(Success Rate)。
- 设计动机:将规划和交互分开评测能更精确地定位多语言场景下的瓶颈——是智能体在非英语环境中不知道该怎么做(规划失败),还是知道怎么做但无法正确操作(交互失败)?
-
跨语言对齐方法集成:
- 功能:评测多种方法能否缩小多语言智能体的语言差距
- 核心思路:评测了三类跨语言对齐方法——(1) 翻译辅助(Translate-then-Act):将非英语指令翻译为英语后让智能体执行,依赖翻译质量;(2) 跨语言 prompt(Cross-lingual Prompting):在 prompt 中加入多语言示例或跨语言指令,引导模型利用其跨语言能力;(3) 多语言微调(Multilingual Fine-tuning):在多语言数据上微调智能体模型。每种方法与多种 LLM(GPT-4o、Qwen、LLaMA 等)组合评测。
- 设计动机:如果有简单的跨语言方法就能消除差距,那多语言智能体问题就不那么紧迫。实验结果表明即使组合最强模型和最好的跨语言方法,差距依然显著,这凸显了问题的紧迫性和重要性。
训练策略¶
X-WebAgentBench 本身是一个评测基准,不涉及模型训练。评测的多语言微调方法使用标准的指令微调流程,在多语言任务指令和对应的动作序列上微调基础模型。
实验关键数据¶
主实验¶
| 模型 | 英文 SR | 中文 SR | 日文 SR | 阿拉伯文 SR | 平均 SR |
|---|---|---|---|---|---|
| GPT-4o | 42.3 | 31.5 | 28.7 | 22.4 | 31.2 |
| GPT-4o + Translate | 42.3 | 34.8 | 31.2 | 26.1 | 33.6 |
| GPT-4o + XL-Prompt | 42.3 | 33.2 | 30.5 | 24.8 | 32.7 |
| Qwen-Max | 38.7 | 35.2 | 26.3 | 19.8 | 30.0 |
| LLaMA-3-70B | 35.1 | 24.8 | 21.5 | 16.2 | 24.4 |
| LLaMA-3-70B + XL-FT | 35.1 | 28.6 | 25.1 | 20.7 | 27.4 |
规划 vs 交互分析¶
| 模型 | 英文规划 | 非英语规划 | 英文交互 | 非英语交互 |
|---|---|---|---|---|
| GPT-4o | 68.5 | 52.3 | 61.7 | 48.1 |
| Qwen-Max | 63.2 | 54.8 | 58.4 | 43.6 |
| LLaMA-3-70B | 58.4 | 41.7 | 53.2 | 37.5 |
关键发现¶
- 所有模型在非英语语言上的性能都显著低于英语,GPT-4o 在英文上 42.3% SR 而在阿拉伯文上仅 22.4%,差距近 20 个百分点
- 翻译辅助方法(Translate-then-Act)是最简单有效的跨语言策略,但提升有限(平均仅 +2.4%)且依赖翻译质量
- 跨语言对齐方法无法消除语言差距:即使 GPT-4o 结合最好的跨语言方法,非英语平均 SR 也仅 33.6%,远不及英语的 42.3%
- 规划和交互都受多语言影响,但交互维度的退化更严重——智能体在非英语网页上定位和操作元素的能力下降更多
- Qwen-Max 在中文上表现接近英语(35.2 vs 38.7),可能得益于其在中文上的强大预训练,但在其他语言上同样退化明显
亮点与洞察¶
- 首个多语言交互式网页智能体基准填补了重要空白——此前所有网页智能体评测都假设英语环境,但实际应用场景远比英语更多样
- 规划-交互双维度评测的设计很有价值:它揭示了多语言退化主要发生在交互层(找不到正确的网页元素)而非规划层(不知道要做什么),这为解决方案指明了方向——改进网页元素理解比改进任务规划更紧迫
- "最强模型 + 最好方法仍然不够"的结论非常有警示意义——它说明多语言智能体不是一个可以通过简单 trick 解决的问题,需要更根本性的技术突破
局限与展望¶
- 多语言任务主要通过翻译已有英文任务构建,可能无法覆盖某些语言特有的网页交互模式
- 覆盖的语言数量虽多但仍有限,很多低资源语言(如斯瓦希里语、印地语方言等)未被包含
- 网页环境是模拟构建的,与真实网站可能存在差异
- 没有深入分析具体是什么语言特征导致了智能体退化(如文字方向、形态复杂性、分词难度等)
相关工作与启发¶
- vs WebArena: WebArena 是最有影响力的英文网页智能体基准,X-WebAgentBench 可以看作其多语言扩展版本,核心差异在于引入了跨语言维度
- vs XTREME / XGLUE: 这些是多语言 NLU 评测基准,但只评估文本理解/生成能力,不涉及交互式环境中的规划和行动能力
- vs AgentBench: AgentBench 评测 LLM 在多种交互环境中的能力,但所有任务都是英文的。X-WebAgentBench 在网页这一特定环境中增加了多语言维度
评分¶
- 新颖性: ⭐⭐⭐⭐ 多语言网页智能体评测是新颖且重要的方向
- 实验充分度: ⭐⭐⭐⭐ 多模型、多语言、多方法的全面评测
- 写作质量: ⭐⭐⭐⭐ 问题定义清楚,实验结果展示清晰
- 价值: ⭐⭐⭐⭐ 揭示了多语言智能体的重要差距,推动社区关注这一被忽视的方向