X-WebAgentBench: A Multilingual Interactive Web Benchmark for Evaluating Global Agentic System¶

会议: ACL 2025 Findings
arXiv: 2505.15372
代码: 无
领域: 多语言翻译
关键词: 多语言智能体、网页交互基准、跨语言对齐、全球化评测、规划与交互

一句话总结¶

提出 X-WebAgentBench——一个多语言交互式网页基准，用于评估语言智能体在多种语言下的规划和交互能力，并评测了多种 LLM 及跨语言对齐方法，发现即使 GPT-4o 结合跨语言技术也无法达到令人满意的结果。

研究背景与动机¶

领域现状：基于 LLM 的智能体（Agent）在交互式环境中取得了显著成功，尤其是在网页操作任务上——智能体可以根据自然语言指令在网页上执行点击、输入、导航等操作来完成任务。WebArena、Mind2Web 等基准推动了这一领域的快速发展。

现有痛点：当前几乎所有的网页智能体研究都聚焦于英语场景。但全球有超过 7,000 种语言，所有语言的用户都需要可比的智能体服务。一个中文用户需要让智能体在中文网站上完成任务，一个阿拉伯语用户需要在阿拉伯语网页上操作——但目前缺乏评估智能体多语言能力的基准。

核心矛盾：LLM 的多语言能力存在严重不均衡——在高资源语言（如英语）上表现优秀，在低资源语言上显著退化。将这种不均衡放到交互式智能体场景中，问题会被放大：智能体不仅要理解多语言的指令，还要在多语言的网页上正确识别元素、做出决策、执行操作。

本文目标：(1) 构建一个覆盖多种语言的交互式网页智能体基准；(2) 评估现有 LLM 和跨语言对齐方法在多语言智能体场景下的实际表现；(3) 揭示多语言智能体面临的核心挑战。

切入角度：基于已有的英文网页智能体环境进行多语言扩展，构建包含多种语言的任务指令和网页环境，并引入跨语言对齐技术来尝试缩小语言间的差距。

核心 idea：将成熟的英文网页智能体评测框架扩展到多语言场景，通过对比不同语言、不同 LLM、不同跨语言方法的组合表现，系统性地揭示多语言网页智能体的瓶颈所在。

方法详解¶

整体框架¶

X-WebAgentBench 的构建包含三部分：(1) 多语言任务构建——将英文任务指令翻译为多种目标语言，并相应调整网页环境中的语言设置；(2) 交互式评测环境——基于真实网站架构搭建可交互的网页环境，智能体通过 actions（click、type、scroll 等）与网页交互；(3) 跨语言方法评测——在基准上评测多种 LLM 和跨语言对齐策略的组合效果。

关键设计¶

多语言任务与环境构建:
- 功能：提供覆盖多种语言的高质量网页交互任务
- 核心思路：以英文版网页智能体任务为基础，通过专业翻译和本地化（localization）将任务指令翻译为中文、日文、韩文、阿拉伯文、法文、德文、西班牙文、葡萄牙文等多种语言。翻译不仅是文本转换——还需要调整网页环境中的语言设置、货币单位、日期格式等本地化要素。每个语言版本都经过母语者审校确保自然性和正确性。
- 设计动机：简单的机器翻译会导致任务不够自然，而本地化确保了每种语言的任务看起来都像是为该语言原生设计的。这使评测结果更能反映智能体在真实多语言场景中的表现。
规划与交互双维度评测:
- 功能：分别评估智能体的高层规划能力和低层交互执行能力
- 核心思路：将网页任务的完成分解为两个维度——规划（Planning）评分衡量智能体是否能制定正确的步骤序列（如"先搜索商品→选择第一个结果→添加到购物车→结账"），交互（Interaction）评分衡量智能体能否正确执行每个步骤中的具体操作（如正确定位搜索框、输入正确内容、点击正确按钮）。综合指标是任务完成率（Success Rate）。
- 设计动机：将规划和交互分开评测能更精确地定位多语言场景下的瓶颈——是智能体在非英语环境中不知道该怎么做（规划失败），还是知道怎么做但无法正确操作（交互失败）？
跨语言对齐方法集成:
- 功能：评测多种方法能否缩小多语言智能体的语言差距
- 核心思路：评测了三类跨语言对齐方法——(1) 翻译辅助（Translate-then-Act）：将非英语指令翻译为英语后让智能体执行，依赖翻译质量；(2) 跨语言 prompt（Cross-lingual Prompting）：在 prompt 中加入多语言示例或跨语言指令，引导模型利用其跨语言能力；(3) 多语言微调（Multilingual Fine-tuning）：在多语言数据上微调智能体模型。每种方法与多种 LLM（GPT-4o、Qwen、LLaMA 等）组合评测。
- 设计动机：如果有简单的跨语言方法就能消除差距，那多语言智能体问题就不那么紧迫。实验结果表明即使组合最强模型和最好的跨语言方法，差距依然显著，这凸显了问题的紧迫性和重要性。

训练策略¶

X-WebAgentBench 本身是一个评测基准，不涉及模型训练。评测的多语言微调方法使用标准的指令微调流程，在多语言任务指令和对应的动作序列上微调基础模型。

实验关键数据¶

主实验¶

模型	英文 SR	中文 SR	日文 SR	阿拉伯文 SR	平均 SR
GPT-4o	42.3	31.5	28.7	22.4	31.2
GPT-4o + Translate	42.3	34.8	31.2	26.1	33.6
GPT-4o + XL-Prompt	42.3	33.2	30.5	24.8	32.7
Qwen-Max	38.7	35.2	26.3	19.8	30.0
LLaMA-3-70B	35.1	24.8	21.5	16.2	24.4
LLaMA-3-70B + XL-FT	35.1	28.6	25.1	20.7	27.4

规划 vs 交互分析¶

模型	英文规划	非英语规划	英文交互	非英语交互
GPT-4o	68.5	52.3	61.7	48.1
Qwen-Max	63.2	54.8	58.4	43.6
LLaMA-3-70B	58.4	41.7	53.2	37.5

关键发现¶

所有模型在非英语语言上的性能都显著低于英语，GPT-4o 在英文上 42.3% SR 而在阿拉伯文上仅 22.4%，差距近 20 个百分点
翻译辅助方法（Translate-then-Act）是最简单有效的跨语言策略，但提升有限（平均仅 +2.4%）且依赖翻译质量
跨语言对齐方法无法消除语言差距：即使 GPT-4o 结合最好的跨语言方法，非英语平均 SR 也仅 33.6%，远不及英语的 42.3%
规划和交互都受多语言影响，但交互维度的退化更严重——智能体在非英语网页上定位和操作元素的能力下降更多
Qwen-Max 在中文上表现接近英语（35.2 vs 38.7），可能得益于其在中文上的强大预训练，但在其他语言上同样退化明显

亮点与洞察¶

首个多语言交互式网页智能体基准填补了重要空白——此前所有网页智能体评测都假设英语环境，但实际应用场景远比英语更多样
规划-交互双维度评测的设计很有价值：它揭示了多语言退化主要发生在交互层（找不到正确的网页元素）而非规划层（不知道要做什么），这为解决方案指明了方向——改进网页元素理解比改进任务规划更紧迫
"最强模型 + 最好方法仍然不够"的结论非常有警示意义——它说明多语言智能体不是一个可以通过简单 trick 解决的问题，需要更根本性的技术突破

局限与展望¶

多语言任务主要通过翻译已有英文任务构建，可能无法覆盖某些语言特有的网页交互模式
覆盖的语言数量虽多但仍有限，很多低资源语言（如斯瓦希里语、印地语方言等）未被包含
网页环境是模拟构建的，与真实网站可能存在差异
没有深入分析具体是什么语言特征导致了智能体退化（如文字方向、形态复杂性、分词难度等）

评分¶

新颖性: ⭐⭐⭐⭐ 多语言网页智能体评测是新颖且重要的方向
实验充分度: ⭐⭐⭐⭐ 多模型、多语言、多方法的全面评测
写作质量: ⭐⭐⭐⭐ 问题定义清楚，实验结果展示清晰
价值: ⭐⭐⭐⭐ 揭示了多语言智能体的重要差距，推动社区关注这一被忽视的方向