FedGUI: Benchmarking Federated GUI Agents across Heterogeneous Platforms, Devices, and Operating Systems¶

会议: ACL 2026 Findings
arXiv: 2604.14956
代码: GitHub
领域: Agent / GUI交互
关键词: 联邦学习, GUI代理, 跨平台异构性, 隐私保护, 分布式训练

一句话总结¶

FedGUI 是首个面向跨平台 GUI 代理的联邦学习综合基准，包含六个数据集覆盖移动端/网页端/桌面端，系统研究跨平台、跨设备、跨操作系统和跨数据源四种异构性对联邦 GUI 代理训练的影响。

研究背景与动机¶

领域现状：GUI 代理通过视觉语言模型（VLM）感知图形界面并执行用户指令。传统方法依赖集中式数据收集和标注，成本高且不可扩展。联邦学习提供了隐私保护的分布式训练范式。

现有痛点：（1）现有联邦 GUI 基准（FedMABench）仅限于 Android 用户间的协作，忽略了网页和桌面用户的贡献潜力；（2）真实世界中 GUI 数据分布在不同平台（移动/网页/桌面）、设备（不同手机型号）、操作系统（Android/macOS/Windows/Ubuntu）中，这些异构性对联邦训练的影响未被研究。

核心矛盾：GUI 设备自然产生丰富的监督信号，但因隐私问题无法共享——联邦学习可以解决这一问题，但缺乏捕捉真实世界跨平台异构性的基准来指导算法选择。

本文目标：构建覆盖多平台、多设备、多OS的联邦 GUI 代理基准，回答两个关键问题：跨平台协作是否能提升性能？如何量化和应对不同维度的异构性？

切入角度：从九个数据源构建六个数据集，分别对应四种异构性维度，结合七种联邦学习算法和 20+ 基础模型进行系统评估。

核心 idea：四维异构性建模（Platform × Device × OS × Source）+ 统一动作空间 + 系统化联邦学习评估。

方法详解¶

整体框架¶

FedGUI 把"跨平台 GUI 代理能否靠联邦学习协作训练"做成一个可量化的基准：它遵循标准联邦学习协议，中央服务器协调一批异构客户端，每个客户端只在本地的 GUI 交互数据上训练、再把更新聚合成全局 VLM 模型。为了让外观迥异的移动/网页/桌面界面能在同一模型里聚合，FedGUI 提供一套统一动作空间，并据此从八个数据源切出六个数据集，分别隔离平台、设备、操作系统、数据源四种异构性来做系统评估。

关键设计¶

1. 四维异构性数据集构建：把"哪种异构最难"拆开来量

真实世界的 GUI 数据同时混杂着平台（移动/网页/桌面）、设备（不同手机型号）、操作系统（Android/macOS/Windows/Ubuntu）和数据源四个层面的差异，混在一起根本说不清是谁拖累了联邦训练，所以 FedGUI 从八个数据源切出六个互相隔离的数据集——FedGUI-Platform（15 个客户端）、FedGUI-Device（5 种 Android 设备）、FedGUI-OS、FedGUI-Web、FedGUI-Mobile，以及联合跨平台与跨数据源的 FedGUI-Full。

每个数据集只放大一种异构维度，这样平台级异构与设备级异构的影响就能被分别测量、互不掩盖，最终得到"平台级 > 操作系统 > 设备/数据源"的难度排序结论也才有说服力。

2. 统一动作空间：让外观完全不同的界面在动作层对齐

不同平台的 GUI 长得毫不相干，模型参数无法直接聚合，FedGUI 的解法是退到动作层面找公约数：识别出 CLICK、TYPE 等六种跨平台共享的基本动作，再把各平台特有的交互映射到两个独立的动作域（在系统提示里定义）。

这样即使移动端和桌面端的界面在像素层面毫无共同点，联邦聚合也能在"动作类型"这一层保持一致；否则跨平台的本地模型参数根本没有可对齐的语义，聚合出来的全局模型就只是噪声。

3. 系统化联邦算法评估：给跨平台部署一份算法选型实证表

光有数据集还不够，到底该用哪种联邦算法才是实践者最关心的问题，FedGUI 把 FedAvg、FedProx、FedYogi 等七种代表性算法在全部六个数据集和各异构设置上跑了一遍横评，评测指标覆盖动作类型准确率、Grounding 精度和成功率。

横评的价值在于揭示"最优算法随异构维度变化"——结果显示 FedYogi 这类自适应学习率算法在跨平台场景下最稳健，作者推测是自适应聚合更能消化不同平台之间的梯度分布差异。

损失函数 / 训练策略¶

标准联邦学习设置：本地训练用交叉熵损失，全局侧按各联邦算法自己的聚合策略合并更新；并支持 LoRA 微调以压低通信与计算成本。

实验关键数据¶

主实验¶

发现	说明
跨平台协作有益	增加参与用户（即使来自不同平台）提升模型性能
平台级异构影响最大	跨平台异构比平台内异构（设备/OS/数据源）更具挑战性
自适应算法最优	FedYogi 等自适应算法在跨平台设置下表现最稳健

消融实验¶

配置	关键指标	说明
仅移动端 vs 全平台联邦	全平台更优	跨平台数据多样性有正面贡献
IID vs Non-IID 设备分布	Non-IID 下降	设备异构导致数据偏斜
不同基础模型	较大模型收益更高	VLM 规模影响联邦学习效果

关键发现¶

即使来自高度异构的平台和设备，增加联邦参与者仍能提升全局模型性能——这为大规模分布式 GUI 代理训练提供了信心
平台级异构是最大的性能挑战，其次是操作系统，设备和数据源的影响相对较小
FedYogi 等自适应学习率算法在跨平台场景中特别有效，可能因为自适应聚合能更好地处理不同平台的梯度分布差异

亮点与洞察¶

四维异构性分解是一个有系统性的实验设计——使得每种异构性的影响可以独立分析
跨平台协作有益的发现有实际部署价值——意味着可以利用多种设备类型的用户数据来训练更好的统一 GUI 代理
统一动作空间是实现跨平台联邦学习的关键工程贡献

局限与展望¶

仅评估了 LoRA 微调，全参数联邦学习可能有不同的异构性动态
数据隐私保护仅通过联邦学习的基本框架提供，未引入差分隐私等额外保护
评估主要基于离线数据，缺少在真实用户交互中的在线评估
统一动作空间可能丢失平台特定的细粒度交互

评分¶

新颖性: ⭐⭐⭐⭐ 首个跨平台联邦 GUI 基准，四维异构性分析系统化
实验充分度: ⭐⭐⭐⭐⭐ 六个数据集、七种算法、20+ 基础模型
写作质量: ⭐⭐⭐⭐ 数据集构建描述清晰，实验设计系统