跳转至

GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

会议: ICCV 2025
arXiv: 2406.08451
代码: GitHub
领域: 机器人
关键词: GUI导航, 跨应用程序, 移动端智能体, 多模态大模型, 历史信息建模

一句话总结

提出 GUIOdyssey,首个面向移动端跨应用 GUI 导航的综合数据集(8334 episodes、212 apps、1357 app 组合),以及 OdysseyAgent——配备历史重采样模块的多模态导航智能体,在平衡性能与推理效率的同时显著提升跨应用任务表现。

研究背景与动机

智能手机上的 GUI 导航智能体可以自动执行用户指令,对视障人士和日常效率提升都有重要价值。近年来,大型基础模型的发展使得自主 GUI 导航日益可行。然而,现有 GUI 导航数据集和方法面临一个根本性问题:

几乎所有数据集都局限于单应用导航。现实场景中,用户经常需要跨多个应用完成任务,例如:从浏览器搜索信息后记录到笔记应用、在音乐应用找到歌曲后分享到社交媒体、协调日历和消息应用安排日程。这类跨应用任务有三大独特挑战:

更长的操作序列:跨应用任务平均需要 15.3 步(远超单应用的 5-7 步),错误传播风险成倍增加——一步出错可能导致后续全部失效

更复杂的工作记忆管理:关键 UI 元素和上下文信息跨越多个应用,智能体需要在应用切换时保持关键信息的记忆

更广泛的功能知识:需要理解不同应用的交互模式(文件分享、邮件撰写、消息发送等)并在它们之间建立工作流

已有研究的评测表明:当前模型在跨应用任务上的表现远差于单应用任务。然而,尚无专门的跨应用训练数据集来弥补这一差距。

方法详解

整体框架

本工作包含两部分:(1) GUIOdyssey 数据集——通过人工标注 + GPT-4/4o 增强构建的跨应用导航数据集;(2) OdysseyAgent——基于 Qwen-VL 微调的多模态导航智能体,通过历史重采样模块高效处理长序列历史信息。

关键设计

  1. 数据集构建流程:采用四阶段流水线保证数据质量和多样性:

(a) 跨应用任务提案:6 大类任务——通用工具、信息管理、网上购物、媒体娱乐、社交分享、多应用复合。91 个高层指令模板由人工参与者 + GPT-4 共同设计。

(b) 灵活的指令实例化:通过三种方式确保多样性——替换模板中的 item(如 "yoga" → "meditation")、选择不同的 app 来完成同一任务(如 Spotify vs Google Podcast)、GPT-4 改写不同表达方式。

(c) 人工标注:经过训练的标注员在 Android 模拟器上逐步完成指令,记录每一步的截图和操作。覆盖 6 种设备(Pixel Pro、Tablet、Fold 等)。动作集包含 9 种:CLICK、SCROLL、LONG PRESS、TYPE、COMPLETE、IMPOSSIBLE、HOME、BACK、RECENT。

(d) 细粒度增强标注:GPT-4o 为每一步生成三层语义标注——屏幕描述(当前页面内容)、上下文信息(前序步骤摘要)、决策理由(为什么执行下一个动作)。同时生成低层指令作为高层指令的原子化分解。最后进行截图完整性、动作准确性和指令一致性的质量检查。

  1. OdysseyAgent 的历史重采样模块:跨应用导航的核心挑战是处理大量历史截图和动作序列——需要记住前几个应用中的操作结果以做出当前决策,但直接拼接所有历史截图 token 会严重拖慢推理速度。

OdysseyAgent 在 Qwen-VL 的基础上引入历史重采样器——一个单层交叉注意力模块: - Query:可学习嵌入 - Key/Value:历史截图 token - 输出压缩后的历史 token 与当前截图 token、用户指令、前序动作拼接,送入 LLM 预测下一步动作

预测目标为标准的 next-token prediction: \(\mathcal{L} = \sum_{i=1}^{N} P_\theta(A_i^t | X^{\{t, t-1, \cdots, t-\delta\}}, I_{user}, A_{<i}^t)\)

其中 \(\delta\) 是历史图像窗口大小,\(\theta\) 包括 VL adapter、历史重采样器和 LLM 的可训练参数。

  1. 多维度评估设计:数据集划分为 4 种设置以全面评估泛化性:

    • Train-Random & Test-Random(域内)
    • Train-App & Test-App(未见应用)
    • Train-Task & Test-Task(未见任务类型)
    • Train-Device & Test-Device(未见设备类型)

损失函数 / 训练策略

  • 使用标准交叉熵损失训练 next-action prediction
  • 基于 Qwen-VL-Chat 微调,保留视觉编码器、LLM 和 VL adapter
  • 评估指标 AMS(Action Matching Score):动作类型匹配 + CLICK/LONG PRESS 需在 14% 屏幕距离内 + SCROLL 方向匹配 + TYPE 使用 ANLS 评估
  • Success Rate(SR):所有步骤正确才算成功,步骤越长越难

实验关键数据

主实验

Test-Random(域内)各方法对比

方法 高层指令 AMS 低层指令 AMS
GPT-4o (零样本) 13.19 42.71
Claude3.5-Sonnet (零样本) 15.80 34.18
Claude3.5 + OmniParser 32.88 63.91
InternVL2-Pro + OmniParser 14.69 54.31
Qwen-VL (微调) 74.67 86.32
OdysseyAgent (微调) 75.79 86.88
OdysseyAgent* (+ 语义标注) 78.24 88.15

微调方法远超零样本,OdysseyAgent 加语义标注后达到最佳。

消融实验

历史信息类型的影响(高层指令 AMS)

配置 动作 截图 上下文 Test-Random Overall SR
(1) × × × 66.13 55.60 1.49
(2) × × 74.67 63.44 5.18
(3) × × 71.22 60.30 4.20
(4) × × 75.25 64.77 5.06
(5) × 75.79 63.60 4.76
(6) 77.06 66.84 6.32

关键发现

  • 上下文信息(对历史步骤的文本摘要)单独使用时效果竟然优于动作+截图的组合(实验 4 vs 5)——抽象摘要比原始数据更有助于泛化
  • 三种历史信息全部使用时效果最佳,Overall AMS 从 55.60 提升到 66.84(+20.2%)
  • 域外性能下降显著:高层指令 AMS 从 78.24 降至 62.90(-19.6%),低层指令仅降 7.8%——说明复杂推理和规划能力仍不足
  • CogAgent 和 SphAgent 虽然在其他 GUI 任务上表现不错,但在跨应用场景表现很差(<16% AMS),验证了跨应用与单应用之间的巨大域差距
  • OmniParser 的 GUI 定位能力大幅提升了闭源模型表现(Claude3.5:15.80→32.88)

亮点与洞察

  • 首个跨应用 GUI 数据集填补了重要空白——验证了跨应用任务需要专门的训练数据,不能简单从单应用能力推导
  • 上下文信息 > 原始截图+动作的发现具有启发性——对历史信息的抽象和总结比原始记忆更重要
  • 语义标注(屏幕描述 + 上下文 + 决策理由)的三层设计模拟了人类的认知过程
  • 历史重采样器是一种轻量但有效的设计——单层交叉注意力即可实现性能与效率的良好平衡
  • 数据集覆盖了折叠屏和平板等新设备类型,前瞻性较好

局限与展望

  • Success Rate 仍然很低(域内最高 11.61%),15+ 步的长序列任务中错误累积严重
  • 仅使用离线评估(AMS),未进行在线实机交互评估,可能高估实际能力
  • 现有方法在未见任务类型上表现最差(AMS 58.83),高层推理和规划能力亟需提升
  • 坐标式导航本身有脆弱性——依赖精确的屏幕坐标,如果分辨率或布局变化会失效
  • Android 模拟器环境与实际手机使用可能存在物理差异(触控响应、动画延迟等)
  • 未探索与 accessibility tree 辅助信息的结合

相关工作与启发

  • AITW 是最大的单应用 GUI 数据集(715K episodes),但跨应用能力不足
  • AndroidControl 提供高/低层指令但限于单应用
  • OmniParser 的 GUI 定位能力启发——结构化理解可显著提升零样本性能
  • 启发:未来 GUI 智能体需要更强的工作记忆和跨应用推理能力,可能需要引入检索增强或 scratchpad 机制来管理跨应用上下文

评分

  • 新颖性: ⭐⭐⭐⭐ 跨应用导航数据集是首创,但 OdysseyAgent 架构创新有限
  • 实验充分度: ⭐⭐⭐⭐⭐ 域内+域外四种设置、多种基线、历史信息消融详尽
  • 写作质量: ⭐⭐⭐⭐ 统计数据丰富,可视化直观,论述逻辑清晰
  • 价值: ⭐⭐⭐⭐⭐ 数据集对社区价值极高,揭示了跨应用 GUI 导航的核心挑战