GUIOdyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices¶

会议: ICCV 2025
arXiv: 2406.08451
代码: GitHub
领域: 机器人
关键词: GUI导航, 跨应用程序, 移动端智能体, 多模态大模型, 历史信息建模

一句话总结¶

提出 GUIOdyssey，首个面向移动端跨应用 GUI 导航的综合数据集（8334 episodes、212 apps、1357 app 组合），以及 OdysseyAgent——配备历史重采样模块的多模态导航智能体，在平衡性能与推理效率的同时显著提升跨应用任务表现。

研究背景与动机¶

智能手机上的 GUI 导航智能体可以自动执行用户指令，对视障人士和日常效率提升都有重要价值。近年来，大型基础模型的发展使得自主 GUI 导航日益可行。然而，现有 GUI 导航数据集和方法面临一个根本性问题：

几乎所有数据集都局限于单应用导航。现实场景中，用户经常需要跨多个应用完成任务，例如：从浏览器搜索信息后记录到笔记应用、在音乐应用找到歌曲后分享到社交媒体、协调日历和消息应用安排日程。这类跨应用任务有三大独特挑战：

更长的操作序列：跨应用任务平均需要 15.3 步（远超单应用的 5-7 步），错误传播风险成倍增加——一步出错可能导致后续全部失效

更复杂的工作记忆管理：关键 UI 元素和上下文信息跨越多个应用，智能体需要在应用切换时保持关键信息的记忆

更广泛的功能知识：需要理解不同应用的交互模式（文件分享、邮件撰写、消息发送等）并在它们之间建立工作流

已有研究的评测表明：当前模型在跨应用任务上的表现远差于单应用任务。然而，尚无专门的跨应用训练数据集来弥补这一差距。

方法详解¶

整体框架¶

本工作包含两部分：(1) GUIOdyssey 数据集——通过人工标注 + GPT-4/4o 增强构建的跨应用导航数据集；(2) OdysseyAgent——基于 Qwen-VL 微调的多模态导航智能体，通过历史重采样模块高效处理长序列历史信息。

关键设计¶

数据集构建流程：采用四阶段流水线保证数据质量和多样性：

(a) 跨应用任务提案：6 大类任务——通用工具、信息管理、网上购物、媒体娱乐、社交分享、多应用复合。91 个高层指令模板由人工参与者 + GPT-4 共同设计。

(b) 灵活的指令实例化：通过三种方式确保多样性——替换模板中的 item（如 "yoga" → "meditation"）、选择不同的 app 来完成同一任务（如 Spotify vs Google Podcast）、GPT-4 改写不同表达方式。

(c) 人工标注：经过训练的标注员在 Android 模拟器上逐步完成指令，记录每一步的截图和操作。覆盖 6 种设备（Pixel Pro、Tablet、Fold 等）。动作集包含 9 种：CLICK、SCROLL、LONG PRESS、TYPE、COMPLETE、IMPOSSIBLE、HOME、BACK、RECENT。

(d) 细粒度增强标注：GPT-4o 为每一步生成三层语义标注——屏幕描述（当前页面内容）、上下文信息（前序步骤摘要）、决策理由（为什么执行下一个动作）。同时生成低层指令作为高层指令的原子化分解。最后进行截图完整性、动作准确性和指令一致性的质量检查。

OdysseyAgent 的历史重采样模块：跨应用导航的核心挑战是处理大量历史截图和动作序列——需要记住前几个应用中的操作结果以做出当前决策，但直接拼接所有历史截图 token 会严重拖慢推理速度。

OdysseyAgent 在 Qwen-VL 的基础上引入历史重采样器——一个单层交叉注意力模块： - Query：可学习嵌入 - Key/Value：历史截图 token - 输出压缩后的历史 token 与当前截图 token、用户指令、前序动作拼接，送入 LLM 预测下一步动作

预测目标为标准的 next-token prediction： \(\mathcal{L} = \sum_{i=1}^{N} P_\theta(A_i^t | X^{\{t, t-1, \cdots, t-\delta\}}, I_{user}, A_{<i}^t)\)

其中 \(\delta\) 是历史图像窗口大小，\(\theta\) 包括 VL adapter、历史重采样器和 LLM 的可训练参数。

多维度评估设计：数据集划分为 4 种设置以全面评估泛化性：
- Train-Random & Test-Random（域内）
- Train-App & Test-App（未见应用）
- Train-Task & Test-Task（未见任务类型）
- Train-Device & Test-Device（未见设备类型）

损失函数 / 训练策略¶

使用标准交叉熵损失训练 next-action prediction
基于 Qwen-VL-Chat 微调，保留视觉编码器、LLM 和 VL adapter
评估指标 AMS（Action Matching Score）：动作类型匹配 + CLICK/LONG PRESS 需在 14% 屏幕距离内 + SCROLL 方向匹配 + TYPE 使用 ANLS 评估
Success Rate（SR）：所有步骤正确才算成功，步骤越长越难

实验关键数据¶

主实验¶

Test-Random（域内）各方法对比

方法	高层指令 AMS	低层指令 AMS
GPT-4o (零样本)	13.19	42.71
Claude3.5-Sonnet (零样本)	15.80	34.18
Claude3.5 + OmniParser	32.88	63.91
InternVL2-Pro + OmniParser	14.69	54.31
Qwen-VL (微调)	74.67	86.32
OdysseyAgent (微调)	75.79	86.88
*OdysseyAgent (+ 语义标注)**	78.24	88.15

微调方法远超零样本，OdysseyAgent 加语义标注后达到最佳。

消融实验¶

历史信息类型的影响（高层指令 AMS）

配置	动作	截图	上下文	Test-Random	Overall	SR
(1)	×	×	×	66.13	55.60	1.49
(2)	✓	×	×	74.67	63.44	5.18
(3)	×	✓	×	71.22	60.30	4.20
(4)	×	×	✓	75.25	64.77	5.06
(5)	✓	✓	×	75.79	63.60	4.76
(6)	✓	✓	✓	77.06	66.84	6.32

关键发现¶

上下文信息（对历史步骤的文本摘要）单独使用时效果竟然优于动作+截图的组合（实验 4 vs 5）——抽象摘要比原始数据更有助于泛化
三种历史信息全部使用时效果最佳，Overall AMS 从 55.60 提升到 66.84（+20.2%）
域外性能下降显著：高层指令 AMS 从 78.24 降至 62.90（-19.6%），低层指令仅降 7.8%——说明复杂推理和规划能力仍不足
CogAgent 和 SphAgent 虽然在其他 GUI 任务上表现不错，但在跨应用场景表现很差（<16% AMS），验证了跨应用与单应用之间的巨大域差距
OmniParser 的 GUI 定位能力大幅提升了闭源模型表现（Claude3.5：15.80→32.88）

亮点与洞察¶

首个跨应用 GUI 数据集填补了重要空白——验证了跨应用任务需要专门的训练数据，不能简单从单应用能力推导
上下文信息 > 原始截图+动作的发现具有启发性——对历史信息的抽象和总结比原始记忆更重要
语义标注（屏幕描述 + 上下文 + 决策理由）的三层设计模拟了人类的认知过程
历史重采样器是一种轻量但有效的设计——单层交叉注意力即可实现性能与效率的良好平衡
数据集覆盖了折叠屏和平板等新设备类型，前瞻性较好

局限与展望¶

Success Rate 仍然很低（域内最高 11.61%），15+ 步的长序列任务中错误累积严重
仅使用离线评估（AMS），未进行在线实机交互评估，可能高估实际能力
现有方法在未见任务类型上表现最差（AMS 58.83），高层推理和规划能力亟需提升
坐标式导航本身有脆弱性——依赖精确的屏幕坐标，如果分辨率或布局变化会失效
Android 模拟器环境与实际手机使用可能存在物理差异（触控响应、动画延迟等）
未探索与 accessibility tree 辅助信息的结合

评分¶

新颖性: ⭐⭐⭐⭐ 跨应用导航数据集是首创，但 OdysseyAgent 架构创新有限
实验充分度: ⭐⭐⭐⭐⭐ 域内+域外四种设置、多种基线、历史信息消融详尽
写作质量: ⭐⭐⭐⭐ 统计数据丰富，可视化直观，论述逻辑清晰
价值: ⭐⭐⭐⭐⭐ 数据集对社区价值极高，揭示了跨应用 GUI 导航的核心挑战