AutoGUI: Scaling GUI Grounding with Automatic Functionality Annotations from LLMs¶
会议: ACL 2025
arXiv: 2502.01977
代码: 项目页面
领域: GUI理解 / VLM
关键词: GUI grounding, 功能标注, VLM, 自动管线, UI理解
一句话总结¶
提出AutoGUI自动标注管线——通过模拟交互比较UI状态变化+LLM推断元素功能+双LLM验证过滤,构建704K高质量UI功能标注数据集,标注正确率96.7%可比人类,显著提升VLM的UI grounding能力且展现数据扩展效应。
研究背景与动机¶
领域现状: VLM在UI理解上潜力巨大但受限于数据瓶颈——UI数据集规模远小于自然图像数据集。现有痛点: 现有标注仅是元素alt-text或简短意图,缺乏上下文化的功能语义描述(如两个相同放大镜图标可能分别代表"搜索"和"缩放")。核心矛盾: 需要大规模高质量的上下文化UI元素功能标注,但人工标注成本禁止性地高。本文目标: 设计全自动标注管线,无需人工即可大规模生成高质量UI元素功能描述。切入角度: 通过"点击元素后UI发生什么变化"来推断其功能——类似人类探索未知界面的方式。核心idea: 用LLM比较交互前后的UI状态变化来自动推断元素功能,结合双重LLM质控确保质量。
方法详解¶
整体框架¶
三阶段管线:(1) 自动爬取Web/Android UI交互轨迹;(2) LLM功能推断+LLM-aided rejection+双LLM verification;(3) 转化为grounding/referring任务数据微调VLM。
关键设计¶
-
基于UI状态变化的功能推断:
- 功能:利用交互前后的UI AXTree差异推断元素功能
- 核心思路:paper_notes/docs/ACL2025/multilingual_mt/cosmmic_commentsensitive_multimodal_multilingual_indian_corpus.md = ext{LLM}(p_{ ext{anno}}, s_t, s_{t+1})$,用difflib生成AXTree前后的行级差异(增/删/移位/属性更新),LLM通过Chain-of-Thought分析变化并总结功能
- 设计动机:不是看元素外观而是看"点击后发生什么"——一个放大镜如果点击后出现搜索框就是搜索,出现缩放滑块就是缩放
-
LLM-aided rejection(无效样本过滤):
- 功能:LLM评估交互产生的状态变化是否足以推断功能
- 核心思路:$ ext{score} = ext{LLM}(p_{ ext{reject}}, e, s_t, s_{t+1})$,按3个标准打分(变化明确度/相关性/可预测性),丢弃底部30%
- 设计动机:非所有交互都产生有意义的状态变化——如未完全加载的页面或需要登录的重定向
-
双LLM验证(标注质量控制):
- 功能:用两个不同LLM交叉验证功能标注是否正确
- 核心思路:Llama-3-70B和Mistral-7B分别对标注打分,仅双满分才保留
- 设计动机:单LLM可能有系统性偏差(如对dropdown菜单的错误描述),双LLM交叉验证可互相纠正
损失函数 / 训练策略¶
VLM微调用LoRA,在8×A100上训练1 epoch。Qwen-VL和Qwen2-VL用LoRA,SliME仅冻结视觉编码器。坐标归一化到[0,999]。
实验关键数据¶
主实验¶
微调后的UI grounding准确率(%):
| 模型 | FuncPred | ScreenSpot | ScreenSpot-v2 | MoTIF | VWB EG |
|---|---|---|---|---|---|
| Qwen-VL (基线) | 3.0 | 5.2 | 5.6 | 7.8 | 1.7 |
| Qwen-VL + AutoGUI | 48.7(+45.7) | 41.2(+36.0) | 40.2(+34.6) | 44.0(+36.2) | 42.1(+40.4) |
| Qwen2-VL (基线) | 38.7 | 66.4 | 66.9 | 71.1 | 55.9 |
| Qwen2-VL + AutoGUI | 65.0(+26.3) | 80.0(+13.6) | 83.2(+16.3) | 72.3(+1.2) | 90.3(+34.4) |
消融实验¶
标注质量vs人类标注者对比:
| 标注器 | Rejector | Verifier | 正确率 |
|---|---|---|---|
| Llama-3-70B | 无 | 无 | 64.5% |
| Llama-3-70B | 规则+LLM | 双LLM | 96.7% |
| 人类标注者 | - | - | 95.5% |
数据扩展效应:25k→125k→702k,三个VLM的grounding准确率持续上升。
关键发现¶
- 功能标注显著优于HTML/元数据标注: 在FuncPred上比HTML标注高4倍
- 清晰的数据扩展效应: 数据量增加→性能持续提升
- 可辅助GUI agent任务: Qwen2-VL+AutoGUI在AITW上比Gemini原生grounding提升9.73%
- 标注正确率96.7%可比受训人类标注者(95.5%)
亮点与洞察¶
- "交互差异推断功能"的设计思路非常巧妙——模仿人类探索未知界面的方式
- 双重LLM质控确保全自动管线质量与人工可比
- 数据扩展效应表明管线可持续扩大规模
- 功能标注>HTML标注的发现证明了上下文化语义描述的价值
局限与展望¶
- 仅覆盖Web和Android,iOS和桌面应用未涉及
- 当前管线无法标注修改互联网内容的元素(如发帖、购买)
- 缺乏任务导向的交互轨迹(仅随机交互)
- 部分低流量网站在手机分辨率下渲染失真
相关工作与启发¶
- vs SeeClick(Cheng et al. 2024): 仅用静态页面+HTML标注——本文用交互差异+LLM推断
- vs Widget Captioning(Li et al. 2020): 人工标注163K——本文全自动704K且质量可比
- vs UGround(Gou et al. 2025): 仅简短功能描述——本文提供上下文化详细功能标注
- 启发: UI理解的数据瓶颈可通过自动交互+LLM推断彻底解决
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个全自动UI功能标注管线,交互差异推断功能思路新颖
- 实验充分度: ⭐⭐⭐⭐ 704K数据集+多VLM+扩展性+agent应用
- 写作质量: ⭐⭐⭐⭐ 管线描述清晰
- 价值: ⭐⭐⭐⭐⭐ 解决UI理解的数据瓶颈,对GUI agent有基础设施价值