UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction¶

会议: ICML 2025
作者: Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, Juan A. Rodriguez, Montek Kalsi 等
arXiv: 2503.15661
代码: 开源（MIT License）
领域: 目标检测
关键词: GUI benchmark, desktop agent, element grounding, layout grounding, action prediction

一句话总结¶

提出 UI-Vision——首个面向桌面环境的综合离线评估基准，覆盖 83 个软件应用，提供密集的 bounding box、UI 标签和操作轨迹标注，定义从细粒度到粗粒度的三级评估任务（Element Grounding → Layout Grounding → Action Prediction），系统评估并揭示 SOTA 模型在专业软件理解、空间推理和复杂操作上的关键短板。

研究背景与动机¶

领域现状：自主 GUI 智能体通过导航图形用户界面自动化文档编辑、文件管理等任务，是 LLM Agent 的重要应用方向。当前已有多个 Web 和移动端 GUI 基准（如 Mind2Web、ScreenSpot、OSWorld），推动了 GUI 理解模型的快速发展。

现有痛点：(1) 桌面环境严重缺失——桌面原生应用（IDE、图像编辑器、终端等）的界面复杂度远超 Web 页面，但因数据采集困难和软件许可问题几乎没有对应基准；(2) 在线评估不可复现——现有基准多依赖在线交互环境，每次运行结果可能不同，无法标准化比较；(3) 标注稀疏——现有桌面数据集缺乏密集标注（精确 bounding box、功能标签、完整操作轨迹），评估粒度粗糙；(4) 缺乏层次化评估——无法精确定位模型在视觉感知链路中的能力瓶颈。

核心矛盾：桌面环境是最重要的专业工作场景之一，但当前 GUI 智能体的视觉感知能力在桌面环境下的真实表现完全未知。

切入角度：构建许可友好（MIT License）的离线静态基准，通过三级任务设计从"能否看到元素"到"能否理解布局"再到"能否执行操作"逐层诊断模型能力。

核心 idea：用密集标注的桌面 GUI 截图构建层次化离线基准，精确定位 GUI 智能体的视觉感知瓶颈。

方法详解¶

整体框架¶

UI-Vision 包含三个核心组件：(1) 覆盖 83 个桌面应用的密集标注数据集；(2) 由细到粗的三级评估任务体系；(3) 每级任务配套的标准化评估指标。所有评估采用离线模式——基于静态截图而非在线交互，确保完全可复现。

关键设计¶

数据集与标注体系:
- 功能：提供高质量、高密度的桌面 GUI 评估数据
- 核心思路：收集人类在 83 个桌面软件中的真实操作示范，为每个截图提供三类密集标注：(a) UI 元素的精确 bounding box；(b) 每个元素的功能描述标签（UI labels）；(c) 完整的操作轨迹，包括点击坐标、拖拽起终点、键盘输入序列。软件类别涵盖创意工具（Photoshop、Blender）、开发环境（VS Code、Terminal）、办公套件、系统工具、通信工具等
- 设计动机：密集标注使得同一数据集可以支撑多粒度评估，避免为不同任务分别构建数据集
三级评估任务:
- 功能：由细到粗逐层诊断模型在视觉感知链路中的能力瓶颈
- 核心思路：
  - Task 1: Element Grounding（元素定位）——给定截图和元素描述，预测目标 UI 元素的 bounding box。进一步细分为 Basic（基础元素识别）、Functional（基于功能描述定位）和 Spatial（涉及空间关系推理）三个子集。评估指标：IoU 匹配准确率
  - Task 2: Layout Grounding（布局定位）——给定截图，识别和定位所有 UI 元素及其层次关系，评估模型对整体界面布局的理解能力
  - Task 3: Action Prediction（动作预测）——给定截图和任务描述，预测下一步操作（点击位置、拖拽轨迹或键盘输入）。这是最具挑战性的端到端任务，同时考验视觉理解和操作推理
- 设计动机：层次化设计使得研究者可以精确定位失败发生在哪个环节——是看不到元素、不理解布局，还是不知道该做什么操作
离线评估设计:
- 功能：确保评估的可复现性、标准化和可扩展性
- 核心思路：所有评估基于相同的静态截图集合，不需要与实际操作系统交互。新模型只需在固定输入上推理即可快速评估，避免了在线环境的非确定性
- 设计动机：在线基准的运行结果受环境状态影响（弹窗、窗口位置变化等），难以公平比较不同模型

损失函数¶

本工作为基准构建，不涉及模型训练。

实验¶

主实验——跨模型评估¶

模型	Element (Basic)	Element (Spatial)	Layout Grounding	Action (Click)	Action (Drag)
UI-TARS-72B	最高	中等	较高	中等	低
Claude 3.5 Sonnet	中等	较低	中等	较低	低
GPT-4o	中等	较低	较低	较低	低
Qwen2-VL	中等	较低	中等	较低	低

消融实验——按挑战维度的错误分析¶

挑战维度	表现特征	SOTA 典型错误
专业软件理解	所有模型显著退化	无法识别专业工具栏中的特殊图标和控件
空间推理	Spatial 子集准确率大幅低于 Basic	"右侧第二个按钮"等方位描述判断错误
拖拽操作	Action Prediction 中最低分	起终点坐标预测偏差大，路径规划能力弱
键盘输入	次于点击但优于拖拽	快捷键组合预测困难
跨应用泛化	常用应用 >> 专业应用	对小众/专业软件界面理解能力骤降

关键发现¶

即使最强的 UI-TARS-72B（72B 参数、专门训练），在 Spatial 元素定位和拖拽操作预测上仍表现不佳
专业软件（3D 建模、音视频编辑）是所有模型的盲区——训练数据中几乎不包含这类界面
Element Grounding 从 Basic → Functional → Spatial，难度阶梯式增加，Spatial 是最普遍的瓶颈
动作预测中拖拽操作远难于点击——模型需要理解起点、终点、路径方向三个维度
数据集覆盖 83 个应用，横跨创意、开发、办公、系统、通信五大类别

亮点与洞察¶

填补了桌面 GUI 智能体评估的重大空白，MIT License 完全开放，社区可直接使用
三级任务阶梯设计精巧——从"看到"到"理解"到"操作"逐层诊断，比端到端评估更有诊断价值
83 个应用的广泛覆盖揭示了"应用长尾"问题——常见应用上的能力不能推广到专业领域
离线静态设计解决了在线基准不可复现的老问题，降低了评估成本

局限性¶

数据规模有限（约 1464 条标注样本），相比 Web 基准数量偏少
主要针对特定桌面操作系统，缺乏跨 OS（Windows/macOS/Linux）的泛化评估
离线评估无法捕捉动态交互中的时序依赖和状态反馈循环
仅评估单步预测，未衡量多步骤任务的端到端成功率
空间推理子集的标注可能存在歧义（"旁边"的精确定义因人而异）

评分¶

维度	分数	理由
新颖性	⭐⭐⭐⭐	首个桌面离线 GUI 基准，三级任务设计新颖
技术深度	⭐⭐⭐	基准构建工作，技术深度适中
实验完整度	⭐⭐⭐⭐	覆盖多个 SOTA 模型，多维度错误分析详尽
写作质量	⭐⭐⭐⭐	结构清晰，问题定义明确，标注流程透明
实用性	⭐⭐⭐⭐⭐	MIT 开源 + HuggingFace 发布，社区直接可用