跳转至

LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization

会议: ACL 2026 Findings
arXiv: 2506.09373
代码: GitHub
领域: GUI智能体
关键词: GUI交互, 位置偏好优化, 强化学习, 信息熵, GRPO

一句话总结

本文提出 Location Preference Optimization (LPO),通过基于信息熵的窗口奖励和基于物理距离的动态位置奖励,结合 GRPO 框架优化 GUI 智能体的空间定位精度,在离线和在线评估中均达到 SOTA。

研究背景与动机

领域现状:自主 GUI 智能体通过自然语言作为中介,自动化图形用户界面操作,正成为 AI 应用的重要方向。大多数 GUI 智能体依赖监督微调(SFT)训练,在交互行为预测上取得了初步成功。

现有痛点:SFT 方法在空间定位方面面临严峻挑战,因为其感知和解释位置数据的能力有限。虽然一些方法尝试用强化学习(RL)增强 UI 动作决策的准确性,但现有 RL 策略缺乏精确评估交互位置准确性的机制:UI-TARS 使用文本级精确匹配;UI-R1 和 InfiGUI-R1 使用边界框 IoU 判断;GUI-R1 依赖固定位置边界。这些方法只能提供粗粒度的空间评价。

核心矛盾:GUI 交互的核心在于精确的坐标定位,但现有奖励函数无法捕捉位置的连续距离关系——离目标近但在边界框外的预测和远离目标的预测获得同样的零奖励。

本文目标:设计一种位置感知的偏好优化方法,让 GUI 智能体获得更精确的空间交互能力。切入角度:利用信息熵指导区域探索方向,用物理距离构建连续奖励信号。核心 idea:用户倾向于在信息密度高的区域交互,距离越近的预测应获得越高的奖励。

方法详解

整体框架

LPO 针对的是 SFT 训练出来的 GUI 智能体「点不准」的问题:现有 RL 奖励要么靠文本精确匹配、要么靠边界框 IoU,都只能给出离散的粗粒度反馈,落点差一像素和差很远拿到的都是零分。LPO 把 GUI 交互建模成 MDP,状态 \(s_t \in \mathbb{R}^{C \times H \times W}\) 是界面截图,动作 \(a_t = (\mathcal{A}_t \times \mathcal{E}_t)\) 同时包含交互类型与坐标;智能体对每个状态采样一组动作后,用「窗口信息密度奖励 \(r_w\) 看对区域」乘上「动态位置奖励 \(r_d\) 点准位置」得到组合奖励,再喂给 GRPO 在大动作空间里做组内相对优化,最终输出空间定位更精确的交互策略。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["界面截图 + 指令"] --> B["智能体采样一组动作<br/>交互类型 + 坐标"]
    B --> RW
    B --> RD
    subgraph RW["窗口信息密度奖励 r_w"]
        direction TB
        W1["切 K=M×N 窗口<br/>对齐视觉 tokenizer patch"] --> W2["算各窗口灰度直方图信息熵"]
        W2 --> W3["落点取归一化熵值"]
    end
    subgraph RD["动态位置奖励 r_d"]
        direction TB
        D1["算预测与目标欧氏距离"] --> D2["线性映射成连续奖励<br/>动作类型匹配才聚合"]
    end
    RW --> M["组合奖励 r = r_w · r_d"]
    RD --> M
    M --> G["Location Preference Optimization<br/>GRPO 组内归一化优势 + PPO-clip + KL"]
    G --> O["空间定位精确的交互策略"]

关键设计

1. 窗口信息密度奖励 \(r_w\):用信息熵把智能体的注意力引向功能区域

GUI 上的可交互元素(按钮、输入框、文本)几乎都聚集在像素变化剧烈、信息密度高的地方,空白背景则基本没有可点目标。LPO 据此把截图切成 \(K = M \times N\) 个窗口,对每个窗口计算灰度直方图的信息熵 \(\mathcal{H}_{i,j} = -\sum_{b=1}^{B} p_b(\mathbf{W}_{i,j}) \log_2 p_b(\mathbf{W}_{i,j})\),再把预测坐标落到所属窗口,取归一化熵值 \(r_w = \mathcal{H}_{i^*,j^*} / (\max_{i,j} \mathcal{H}_{i,j} + \epsilon)\) 作为奖励。窗口的划分刻意与视觉 tokenizer 的 patch 方案对齐,使奖励粒度和模型的感知粒度一致,从而稳定地把策略推向「该有东西可点」的区域。

2. 动态位置奖励 \(r_d\):用连续物理距离取代离散边界判断

边界框 IoU 这类奖励的根本缺陷是不可微的阶跃——框内得分、框外归零,无法表达「差一点」和「差很多」的区别。LPO 改成直接度量预测坐标 \((x^{*k}, y^{*k})\) 与目标 \((x^k, y^k)\) 的欧氏距离,并线性映射成奖励 \(r_k = \max(0, 1 - \frac{\sqrt{(x^k - x^{*k})^2 + (y^k - y^{*k})^2}}{d_{\max}})\),且只在动作类型也匹配时才聚合 \(r_d = \frac{1}{K}\sum_{k=1}^{K} r_k\)。这样离目标越近奖励越高,给优化器提供了一条平滑的梯度,让策略能持续地把落点往真值收。

3. Location Preference Optimization:把位置奖励接进 GRPO 做组内偏好优化

有了连续奖励信号,LPO 用 GRPO 框架完成策略更新:对每个状态采样一组动作 \(\{a_g\}_{g=1}^{G}\),把两路奖励相乘得到 \(r^{(g)} = r_w^{(g)} \cdot r_d^{(g)}\),在组内归一化得到相对优势 \(A^{(g)}\),最后以 PPO-clip 目标加 KL 正则更新。相乘的组合让智能体必须同时「看对区域」又「点准位置」才能拿高分,而 GRPO 的组内相对比较天然适合 GUI 这种动作空间大、奖励稀疏的场景,能在广泛探索中区分不同落点的优劣。

损失函数 / 训练策略

SFT 阶段使用多个内部数据集训练基础交互能力。RL 阶段使用 MMind2Web、AITZ、OmniAct 等数据集的偏好数据。学习率 \(1 \times 10^{-6}\),下裁剪范围 \(\epsilon_1 = 0.2\),上裁剪范围 \(\epsilon_2 = 0.28\),KL 系数 \(\beta = 1 \times 10^{-4}\)。基座模型为 Ovis2 8B。训练约 300 H100 GPU 小时。

实验关键数据

主实验

基准 指标 LPO GUI-R1 InfiGUI-R1 UI-R1 Base SFT
Mind2Web Cross-Task Step SR 49.5 46.6 35.8 24.9 38.2
Mind2Web Cross-Task Ele.Acc 64.3 62.5 62.6 59.5 60.3
VisualWebBench Average 79.5 78.8 78.5 78.7 78.7
ScreenSpot V2 Average 90.5 88.7 89.5 88.2 89.5
WebVoyager Overall 57.6 37.5 54.1 47.3 48.0

消融实验

配置 Step SR (Cross-Task) Ele.Acc 说明
LPO (Full) 49.5 64.3 完整模型
w/o \(r_d\) 42.3 56.7 去掉动态位置奖励,元素精度大幅下降
w/o \(r_w\) 46.4 62.7 去掉窗口信息密度奖励,整体精度下降

关键发现

  • LPO 在离线基准(Mind2Web、VisualWebBench、ScreenSpot V2)和在线评估(WebVoyager)上均达到 SOTA
  • 动态位置奖励 \(r_d\) 对元素定位精度(Ele.Acc)影响最大,去掉后下降 7.6%
  • 窗口信息密度奖励 \(r_w\) 对决策准确性更重要,去掉后 Step SR 下降 3.1%
  • 现有基线方法(UI-R1、GUI-R1)在某些网站上有局部优势,但整体一致性远不如 LPO

亮点与洞察

  • 信息熵驱动的窗口奖励是一个简单但有效的先验——功能区域确实信息密度更高,可迁移到其他视觉交互任务
  • 连续距离奖励替代离散边界框判断是自然且优雅的改进,消除了人为阈值的影响
  • 两种奖励相乘的组合方式使得智能体同时优化"看对区域"和"点准位置",兼顾宏观和微观
  • 基于 GRPO 的探索机制适合 GUI 这种大空间、稀疏奖励的场景
  • 在线评估(WebVoyager)的验证增强了方法的实际应用说服力

局限与展望

  • 高度依赖带精确标注的大规模 grounding 数据集,数据收集和标注成本高,限制了实际推广
  • 训练需要约 300 GPU 小时计算资源,限制了实时应用和小团队使用
  • 窗口划分依赖于视觉 tokenizer 的 patch 方案,对不同基座模型的泛化性有待验证
  • 信息熵奖励对某些特殊界面(如全白背景上的少量高对比元素)可能不够鲁棒
  • 未来可探索无需 ground-truth 坐标的自监督位置奖励,以及与多步规划的联合优化

相关工作与启发

  • vs UI-TARS: UI-TARS 使用 DPO 需手工构造正负样本对,LPO 基于 GRPO 自动探索,减少人工依赖
  • vs GUI-R1: GUI-R1 使用固定位置边界作为奖励,LPO 的连续距离奖励更精确
  • vs InfiGUI-R1: InfiGUI-R1 使用边界框 IoU,LPO 直接使用坐标距离,粒度更细

评分

  • 新颖性: ⭐⭐⭐⭐ 信息熵窗口奖励和动态距离奖励是对 GUI RL 奖励设计的有意义创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3 个离线基准 + 1 个在线基准,公平对比 4 种 RL 基线,消融清晰
  • 写作质量: ⭐⭐⭐⭐ 动机图(Figure 1)直观展示了现有方法的局限,方法推导清晰
  • 价值: ⭐⭐⭐⭐ 为 GUI 智能体的精确交互提供了实用有效的 RL 训练策略