InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization¶

会议: AAAI 2026
arXiv: 2508.05731
代码: github.com/InfiXAI/InfiGUI-G1
领域: 强化学习
关键词: GUI定位, 多模态大模型, 自适应探索, 策略优化, 多答案生成

一句话总结¶

针对GUI定位中语义对齐的探索瓶颈，提出Adaptive Exploration Policy Optimization (AEPO)框架，通过多答案生成策略强制广泛探索、自适应探索奖励函数动态引导以及共线惩罚机制确保探索质量，显著提升多模态大模型在复杂GUI定位任务上的表现。

研究背景与动机¶

GUI定位（GUI Grounding）是自主GUI代理的核心感知任务，要求将自然语言指令精确映射到屏幕上的特定交互元素。这个任务可分解为两个正交维度：

空间对齐（Spatial Alignment）：精确定位元素的坐标——"指向"的准确性

语义对齐（Semantic Alignment）：识别正确的交互元素——"指向"正确的目标

现有方法的困境：

SFT方法：数据密集，难以泛化到未见过的UI布局
RLVR方法（如GRPO）：通过优化坐标生成有效提升了空间对齐，但存在探索瓶颈

"信心陷阱"问题是本文的核心动机。以一个具体例子说明：当指令为"使用相机搜索物体"时，屏幕上同时有"Camera"按钮和"Google Lens"图标。模型可能反复高置信度地选择"Camera"按钮（语义错误），而标准RLVR持续从这个高置信度但错误的选择中采样，极少偶然触碰到正确的"Google Lens"，因此无法获得纠正语义误解所需的学习信号。

这揭示了一个根本问题：标准RL的单答案范式导致采样效率低下，无法突破策略的"信心陷阱"。

方法详解¶

整体框架¶

AEPO框架包含三个协同组件： 1. 多答案生成机制：强制模型在单次前向传播中生成 \(N\) 个候选点 2. 自适应探索奖励（AER）：基于效率第一性原理 \(\eta = U/C\) 设计的非线性奖励信号 3. 共线惩罚：防止退化的线性扫描策略

关键设计¶

1. 问题建模与多答案生成¶

将GUI定位形式化为策略优化问题： - 上下文 \(c = (\mathcal{S}, \mathcal{I})\)：截图+自然语言指令 - 动作 \(a\)：坐标点 \(p=(x,y)\) - 策略 \(\pi_\theta(a|c)\)：给定上下文的动作概率分布 - 目标：\(\theta^* = \arg\max_\theta \mathbb{E}_{c\sim\mathcal{D}, a\sim\pi_\theta(\cdot|c)}[R(a, B)]\)

多答案生成的关键创新在于：prompting模型在单次前向传播中生成 \(N\) 个候选点 \(\mathcal{A} = \{p_1, p_2, \ldots, p_N\}\)。这迫使模型超越其最高置信度的单一预测，显著增加从策略分布尾部采样到正确动作的概率——尤其对语义挑战性高的样本至关重要。

2. 自适应探索奖励（AER）¶

AER基于效率第一性原理 \(\eta = U/C\) 推导而来：

效用 \(U\)： - 探索成功（任一候选点落入ground truth）：\(U = +1\) - 探索失败：\(U = -1\)

代价 \(C\)：用两个成本分量的几何均值建模： - 提议成本 \(C_p = N\)（生成 \(N\) 个候选的代价） - 验证成本 \(C_v\)：成功时为第一个正确点的排名 \(k\)，失败时为 \(N\) - \(C = \sqrt{C_p \cdot C_v}\)（几何均值捕捉递减边际收益）

最终的准确性奖励：

\[R_{\text{accuracy}}(\mathcal{A}, B) = \begin{cases} 1/\sqrt{N \cdot k} & \text{若存在} p_i \in B \\ -1/N & \text{否则} \end{cases}\]

动态行为： - 失败时：惩罚仅为 \(-1/N\)，随 \(N\) 增大而减小，鼓励更广泛的探索 - 成功时：奖励 \(1/\sqrt{Nk}\) 在 \(k\) 小时更大，奖励高效的准确预测 - 这种非对称设计在失败时促进探索、成功时促进收敛

3. 共线惩罚机制¶

如果生成的 \(N\) 个候选点近似共线（通过检查任意三点构成的三角形面积是否接近零），则将准确性奖励覆盖为大的负值 \(R_{\text{accuracy}} = -1\)。这防止模型采用简单但低效的线性扫描策略，激励在几何空间中进行真正多样化的语义探索。

损失函数 / 训练策略¶

总奖励信号结合格式奖励和准确性奖励：

\[R_{\text{total}} = R_{\text{format}} + R_{\text{accuracy}}\]

格式奖励 \(R_{\text{format}}\) 为输出格式正确时+1，否则为0，作为后续奖励评估的前提。总奖励用于计算优势估计 \(\hat{A}\)，直接指导策略参数更新。

训练使用GRPO/PPO/RLOO等标准策略梯度算法。

实验关键数据¶

主实验¶

MMBench-GUI基准（Top-1准确率%）：

模型	Windows	MacOS	Linux	iOS	Android	Web	Avg
UI-TARS-1.5-7B	68.3/39.0	69.0/44.5	64.4/37.8	88.5/69.4	90.5/69.3	81.0/56.5	64.3
Naive RLVR-7B	79.3/58.1	82.3/62.7	64.4/44.9	94.9/89.1	95.5/84.2	92.9/79.5	79.3
InfiGUI-G1-7B	82.7/61.8	83.8/63.9	72.3/52.0	94.9/89.4	95.2/85.6	93.5/76.3	80.8
G1-7B+探索成功	87.1/69.1	87.2/76.3	78.5/58.2	98.1/92.4	98.0/91.8	97.1/85.7	86.4

ScreenSpot-Pro基准（Top-1准确率%）：

模型	CAD	Dev.	Creative	Scientific	Office	OS	Avg
Naive RLVR-7B	53.8/17.2	71.4/15.9	60.6/11.9	76.4/26.4	74.6/34.0	54.2/20.2	47.6
InfiGUI-G1-3B	50.8/25.0	64.9/20.0	51.5/16.8	68.8/32.7	70.6/32.1	49.5/15.7	45.2

消融实验¶

通过与Naive RLVR的对比体现各组件作用：

配置	MMBench Avg	说明
Naive RLVR-3B	70.9	基线单答案RL
InfiGUI-G1-3B (Top-1)	73.4	+多答案+AER+共线惩罚的综合提升
G1-3B 探索成功率	81.6	利用多答案的全部候选后的上界
Naive RLVR-7B	79.3	更大模型基线
InfiGUI-G1-7B (Top-1)	80.8	仅评估第一个答案即超越RLVR
G1-7B 探索成功率	86.4	多答案全候选上界

关键洞察： - 3B模型中，Top-1即比RLVR好2.5%，探索上界提升10.7% - 7B模型中，对比naive RLVR在Advanced类别（语义挑战大的项）提升最明显 - 探索成功率Avg N=1.6~2.0，说明模型学会了高效探索

关键发现¶

语义对齐是关键瓶颈：在Advanced类别上，InfiGUI-G1的提升远大于Basic类别，验证了AEPO有效解决了语义对齐问题
探索效率：InfiGUI-G1-7B平均仅生成1.6个候选即达到86.4%的探索成功率，说明模型不仅学会了探索，还学会了高效探索
跨平台泛化：在Windows、MacOS、Linux、iOS、Android、Web全平台上均获得一致提升
3B vs 7B规模效应：7B模型在绝对性能和AEPO带来的增量上均优于3B
模型稳定性：5次运行的标准差σ仅0.11-0.41，表明训练非常稳定

亮点与洞察¶

问题定义精准：将GUI定位分解为空间对齐和语义对齐，并精确诊断出语义对齐的探索瓶颈，问题motivation非常清晰
AER的理论推导：从效率第一性原理 \(\eta=U/C\) 出发推导奖励函数，而非ad-hoc设计，具有理论优雅性
多答案范式的普适性：多答案生成+自适应奖励的框架不仅适用于GUI定位，对其他需要空间探索的视觉定位任务（如referring expression comprehension）也可能有效
共线惩罚的巧妙设计：用简单的几何约束防止退化策略，计算开销极小但效果显著

局限与展望¶

多答案生成增加了推理时的计算开销（尽管平均N较小），实际部署时需要权衡性能和效率
共线惩罚基于三角形面积的简单启发式，可能在高维或更复杂的空间探索场景中需要改进
当前框架假设ground truth为bounding box，对于非矩形或像素级目标可能需要适配
未探讨在Agent级别（多步决策）任务中AEPO是否保持优势
AER中效用函数仅考虑二值（成功/失败），未利用IoU等渐进指标

评分¶

新颖性: ⭐⭐⭐⭐ — 多答案+自适应奖励的框架设计有创新，但各组件的novelty中等
实验充分度: ⭐⭐⭐⭐⭐ — 多基准全平台评测，标准差报告，探索成功率分析
写作质量: ⭐⭐⭐⭐ — 结构清晰，Motivation图示非常直观
价值: ⭐⭐⭐⭐ — 在GUI Agent这个快速增长领域建立了新SOTA