UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=dsQHm7YX9c
代码: 有（论文称 All code and models are released）
领域: Agent / 多模态VLM
关键词: GUI grounding, 指令多视角, 指令即推理, SFT+GRPO, 数据清洗

一句话总结¶

这篇论文把"自然语言指令"从被动输入升级为主动的推理路径（Instruction-as-Reasoning）：先用数据流水线清洗噪声标注并把每条指令扩成外观/功能/位置/意图四种视角，再用 SFT 教模型把"改写出某一视角的指令"当作显式推理、最后用 GRPO 让模型自己挑选/组合最有效的视角，得到的 UI-Ins-7B/32B 在 5 个 GUI grounding 基准上刷到 SOTA（UI-I2E-Bench 87.3%、ScreenSpot-Pro 57.0%），并在 AndroidWorld 在线 agent 上取得 74.1% 成功率。

研究背景与动机¶

领域现状：GUI grounding 是 GUI agent 的核心能力——给定一张界面截图 \(S\) 和一条自然语言指令 \(I\)，模型 \(f\) 要输出目标可操作元素的坐标点 \(p=(x_p,y_p)\)。主流做法把指令当作一个静态的输入字符串，专注于改进视觉编码、坐标回归或奖励设计，几乎没人把"指令本身"当成可优化的变量。

现有痛点：作者指出两个被长期忽视的问题。其一是指令质量：人工抽查 OS-Atlas、AMEX、Widget Captioning 三个主流数据集的 1909 条样本，发现高达 23.3% 的指令存在实质缺陷——要么"歧义"（一条指令能对上多个 UI 元素），要么"错配"（界面里根本没有对应元素）。用这种脏数据训练会持续拖累下游精度。其二是指令多样性：现有模型几乎都是被训练成"单一固定风格指令 → 动作"的映射，缺乏跨视角推理的能力。

核心矛盾：人类描述同一个目标会灵活切换视角——关同一个窗口，可以说"点红色的 X"（外观）、"关闭文件管理器"（功能）、"右上角那个按钮"（位置）、"把这个界面弄走"（意图），并策略性地挑选当前最有效的那一种；而模型被锁死在一种风格里，丧失了这种灵活适配能力。作者在 ScreenSpot-Pro 上做受控实验：把原指令分别改写成四种视角，零样本测 Qwen2.5-VL-7B，发现外观/功能/意图视角都显著优于原指令；而"每条样本都选最优视角"的理想上界（Combined）相对原指令带来 76% 的相对提升——说明模型里藏着大量未被释放的潜力。

本文目标：① 把指令数据清干净，建立可靠训练基础；② 让模型学会用多种指令视角作为推理路径，并能在推理时动态挑选最优视角。

切入角度与核心 idea：不同指令类型不是"同义改写"，而是识别同一 UI 元素的不同分析角度。于是把指令从"静态输入"重定义为"动态推理路径"——这就是 Instruction-as-Reasoning 范式：模型不仅要看懂命令，还要主动选出最有效的推理过程来推断用户意图。落地为一套 SFT+GRPO 两阶段训练：SFT 先教会"用多视角指令做显式推理"，RL 再激励"为每个场景选/合成最优视角"。

方法详解¶

整体框架¶

方法分两条主线：先是一条数据流水线把现有 grounding 数据洗净并扩成多视角语料；再是Instruction-as-Reasoning 两阶段训练把这份语料喂给模型。数据流水线对每个样本先用 OmniParser V2 检测界面元素、用 IoU 修正/过滤原始 GT 框（顺手滤掉错配的脏指令），再用 GPT-4.1 围绕高亮的目标元素生成外观、功能、位置、意图四种视角的指令，并逐条做一致性校验确保"指令 ↔ 目标框"严格一对一。训练阶段，SFT 让模型先吐出一段"某一视角的改写指令"当作显式 reasoning、再输出坐标；RL 用 GRPO 把推理改成开放式"先 think 再答"、用 point-in-box 奖励激励模型自己选/组合最优视角。最终产出 UI-Ins-7B / UI-Ins-32B，可直接做 grounding，也能当 GPT-5 planner 下的执行器跑在线 agent。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原始 grounding 数据<br/>截图 + 指令 + GT框"] --> B["多视角数据流水线<br/>OmniParser修框 + GPT-4.1四视角增强 + 校验"]
    B --> C["SFT：指令即推理<br/>改写出某视角指令当 reasoning → 出坐标"]
    C --> D["RL（GRPO）：选最优视角<br/>开放式 think + point-in-box 奖励"]
    D --> E["UI-Ins-7B / 32B"]
    E -->|grounding| F["五大 grounding 基准"]
    E -->|GPT-5 做 planner| G["AndroidWorld 在线 agent"]

关键设计¶

1. 多视角数据流水线：先洗净再按四视角扩增

针对 23.3% 的脏指令和单一视角的训练数据这两个痛点，流水线分两步。预处理阶段用 OmniParser V2 检测截图上所有 UI 元素，再用一个简单的 IoU 方法对照原始 GT 框做修正或过滤——既给每条指令绑定一个可靠的空间锚点，又顺手把无法对齐的错配/歧义指令滤除，把质量缺陷率从 23.3% 压到 8% 以下（流水线产物抽查 1542 条，精确匹配占 93.5%）。增强阶段以高亮目标元素的截图为输入，让 GPT-4.1 围绕外观、功能、位置、意图四个分析视角生成多条高质量改写；为抑制 LLM 幻觉、保证"指令 ↔ 目标"严格一对一，每条生成指令还要再过一遍 GPT-4.1 校验，确认它无歧义地只指向目标元素。这一步把"指令是固定输入"变成"指令是一组可选分析角度"的语料，是后面两阶段训练能成立的前提。

2. SFT 阶段：把"某视角的改写指令"当作显式推理链

SFT 的目标是把多视角推理能力"灌"进模型。具体做法是让模型先生成一段中间 reasoning 文本——其实就是从某一视角改写出来的指令（如"我从外观视角分析……我会点那个像图片的图标"），再输出最终坐标点。训练目标是在整个数据集上最大化目标序列的对数似然：

\[\max_{\theta}\sum_{(S,I,Y_{gt})\in D}\log P(Y_{gt}\mid S,I;\theta),\quad Y_{gt}=R_{gt}\oplus p_{gt}\]

其中 \(\oplus\) 表示序列拼接，\(R_{gt}\) 是从该样本若干个合法视角中随机采样出来的一条改写指令，\(p_{gt}\) 是 GT 坐标。这个统一目标同时优化两件事：学会产出一条"某视角的推理"（Reasoning Generation），以及学会在自生成推理的条件下预测正确坐标（Grounded Prediction）。和直接回归坐标的旧做法相比，它显式地把"换视角思考"写进了输出格式，为 RL 阶段打下能探索多样推理的底子。

3. RL 阶段：用 GRPO 让模型自己选/合成最优视角

SFT 只教会了"能从多视角推理"，但没教"哪条路径更好"。RL 阶段用 Group Relative Policy Optimization（GRPO）来补这一课：关键改动是把 prompt 从"列出四个预定义视角"换成开放式的"先 think 再答"，不再喂死预设视角，鼓励模型去探索更大的推理空间——包括把多个视角揉成一条、甚至自创全新视角。奖励用一个 point-in-box 函数：预测点落在 GT 框内得 1、否则得 0；一组 \(G\) 个 rollout 的奖励按组内均值方差归一化成优势

\[\hat{A}_{i,t}=\frac{r_i-\frac{1}{G}\sum_{i=1}^{G}r_i}{\sqrt{\frac{1}{G}\sum_{i=1}^{G}\left(r_i-\frac{1}{G}\sum_{i=1}^{G}r_i\right)^2}}\]

再用 \(\mathcal{L}=-\frac{1}{G}\sum_{i=1}^{G}\frac{\pi(o_i\mid I,S)}{\pi_{old}(o_i\mid I,S)}\hat{A}_{i,t}\) 做优化。反复迭代后模型学会偏好那些稳定导向正确坐标的推理路径，形成一套"看场景选视角"的上下文相关策略。一个被作者反复强调的隐藏收益是：SFT 阶段灌进去的多样推理能力让 RL 阶段能产出多样的 rollout，从而避免只用坐标做 GT 的 SFT 常见的 policy collapse（响应高度同质、探索失效）。

一个完整示例¶

以"关闭文件管理器窗口"为例走一遍：数据流水线先用 OmniParser 把界面里的红色 X、菜单等元素框出来、用 IoU 把 GT 框对齐到那个 X 上，再让 GPT-4.1 生成四条视角指令——外观"点那个像图片/红色 X 的图标"、功能"关闭文件管理器"、位置"右上角的按钮"、意图"把这个界面弄走"，每条都过校验确认只指向那个 X。SFT 时模型看到"Click the close"，被训练成先吐 <think>我从外观视角分析……点那个像图片的图标</think> 再给坐标。到 RL 阶段 prompt 变成只让它"think"，模型在多次 rollout 里尝试不同视角，point-in-box 奖励告诉它哪条命中——最终它学会在这个场景优先用外观视角，甚至把"右上角的红 X"（位置+外观）组合起来推理。

实验关键数据¶

主实验¶

数据来自 OS-Atlas、Omniact、Android Control、AMEX、AgentNet 等公开数据集（覆盖 Windows/MacOS/Linux/Android），全部过流水线清洗；backbone 为 Qwen2.5-VL-7B / 32B。

基准	指标	UI-Ins-32B	之前最强对手	说明
UI-I2E-Bench	Avg.	87.3	GTA1-32B 83.5	implicit 子集提升更大（+6.6%）
MMBench-GUI L2	Avg.	84.9	GTA1-32B 83.4	Advanced 子集相对 Qwen2.5-VL-32B +24.5%
ScreenSpot-Pro	Avg.	57.0	GTA1/UI-Tars-32B 53.6	Icon 子集 30.0
ScreenSpot-V2	Avg.	94.9	93.2	接近饱和仍领先
ShowDown	Avg.	73.8	71.1	—

7B 版同样在同规模里全面领先：UI-I2E 81.1 / MMBench-GUI L2 83.1 / ScreenSpot-Pro 52.2 / V2 94.0 / ShowDown 73.1。一个一致规律是任务越难、提升越大：MMBench-GUI L2 上 UI-Ins-7B 相对 Qwen2.5-VL-7B 的优势从 Basic 的 134.2% 扩到 Advanced 的 159.4%。

在线 agent：用 UI-Ins-7B 当执行器、GPT-5 当 planner，在 AndroidWorld 拿到 74.1% 成功率，超过 Gemini 2.5 Computer Use（69.7）、UI-TARS-2（73.3）等强基线，比同配置下的 Qwen2.5-VL-7B 基座绝对高出 24.1 个点，说明 grounding 能力的提升能直接转化为在线 agent 表现。

消融实验¶

配置	MMBench-GUI L2	UI-I2E	ScreenSpot-Pro	说明
无 SFT 无 RL	63.4	56.0	24.4	基座
仅 RL	72.4	69.2	37.0	缺先验探索
仅 SFT	76.3	70.1	37.1	不会选最优视角
SFT + RL（完整）	83.1	81.1	52.2	两阶段缺一不可

分析点	关键对比	结论
中间推理是否必要	去掉 reasoning 直接回归坐标，全基准大幅掉点	显式推理是成功关键
IR vs 自由形式推理(FFR)	RL 加 FFR：UI-Tars-1.5-7B 在 SS.Pro 相对 -6.4%；加 IR：+5.1%（Qwen 上 +9.9%）	无结构 FFR 反而拖累，结构化的 IR 才有效
缓解 policy collapse	普通 SFT+RL：Qwen2.5-VL-7B 在 SS.Pro -5.7%、JEDI-7B -12.7%；IR 版 SFT+RL：+24.0%	IR 式 SFT 当探索性热身，避免 RL 崩塌
数据流水线	缺陷率 23.3% → <8%；清洗数据训练在多基准一致涨点	清洗是有效训练的前提

关键发现¶

两阶段缺一不可且互补：SFT 负责"会多视角推理"、RL 负责"选最优视角"，单独任一阶段都明显掉点，完整版在 ScreenSpot-Pro 上比单 SFT/单 RL 高约 15 个点。
推理的"形式"比"有没有"更关键：同样是加中间推理，自由形式推理（FFR）在 RL 里难优化甚至掉点，而把推理约束成"某视角的改写指令"（IR）才稳定涨点——这是本文最反直觉的洞察。
意外的稳定器：IR 式 SFT 让模型 RL 时能产出多样 rollout，直接化解了"只用坐标做 GT 的 SFT → 响应同质 → policy collapse"这一 SFT+RL 顽疾。
涌现能力：训练后模型不仅会在四个预设视角间策略性选择，还会把多个视角组合成一条连贯推理（UI-I2E 的 1477 条样本里出现 5245 种推理方式），甚至自创"按分组归属""按 UI 元素状态"等训练中没见过的全新视角。

亮点与洞察¶

把"指令"重新问题化：以往 grounding 工作都在卷视觉和奖励，本文反其道把镜头对准被当成废话的输入指令，先用 76% 相对提升上界证明"多视角"是块没被挖的金矿，再用 23.3% 缺陷率证明"数据脏"在拖后腿——动机扎实，是典型"重新定义问题比堆模型更值钱"的范例。
"指令即推理"是个可迁移的范式：把 reasoning 约束成"换个视角重述任务"，而非放任自由发挥，恰好解决了 GRPO 在 grounding 上 FFR 难优化的痛点。这个思路可迁移到其他"输入即可多视角解读"的任务（如检索 query 改写、工具调用参数选择）。
SFT 当 RL 的探索热身：用 SFT 注入多样性来防 RL 崩塌，给"SFT+RL 怎么配合"提供了一个具体可操作的解法，而不是泛泛地调 KL 系数。

局限与展望¶

数据流水线重度依赖外部强模型：用 OmniParser V2 检框、GPT-4.1 生成+校验四视角指令，质量和成本都受这两个外部组件牵制；GPT-4.1 的视角生成是否会引入系统性偏置（如偏爱某类描述）未充分讨论。
视角空间被先验框定为外观/功能/位置/意图四类，虽观察到涌现出新视角，但四视角划分本身的合理性、是否对所有 GUI 域都适用缺乏理论论证。
奖励仅用 point-in-box 0/1 信号，对"框很大时点哪都算对"这类粗粒度监督不敏感，可能高估精确度；在线 agent 实验依赖 GPT-5 当 planner，UI-Ins 自身的端到端规划能力未单独评估。
缺陷率/精确匹配等关键统计来自人工抽查（1909、1542 条），样本规模和标注者一致性细节有限，⚠️ 具体口径以原文为准。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把"指令"从静态输入重定义为动态推理路径，是 grounding 领域少见的换视角创新。
实验充分度: ⭐⭐⭐⭐⭐ 五大 grounding 基准 + 在线 agent + 四组消融/分析，覆盖全面且揭示 FFR vs IR、policy collapse 等深层洞察。
写作质量: ⭐⭐⭐⭐ 动机—分析—方法—验证逻辑闭环清晰；个别公式/图注排版有 OCR 噪声但不影响理解。
价值: ⭐⭐⭐⭐⭐ SOTA 模型已开源，且"指令即推理"范式与"SFT 防 RL 崩塌"经验有较强可迁移性。