BTL-UI: Blink-Think-Link Reasoning Model for GUI Agent¶

会议: NeurIPS 2025
arXiv: 2509.15566
代码: https://github.com/xiaomi-research/btl-ui
领域: LLM Agent / GUI 自动化
关键词: GUI agent, Blink-Think-Link, cognitive-inspired, GRPO, BTL Reward

一句话总结¶

提出 Blink-Think-Link（BTL）脑启发框架，将 GUI 交互分解为 Blink（快速注意力定位）、Think（认知推理决策）、Link（可执行命令生成）三个生物合理阶段，配合自动化 Blink 数据标注 pipeline 和首个基于规则的过程+结果复合奖励机制 BTL Reward，训练的 BTL-UI 在静态 GUI 理解和动态交互 benchmark 上达到 competitive 性能。

研究背景与动机¶

AI 驱动的 GUI 交互自动化快速发展，但现有方法存在两类根本问题：

SFT 方法：依赖大规模专家标注数据，面对分布外场景泛化能力弱
现有 RFT 方法：采用 Think-Answer 结构（<think> + <answer>），但与人类 GUI 交互模式差距大，且奖励机制仅关注最终结果，缺乏对中间认知过程的引导

认知科学研究表明，人类与 GUI 交互遵循三个sequential过程：(a) 扫视阶段快速定位目标；(b) 多模态信息整合与推理；(c) 精确动作执行。现有 agent 跳过了关键的注意力定位阶段。

方法详解¶

整体框架¶

BTL 将 GUI 交互建模为 MDP，策略函数 F({z_t, u, h}) → o_t = {b_t, d_t, a_t}，输出三个阶段的结果。使用 GRPO（Group Relative Policy Optimization）进行优化。

关键设计¶

Blink 阶段（视觉注意力定位）：
- 功能：快速定位屏幕上与当前任务相关的 ROI 区域，输出封装在 <blink></blink> 标签中
- 核心思路：模拟人类扫视眼跳（saccadic eye movements），通过两阶段 pipeline 生成 Blink 数据——(1) 解析模型提取所有 UI 元素（bbox/类型/caption）；(2) Qwen2.5-VL-32B 根据任务指令筛选 λ 个最相关元素
- 设计动机：现有方法直接从截图生成动作，缺乏对任务相关区域的显式注意；Blink 提供了 top-down 注意力引导
Think 阶段（认知推理）：
- 功能：基于 Blink 定位的区域进行高级推理和决策，输出推理过程在 <think></think> 标签中
- 核心思路：理解当前状态、分析任务目标、规划下一步操作
- 设计动机：推理阶段保留了 DeepSeek-R1 风格的 chain-of-thought，但建立在 Blink 提供的聚焦信息之上
Link 阶段（动作生成）：
- 功能：生成可执行的 GUI 命令（点击坐标、文本输入等），输出在 <link></link> 标签中
- 核心思路：动作类型 α_t + 参数 δ_t 构成完整命令
- 设计动机：与 Think 分离确保命令的结构化和可解析性

损失函数 / 训练策略¶

BTL Reward 由三个组件构成：R_BTL = R_format + R_blink + R_link

Dual Format Reward（R_format）：检查输出是否满足 BTL 三阶段模板结构 + XML/JSON 内容格式，二值奖励
Blink Reward（R_blink）：使用匈牙利匹配器计算预测 ROI 与 GT ROI 的 IoU，允许预测为空（当需要滚动/返回等非交互操作时）
Link Reward（R_link）：严格二值——动作类型和参数必须同时正确才给奖励，防止 reward hacking

使用 GRPO 优化：生成 N 个补全 → 计算组内相对优势 A_i → 最大化策略目标（含 KL 约束）。基于 Qwen2.5-VL-3B/7B 训练。

实验关键数据¶

主实验（表格）¶

模型	方法	ScreenSpot Avg.	ScreenSpot-V2	ScreenSpot-Pro
GPT-4o	ZS	18.8	-	-
Qwen2.5-VL-7B	ZS	82.0	-	-
OS-Atlas-Base-7B	ZS	82.5	-	-
BTL-UI-3B	RFT	competitive	competitive	competitive
BTL-UI-7B	RFT	competitive	competitive	competitive

BTL-UI 使用仅 4K 数据进行 RFT 训练，在 ScreenSpot 系列 grounding benchmark 和 AndroidControl/GUI-Odyssey 等 planning benchmark 上均达到 competitive 性能。

消融实验¶

完整 BTL vs Think-Answer：BTL 三阶段结构 > 传统 Think-Answer 两阶段
BTL Reward vs 仅 Link Reward：过程引导（Blink Reward）显著提升整体性能
严格 Link Reward vs 拆分奖励：严格二值比分离动作类型和参数的奖励更有效（避免 reward hacking）
Blink 筛选元素数 λ 的影响：λ 过小信息不足，过大增加 token 开销

关键发现¶

过程引导对 GUI agent 至关重要——不仅评价"做对了什么"，还评价"看对了什么"
Blink 阶段的注意力定位使后续推理更聚焦——减少了对不相关 UI 元素的干扰
严格的 Link Reward 防止模型学会"猜对动作类型但参数错误"的投机策略

亮点与洞察¶

脑启发设计有实效：Blink→Think→Link 模拟人类的注视→思考→操作，不是噱头而是切实提升了性能
BTL Reward 是 GUI agent 领域首个过程+结果复合奖励——为 RFT-based GUI agent 提供了更丰富的训练信号
自动化 Blink 数据标注解决了 GUI agent 训练数据瓶颈——不需要为注意力区域做人工标注
4K 训练数据即可有效——数据效率高

局限与展望¶

三阶段串行执行增加推理延迟——Blink 阶段的计算开销是否可以减少？
Blink 数据的自动标注依赖 Qwen2.5-VL-32B——标注模型的能力上限限制了 Blink 数据质量
仅在静态 grounding 和短 horizon planning 上验证——复杂多步交互任务的长 horizon 性能未充分评估
RFT 训练仅用 4K 数据——更大规模训练的 scaling 效果未探索

评分¶

新颖性: ⭐⭐⭐⭐ 脑启发三阶段框架 + BTL Reward 设计独特
实验充分度: ⭐⭐⭐⭐ 多个 GUI benchmark 全面评估 + 充分消融
写作质量: ⭐⭐⭐⭐ 认知科学动机与技术设计结合紧密
价值: ⭐⭐⭐⭐ GUI agent 的过程引导 RL 有开创意义