GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation¶

会议: NeurIPS 2025
arXiv: 2510.27210
代码: leon022.github.io/GUI-Rise
领域: 机器人
关键词: GUI Navigation, Structured Reasoning, History Summarization, GRPO, Chain-of-Thought

一句话总结¶

提出 GUI-Rise 框架，通过结构化推理（进度估计 + 决策推理）、动作预测和历史摘要三个子任务的联合设计，结合 GRPO 强化学习与历史摘要奖励，显著提升 GUI 导航智能体在跨域场景下的泛化能力。

研究背景与动机¶

GUI 导航是重要方向：多模态大语言模型（MLLM）驱动的 GUI 导航智能体可以将自然语言指令转化为界面操作，但在多步交互中保持一致性仍是挑战
现有方法泛化差：基于 GPT-4 的 prompt engineering 方案受限于冻结的模型能力；基于 SFT 的开源方案容易过拟合静态指令-动作对，跨域表现不佳
历史表示方式有缺陷：现有系统要么仅编码动作序列（丢失视觉状态信息），要么使用完整截图序列（计算开销大、上下文窗口受限严重），均无法像人类一样高效整合历史信息
长程序推理不足：有效的 GUI 决策需要依赖已完成的动作和界面演变，但当前智能体在长期连贯推理方面仍有明显短板
SFT 难以学好结构化推理：消融实验表明仅用 SFT 训练结构化 CoT 反而导致性能下降，需要强化学习来真正提升推理质量
历史摘要缺乏监督：无监督的历史摘要可能质量低下，误导策略学习，需要专门设计奖励函数来保证摘要质量

方法详解¶

整体框架¶

GUI-Rise 在每一步交互中执行三个子任务的循环：(1) 结构化推理——分析当前截图和历史摘要，生成包含进度估计和决策推理的 CoT；(2) 动作预测——基于推理结果输出可执行的 GUI 动作（类型 + 值 + 坐标）；(3) 历史摘要——将新信息压缩为简洁文本摘要，供下一步使用。三个子任务的输出通过 XML 标签序列化，由 MLLM（Qwen-VL 系列）自回归生成。

关键设计 1：结构化推理子任务（Structured Reasoning）¶

功能：将 CoT 推理分解为 Progress Estimation（进度估计）和 Decision Reasoning（决策推理）两个显式阶段
核心思路：智能体先根据当前截图 \(\mathbf{o}_t\) 和历史 \(\mathbf{h}_{t-1}\) 评估任务完成进度，再结合用户指令 \(\mathbf{u}\) 和先前决策确定下一步动作方向
设计动机：模仿人类导航界面时的认知策略——先判断"做到哪了"，再决定"下一步做什么"，实现步步推理的连贯性和可解释性

关键设计 2：历史摘要子任务（History Summary）¶

功能：每一步将当前观测 \(\mathbf{o}_t\)、上一步摘要 \(\mathbf{h}_{t-1}\) 和指令 \(\mathbf{u}\) 压缩为简洁的文本记忆 \(\mathbf{h}_t\)
核心思路：用语义摘要替代原始截图序列或动作列表，以固定长度的文本持续追踪任务进度，不受窗口大小限制
设计动机：原始截图计算开销大且强制截断上下文；纯动作序列丢失视觉状态。语义摘要兼具层次抽象和任务场景锚定，有效支持多步推理

关键设计 3：两阶段训练策略（Cold-start + RL）¶

功能：第一阶段用 GPT-4o-mini 生成伪标签进行 SFT 冷启动；第二阶段在模拟 GUI 环境中用 GRPO 强化学习精调
核心思路：冷启动建立基础推理和摘要能力，避免 RL 初期奖励过于稀疏；RL 阶段通过环境交互发展自适应推理策略
设计动机：直接用 SFT 训练结构化推理效果差（消融实验 Row 3 显示性能大幅下降），必须由 RL 来激发小模型的推理探索能力

关键设计 4：三重奖励函数设计¶

功能：设计格式奖励 \(\mathcal{R}^f\)、动作奖励 \(\mathcal{R}^a\) 和历史摘要奖励 \(\mathcal{R}^h\) 三个互补的奖励函数
核心思路：总奖励 \(r_{t,i} = r^f_{t,i} + \lambda^a \cdot r^a_{t,i} + \lambda^h \cdot r^h_{t,i}\)。其中历史摘要奖励通过额外 \(k\) 次 rollout 检验摘要对未来动作的支持质量，将摘要价值与后续动作正确性直接挂钩
设计动机：无监督摘要可能质量低下反而误导策略（消融 Row 5 vs Row 6）；通过"摘要→未来动作正确率"的反馈闭环，驱动模型主动学习提取对任务有用的历史关键线索

损失函数与训练策略¶

冷启动阶段：标准 token 级交叉熵损失 \(\mathcal{L}_{\text{CE}}\)，在伪标签（CoT + 动作 + 摘要）上进行 SFT
RL 阶段：采用 GRPO 算法，通过组级归一化计算优势 \(A_{t,i}\)，三重奖励加权求和后用于策略梯度优化，无需价值网络

实验¶

表 1：Mind2Web 跨域评估（Step SR）¶

方法	Backbone	Cross-Task	Cross-Website	Cross-Domain
ShowUI-2B	Qwen2-VL-2B	37.2	35.1	35.2
GUI-Rise	Qwen2-VL-2B	38.8	35.4	39.7
Qwen2.5-VL-3B	Qwen2.5-VL-3B	48.3	43.5	44.1
GUI-Rise	Qwen2.5-VL-3B	46.2	44.7	47.6
ShowUI-2B (ZS)	Qwen2-VL-2B	18.6	16.8	21.4
GUI-Rise (ZS)	Qwen2-VL-2B	24.2	21.1	29.7

关键发现：零样本设置下 Cross-Domain 上 GUI-Rise 比 ShowUI 提升 38.7%（29.7 vs 21.4）。

表 2：AITW 移动端评估（Overall Accuracy）¶

方法	Backbone	In-Domain	Zero-Shot
ShowUI-2B	Qwen2-VL-2B	70.0	35.9
GUI-Rise	Qwen2-VL-2B	71.1	54.1
Qwen2.5-VL-3B	Qwen2.5-VL-3B	72.5	38.9
GUI-Rise	Qwen2.5-VL-3B	73.7	56.0

关键发现：零样本设置下 GUI-Rise 相对 ShowUI 提升 50.7%（54.1 vs 35.9），在复杂 WebShop 任务上提升 +15.5 分。

消融实验（AITW Overall）¶

配置	TST	SCoT	HS	HSR	Overall
Baseline	×	×	×	×	67.2
+ RL only	✓	×	×	×	66.0
+ SCoT SFT only	×	✓	×	×	42.6
+ RL + SCoT	✓	✓	×	×	69.8
+ History	✓	✓	✓	×	70.7
+ History Reward	✓	✓	✓	✓	71.1

亮点¶

三子任务联合框架设计精巧，推理（进度估计 + 决策分析）→ 动作 → 摘要的循环贴近人类认知范式
历史摘要奖励创新性强，通过 rollout 方式将摘要质量与未来动作正确性直接绑定，形成自改进闭环
跨域泛化能力突出，零样本场景下相对 ShowUI 提升 38.7%（Mind2Web）和 50.7%（AITW），验证了结构化推理对泛化的重要性
消融实验清晰展示了每个组件的贡献，特别揭示了"SFT 无法学好结构化推理、必须依赖 RL"的重要发现

局限性¶

模型仅在离线数据上训练，无法从在线交互中学习和适应新场景
伪标签依赖 GPT-4o-mini，冷启动阶段的标签质量受上限约束
仅基于 2B/3B 规模模型验证，更大规模模型上的扩展性尚不清楚
历史摘要为纯文本形式，可能丢失细粒度视觉信息（如小按钮状态）

评分¶

新颖性: ⭐⭐⭐⭐ — 三子任务框架和历史摘要奖励设计有较高新颖性
实验充分度: ⭐⭐⭐⭐ — 涵盖 Mind2Web/AITW/MiniWob/AndroidWorld/OSWorld，消融完整
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式化定义严谨
价值: ⭐⭐⭐⭐ — 跨域泛化提升显著，对 GUI Agent 领域有实质贡献