跳转至

SOLAR-RL: Semi-Online Long-horizon Assignment Reinforcement Learning

会议: ACL2026
arXiv: 2604.22558
代码: 无公开代码(论文说明基于 verl 实现)
领域: GUI Agent / 强化学习 / 机器人与具身智能
关键词: GUI智能体、半在线强化学习、长程任务、信用分配、奖励塑形

一句话总结

SOLAR-RL 用离线轨迹重构、失败点检测和目标对齐奖励塑形,把静态 GUI 数据加工成带有伪在线反馈的长程训练信号,使 Qwen2.5-VL-7B 规模的 GUI agent 在 Android Control、GUI-Odyssey 和 Android World 上获得接近或超过强 offline baseline 的稳定表现。

研究背景与动机

领域现状:GUI agent 正从单步点击、控件定位走向跨应用、多步骤、长程任务。现有强方法一部分依赖 SFT/behavior cloning 学专家演示,另一部分用在线 RL 和环境交互收集新轨迹,以缓解部署时的 covariate shift。

现有痛点:纯 SFT 容易学到“专家路径上的局部反应”,一旦界面状态稍微偏离训练分布,就缺少恢复能力。在线 RL 可以获得真实动态反馈,但 GUI 环境交互昂贵、不稳定,长达 30 步以上的任务又常只有终局 success/failure,导致训练高方差、奖励稀疏和策略崩溃。标准 offline RL 虽然安全便宜,但常把静态数据切成局部 step transition,丢掉“这条轨迹整体成没成功、哪里开始失败”的全局信息。

核心矛盾:GUI 长程任务需要在线反馈式的信用分配,但实际训练又希望保持离线数据的可控性和低成本。关键问题不是简单增加轨迹数量,而是如何从已有静态轨迹中恢复“哪些前缀是有效的、哪个动作第一次让任务偏离、后续动作应如何惩罚”。

本文目标:作者要设计一种半在线 RL 机制,在不真实访问环境的前提下,把静态 GUI 数据转化为多条可训练候选轨迹,并给每个 step 分配和全局完成质量一致的 dense reward。

切入角度:论文把长程失败看作 credit assignment 问题。只要能检测第一处 breakdown,就可以把 breakdown 之前的有效前缀奖励化,把 breakdown 及之后动作负向化,再把总回报校准到轨迹级质量。

核心 idea:用离线数据模拟在线 rollout 的分支,再通过 failure-point based retroactive credit assignment 把稀疏终局信号变成目标对齐的逐步奖励。

方法详解

SOLAR-RL 的核心不是换一个 GUI agent 架构,而是在训练数据和奖励信号上重构长程优化问题。它以 Qwen2.5-VL-7B-Instruct 为初始策略,在静态轨迹上生成多个候选 rollout,再通过专家标签或规则判断每个动作是否仍然有效,最后用 shaped reward 训练策略。

整体框架

方法包含两个主要模块。第一,Offline Trajectory Reconstruction:对同一个任务的每一步生成 \(N\) 个候选响应,并按候选索引串成 \(N\) 条重构轨迹;如果某条轨迹在第 \(t^*\) 步被判定为无效,则从该点截断。第二,Trajectory-Aware Reward Shaping:先根据动作类型计算 step validity score,再把 valid prefix、invalid suffix 和轨迹级成功/长度/质量合成最终逐步奖励。训练上采用两阶段思路:先做 atomic adaptation,再做 trajectory optimization,以提升长程稳定性。

关键设计

  1. 离线轨迹重构:

    • 功能:在静态数据上模拟多条可能的在线执行路径,扩大探索空间。
    • 核心思路:给定一个任务,在每个时间步运行 \(N=8\) 个候选 rollout;相同索引的候选动作串接成一条 trajectory candidate。虽然候选是离线生成的,但通过 ground-truth validity assessment 可以判断某条候选路径是否仍然语义一致。
    • 设计动机:普通 offline RL 只看专家轨迹或局部 transition,无法观察偏离后的可能结果;重构候选轨迹让训练看到“从同一上下文出发的不同选择”,接近在线探索但没有真实环境成本。
  2. 失败点检测与前缀信用分配:

    • 功能:定位一条长程轨迹第一次失败的位置,并把信用集中分配给失败前的有效动作。
    • 核心思路:对 Click、Scroll、Type、Launch、Wait/Back 等动作使用不同 validity criteria,例如坐标动作用空间相似度,文本动作用 F1,系统动作用 exact matching。若第 \(t^*\) 步首次无效,则 \(0\)\(t^*-1\) 视为 valid prefix,获得正向奖励;breakdown step 和后续无效动作得到负向惩罚。
    • 设计动机:长程 GUI 任务中,终局失败往往由早期一个关键错误触发。如果只给整条失败轨迹负分,模型无法知道前面哪些动作其实是对的;如果每步都按局部相似度奖励,又可能鼓励无意义长序列。失败点把这两者分开。
  3. 目标对齐奖励塑形:

    • 功能:让逐步奖励的总和与轨迹级执行质量保持一致,同时保持 dense feedback。
    • 核心思路:轨迹级奖励 \(R_{traj}\) 由平均 step raw score、当前长度相对参考长度 \(T/N_{ref}\) 和 success indicator 组成。step 级先把 valid action 保留正分,invalid action 变成 \(-(1-s_{raw})\),再对正负部分归一化。最后计算 \(\Delta=R_{target}-\sum_t r_t^{base}\),把 reward gap 平均分配给 valid prefix 中的正向步骤。
    • 设计动机:这一步解决两个问题:一是局部奖励尺度在不同轨迹长度下不可比;二是模型可能通过拉长序列或重复局部正确动作“刷奖励”。target alignment 把逐步奖励拉回全局目标。

损失函数 / 训练策略

论文在 RL 框架上基于 GRPO/verl 训练,主要变化在 reward definition。策略初始化为 Qwen2.5-VL-7B-Instruct,使用 15k 静态高质量轨迹、约 94k steps。轨迹重构温度为 1.0,每步 8 个候选。训练使用 32 张 NVIDIA L40S,global batch size 128,最大上下文长度 6,144 tokens,650 update steps,约 60 小时。GRPO baseline 与 SOLAR-RL 使用相同训练预算,主要差别是 sparse trajectory reward 与 trajectory-aware shaped reward。

实验关键数据

主实验

模型 训练范式 Android Control Low SR Android Control High SR GUI-Odyssey TM / EM Android World SR 训练数据
Qwen2.5-VL-7B Generalist 85.05 61.40 61.89 / 47.92 未报告 无专门 GUI 训练
UI-TARS-7B-SFT Online specialized 94.81 77.99 86.94 / 68.82 33.3 145K trajectories
AgentCPM-GUI-8B Offline specialized 88.60 67.93 90.82 / 74.84 未报告 >470K steps, >55K trajectories
UI-Venus-Navi-7B Offline specialized 86.16 68.61 87.30 / 71.09 49.1 350K steps
SOLAR-RL Offline / semi-online shaping 88.57 69.27 87.60 / 68.20 33.7 94K steps, 15K trajectories

消融实验

配置 关键指标 说明
Direct GRPO, Super Long Low 200 steps 后难以持续优化 sparse terminal reward 造成 late-stage collapse
Direct SOLAR-RL, Super Long Low 更高且更稳的 action SR dense reward 缓解长程 credit assignment
2-stage GRPO, High Long SR 约 0.66-0.67 后快速饱和 好初始化不能完全解决长程稀疏反馈
2-stage SOLAR-RL, High Long SR 约 0.70 trajectory-aware shaping 继续带来增益
2-stage GRPO, High Super Long SR 约 0.58-0.60 且振荡 超长路径中策略容易停滞
2-stage SOLAR-RL, High Super Long 峰值 SR 约 0.66 长程任务优势更明显
PressBack primitive 精度 >0.8 且收敛更快 对错误恢复动作的学习更稳定

关键发现

  • SOLAR-RL 在 Android Control High 上达到 69.27% SR,是 offline category 中最高,高于 UI-Venus 的 68.61% 和 AgentCPM 的 67.93%。这说明它的优势主要出现在需要多步推理的 split。
  • 在 GUI-Odyssey 上,SOLAR-RL 的 TM 为 87.60,低于 AgentCPM 的 90.82,但 AgentCPM 使用超过 55k 轨迹,SOLAR-RL 只用 15k 轨迹,样本效率更突出。
  • 在 Android World 上,SOLAR-RL 以 94k steps 达到 33.7% SR,略高于 UI-TARS-7B-SFT 的 33.3%,且不需要在线交互或 145k trajectories。
  • 训练动态显示,GRPO 的 mean action reward 在约 600 steps 后出现策略崩溃,而 SOLAR-RL 单调提升并在约 0.75 附近收敛。

亮点与洞察

  • 这篇论文最清楚地抓住了 GUI agent 的“长程失败归因”问题。很多 GUI RL 工作强调在线探索或 reward model,SOLAR-RL 则把重点放在静态数据内部的失败点结构。
  • target-aligned reward shaping 的思想很实用:dense reward 不只是把终局奖励摊到每一步,而是明确约束总回报和轨迹质量一致,避免局部奖励诱导错误目标。
  • 半在线范式适合成本高、真实环境不稳定的 agent 任务。类似思路可迁移到网页自动化、桌面操作、机器人离线演示学习和工具调用 agent。
  • 论文的结果提示,数据规模不是唯一变量。更好的奖励归因可以让 15k 轨迹发挥接近更大训练集的效果。

局限与展望

  • Semi-online feedback 仍受 offline dataset 覆盖限制。未出现过的弹窗、延迟、罕见 app 状态和跨平台事件无法凭静态轨迹生成出来。
  • 当前 validity filter 依赖 ground-truth labels 和动作类型规则。若换成 learned verifier 或 process reward model,会引入 reward noise、校准漂移和 reward hacking。
  • 实验集中在 Android 移动环境。桌面和浏览器有 hover、右键、快捷键、拖拽、多窗口和异步页面变化,validity criteria 要重新设计。
  • 论文没有给出真实在线部署中的交互评估。SOLAR-RL 在静态和动态 benchmark 上有效,但仍需验证它是否能处理真实 app 版本变化和系统状态漂移。
  • 消融主要以曲线和定性分析呈现,若能给出更多表格式超长任务最终数值,会更便于复现和横向比较。

相关工作与启发

  • vs SFT / Behavior Cloning: SFT 学专家动作但缺少偏离后的恢复机制;SOLAR-RL 通过候选轨迹和失败点让模型看到偏离结构。
  • vs Online RL: 在线 RL 有真实动态反馈但交互昂贵、方差高;SOLAR-RL 用静态数据模拟 feedback,牺牲一部分覆盖性换取稳定和低成本。
  • vs UI-S1 / semi-online GUI RL: UI-S1 用 patch module 修正偏差,SOLAR-RL 更强调 outcome-aware credit assignment 和 reward shaping。
  • vs VAGEN / Bi-Level GAE: VAGEN 奖励显式 world modeling 并做层级 credit propagation;SOLAR-RL 不依赖内部世界模型,而是从轨迹有效性和 breakdown 位置构造奖励。

评分

  • 新颖性: ⭐⭐⭐⭐ 半在线 GUI RL 不算全新,但 failure-point + target-aligned shaping 的组合很有针对性。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖三个 GUI benchmark 和训练动态分析,但在线真实环境验证仍不足。
  • 写作质量: ⭐⭐⭐⭐ 动机清楚、图示直观,部分表格和附录公式在 HTML 中可读性一般。
  • 价值: ⭐⭐⭐⭐ 对低成本训练 GUI agent 很实用,尤其适合已有离线演示但难以大规模在线交互的场景。