ICLR 2026 LLM Agent GUI Agent Agentic RL GRPO 难度自适应经验回放课程过滤奖励重塑

MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=C3F0G9nXhl
代码: https://github.com/THUDM/MobileRL
领域: LLM Agent / Mobile GUI Agent / 智能体强化学习
关键词: GUI Agent, Agentic RL, GRPO, 难度自适应, 经验回放, 课程过滤, 奖励重塑

一句话总结¶

MobileRL 用"两阶段推理 SFT 热身 + 难度自适应 GRPO（AdaGRPO）"的在线智能体 RL 框架训练手机 GUI 智能体，靠正样本回放、失败课程过滤、最短路径奖励三招稳住稀疏奖励下的多轮训练，让 9B 模型在 AndroidWorld 上success rate 冲到 80.2%、AndroidLab 53.6%，刷新 SOTA。

研究背景与动机¶

领域现状：视觉语言模型（VLM）让 GUI 智能体能零样本地操作网页和手机界面，但要把它们做强，主流路线还是在静态专家演示上做监督微调（SFT）或离线模仿学习。这类方法行为覆盖窄、出错后几乎无法自我恢复——演示里没出现过的状态，模型一旦走错就回不来。

现有痛点：带可验证奖励的强化学习（RLVR）看起来是更好的替代，但把它搬到手机这种交互式模拟器上做"智能体 RL"（需要多步规划与推理）时会撞上三堵墙：

稀疏正信号下的复杂指令跟随：手机模拟器跑一次 rollout 又慢又贵，base 模型本来就难稳定输出正确的 GUI 动作命令，正确完成的轨迹极其稀少，早期探索严重低效。
重尾且不稳定的任务难度谱：有的任务多采几次就能成功，有的对模型来说几乎永远解不出。朴素均匀采样既浪费算力，又用不上那些稀少但极有信息量的成功轨迹。
大规模手机环境的采样瓶颈：同时部署管理上百个并发手机实例资源消耗巨大、还难以复现，采样吞吐低进一步限制了 RL 的规模和效率。

核心矛盾：手机智能体 RL 的奖励是稀疏二值的、只在任务最终成功时才给，而任务难度呈重尾分布、采样代价又极高——标准 GRPO 的均匀采样和统一奖励广播在这种设定下既不稳又低效。

本文目标：构建一个能在手机交互环境里高效、稳定、可复现地扩展智能体 RL 的框架，把开源 VLM 训成 SOTA 级手机 GUI 智能体。

核心 idea：先用两阶段 SFT（无推理 + 推理）热身给 RL 一个强初始策略，再用 难度自适应 GRPO（AdaGRPO） 三件套——按难度回放成功轨迹、过滤掉永远解不出的任务、按完成长度重塑奖励——把稀疏奖励、重尾难度、昂贵采样三个问题一并按住。

方法详解¶

整体框架¶

MobileRL 把训练拆成两大块：推理热身（无推理 SFT + 推理 SFT，给 RL 一个会输出动作、也会写中间推理的策略初始化）和在线智能体 RL（用 AdaGRPO 让热身后的策略与手机环境闭环交互、采轨迹、更新）。任务被建模成有限步 MDP：状态是截图 + 解析出的 UI 层级 XML + 历史 think/action 文本，动作是 Tap/Swipe/Type/Launch/Back/Finish 等原子操作，奖励只在任务成功时给二值 1、否则 0。整个 RL 跑在 Verl 框架上，底层用上百个 Docker 化的 Android 虚拟设备（AVD）并发，撑起 1000+ 环境的可复现采样。

flowchart LR
    A[专家演示数据] --> B[Reasoning-Free SFT<br/>纯动作打底]
    B --> C[Reasoning SFT<br/>迭代补中间推理]
    C --> D[热身策略 πθ]
    D --> E[与手机环境闭环交互<br/>采 G 条轨迹]
    E --> F[SPA 重塑奖励<br/>算组内相对优势]
    F --> G[AdaPR Buffer<br/>存高优势成功轨迹]
    F --> H[FCF<br/>过滤全失败任务]
    G --> I[混合采样更新策略]
    H --> I
    I --> D

关键设计¶

1. 两阶段推理热身：先学会动手，再学会想清楚。 直接从 base 模型起跑在线 RL 在虚拟设备里太慢，所以先做 Reasoning-Free SFT——用专家演示 + AndroidControl 训练集打动作基础，但这批数据只有最终动作序列、没有中间推理，纯靠它训出来的是"黑箱"策略。于是再叠一层 Reasoning SFT：用现成 Instruct 模型对每条任务 \(x\)（专家答案 \(a^*\)）采样多组"推理-动作"候选 \((c_k, a_k)\)，只保留那些动作命中 \(a^*\) 的样本 \((x, c_k, a^*)\) 进数据集 \(D_R\)，先训出初始推理策略 \(\pi_0^R\)，再迭代精炼——每轮让 \(\pi_t^R\) 重新提候选、挑出最佳解释 \(c^*\) 加入数据集再微调。两阶段下来让模型既有可靠的动作基础，又有透明的中间推理，把"长且组合"的复杂指令跟随能力提上去，也大幅减少 RL 阶段昂贵的 on-policy 试错。

2. 最短路径奖励调整（SPA）：别让成功的长轨迹白占便宜。 手机环境只在终点给二值奖励 \(r\in\{0,1\}\)，常规做法把它广播到每一步 \(R(s_t,a_t)=r\)。问题在于：成功轨迹越长贡献的梯度项越多，这等于变相奖励冗长。SPA 按轨迹长度对成功奖励做缩放：

\[R_{\text{SPA}}(s_t,a_t) = r(\tau_i)\left(1 - \alpha\frac{T_i - T_{\min}}{T_i}\right),\quad T_{\min}=\min_{\tau_j\in\mathcal{T}_{\text{succ}}}|\tau_j|,\ \alpha\in(0,1]\]

其中 \(T_i\) 是轨迹 \(\tau_i\) 的长度，\(T_{\min}\) 是当前任务实例下最短成功轨迹的长度，\(\alpha\) 控制惩罚强度。注意它只对成功轨迹生效，失败的提前终止仍拿 0 分——所以短不等于好、不会诱导模型为了短而草草 Finish。这跟文本 RLVR 里的 token 级长度惩罚不同，SPA 作用在多步 GUI 动作轨迹上，重塑后的奖励照旧广播到每一步去算组内相对优势，引导策略偏好"更短的成功路径"而不牺牲成功率。

3. 难度自适应正样本回放（AdaPR）：把稀少又珍贵的成功攒下来反复用。 稀疏奖励下"又难又成功"的轨迹极少但信息量极大，扔掉太可惜。AdaPR 借鉴经验回放的思路：每轮迭代 \(t\) 在当前策略 \(\pi_{\theta_t}\) 下采到轨迹集 \(\mathcal{T}_t\)，算出轨迹级优势后把 top-\(\kappa\) 条高价值成功轨迹存进回放缓冲 \(B\)。更新时每个 mini-batch 从混合分布里采 \(M\) 条：

\[q(\tau) = \gamma\, p_B(\tau) + (1-\gamma)\, p_{\text{on}}(\tau)\]

其中 \(p_{\text{on}}\) 是 on-policy 分布、\(p_B\) 是缓冲区经验分布。为了不让回放盖过新探索，最多从 \(B\) 里取当前优势最高的 \(\gamma M\) 条，剩下保留 on-policy 多样性。这样那些"难得一见的成功"被反复利用来强化学习信号、稳住策略更新。

4. 失败课程过滤（FCF）：别在死胡同上反复烧算力。 鉴于手机基准的难度重尾分布，总有一批任务模型怎么采都是全 0 奖励，反复采它们既浪费算力又收集不到正优势数据。FCF 用在线难度统计动态降权：任何任务若连续两个 epoch 全 0 奖励就进入三 epoch 冷却期，期间采样概率按 \(w_{\text{task}}=\exp(-f)\) 衰减（\(f\) 是连续失败 epoch 数），冷却后仍解不出就永久移除。它是课程采样的资源感知简化版——不像"由易到难"课程假设探索廉价，FCF 专门剔掉昂贵手机交互下持续无解的死任务，同时保留还能恢复的失败信号。关键是 FCF 只作用于训练采样分布，所有评测仍在完整测试集上跑、不删任何任务。

实验关键数据¶

主实验表格¶

在 AndroidWorld（116 任务/20 应用）和 AndroidLab（138 任务/9 应用）两个交互式基准上对比闭源与开源模型（success rate %）：

模型	#参数	AndroidWorld	AndroidLab
GPT-4o-2024-11-20	-	34.5	31.2
Claude-Sonnet-4-thinking	-	41.0	40.6
UI-Tars-1.5	-	64.2	38.3
AutoGLM-2024-10	-	–	36.2
Qwen2.5-VL-7B-Instruct	7B	27.6	10.1
GLM-4.1V-9B-Thinking	9B	41.7	24.6
V-Droid	8B	59.5	38.3
UI-Genie-Agent	72B	-	41.2
MobileRL w/ Qwen2.5-VL-7B	7B	72.0	42.5
MobileRL w/ GLM-4.1V-9B	9B	80.2	53.6

MobileRL-9B 把前 SOTA 的 64.2% / 41.2% 抬到 80.2% / 53.6%；MobileRL-7B 也以小搏大，比 72B 的 UI-Genie-Agent 在 AndroidWorld 上高出约 16%。

消融实验表格¶

框架逐阶段增益（success rate %，下标为相对上一阶段提升）：

模型	AndroidWorld	AndroidLab
Qwen2.5-VL-7B-Instruct	27.6	10.1
+ Reasoning-Free SFT	50.2 (+22.6)	36.9 (+26.8)
+ Reasoning SFT	56.8 (+6.6)	38.7 (+1.8)
+ AdaGRPO (MobileRL-7B)	72.0 (+15.2)	42.5 (+3.8)
GLM-4.1V-9B-Base	7.7	10.1
+ Reasoning-Free SFT	48.1 (+40.4)	42.7 (+32.6)
+ Reasoning SFT	66.2 (+18.1)	45.0 (+2.3)
+ AdaGRPO (MobileRL-9B)	80.2 (+14.0)	53.6 (+8.6)

AdaGRPO 三件套消融（AndroidWorld 测试集，三次平均）：

变体	AndroidWorld
MobileRL（全量）	71.1
w/o AdaPR	63.6
w/o SPA	69.1
w/o AdaPR & SPA	58.5
w/o FCF	64.8
w/o AdaGRPO（仅 Reasoning SFT）	56.8

关键发现¶

每一招都有用：去掉 AdaPR 掉 7.5 分、去掉 FCF 掉 6.3 分、去掉 SPA 掉 2 分，同时去掉 AdaPR 和 SPA 直接掉到 58.5——回放和课程过滤是稳训练的主力，奖励重塑是锦上添花。
SFT 热身是大头：两阶段 SFT 就把 GLM-4.1V 从 7.7 拉到 66.2，AdaGRPO 在此基础上再贡献 +14。说明 RL 离不开一个够强的初始策略。
训练曲线更稳更高：完整 MobileRL 的训练轨迹级奖励曲线持续高于各消融变体，去掉 AdaPR/SPA 后曲线明显走低，验证三件套对训练稳定性的作用。

亮点与洞察¶

把"难度"显式建进 RL：AdaPR 重用难成功、FCF 剔死任务、SPA 偏好短成功，三招都围绕"任务难度异质 + 采样昂贵"这个手机场景的真痛点设计，而非照搬文本 RLVR。
工程也是贡献：基于 Verl 编排上千个 Docker 化 AVD 并发采样，解决了手机模拟器"难并发、难复现"的老大难，让大规模在线智能体 RL 在 Android 上真正可跑可复现。
以小搏大：7B 模型超过 72B 的对手，说明数据/算法设计比堆参数对 GUI 智能体更关键。

局限与展望¶

依赖较重的 SFT 热身：方法链路是"无推理 SFT → 推理 SFT → RL"，推理 SFT 还要靠现成 Instruct 模型 bootstrap 推理标注，初始化成本不低，纯从 base 直接 RL 的可行性未充分展示。
奖励仍是二值终端信号：SPA 只是对成功轨迹做长度缩放，本质还是稀疏奖励，对极长程、子任务繁多的任务，过程级奖励的缺失可能仍是瓶颈。
基准局限于 Android：框架与环境都绑定 Android OS，迁移到 iOS / 桌面 / 网页等其他 GUI 形态的泛化性有待验证。
FCF 的永久移除略激进：连续失败即永久剔除，可能误伤"当前太难但后期能解"的任务，冷却/移除阈值对最终覆盖面的影响值得更细的分析。

评分¶

新颖性: ⭐⭐⭐⭐ AdaPR/FCF/SPA 三件套虽各有渊源，但针对手机智能体 RL 的难度重尾与昂贵采样做了贴合的组合式创新，AdaGRPO 是有辨识度的整体方案。
实验充分度: ⭐⭐⭐⭐ 双基准 + 双 backbone + 逐阶段/逐组件消融 + 训练曲线，证据链完整；测试集三次平均也较严谨，略欠跨 OS 泛化验证。
写作质量: ⭐⭐⭐⭐ 问题-挑战-方法对应清晰，三件套动机讲得明白，公式与图表配合到位。
价值: ⭐⭐⭐⭐⭐ 开源、刷新 AndroidWorld/AndroidLab SOTA、7B 超 72B，且工程上打通大规模可复现手机 RL，对 GUI 智能体社区实用价值高。