MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=C3F0G9nXhl
代码: https://github.com/THUDM/MobileRL
领域: LLM Agent / Mobile GUI Agent / 智能体强化学习
关键词: GUI Agent, Agentic RL, GRPO, 难度自适应, 经验回放, 课程过滤, 奖励重塑
一句话总结¶
MobileRL 用"两阶段推理 SFT 热身 + 难度自适应 GRPO(AdaGRPO)"的在线智能体 RL 框架训练手机 GUI 智能体,靠正样本回放、失败课程过滤、最短路径奖励三招稳住稀疏奖励下的多轮训练,让 9B 模型在 AndroidWorld 上success rate 冲到 80.2%、AndroidLab 53.6%,刷新 SOTA。
研究背景与动机¶
领域现状:视觉语言模型(VLM)让 GUI 智能体能零样本地操作网页和手机界面,但要把它们做强,主流路线还是在静态专家演示上做监督微调(SFT)或离线模仿学习。这类方法行为覆盖窄、出错后几乎无法自我恢复——演示里没出现过的状态,模型一旦走错就回不来。
现有痛点:带可验证奖励的强化学习(RLVR)看起来是更好的替代,但把它搬到手机这种交互式模拟器上做"智能体 RL"(需要多步规划与推理)时会撞上三堵墙:
- 稀疏正信号下的复杂指令跟随:手机模拟器跑一次 rollout 又慢又贵,base 模型本来就难稳定输出正确的 GUI 动作命令,正确完成的轨迹极其稀少,早期探索严重低效。
- 重尾且不稳定的任务难度谱:有的任务多采几次就能成功,有的对模型来说几乎永远解不出。朴素均匀采样既浪费算力,又用不上那些稀少但极有信息量的成功轨迹。
- 大规模手机环境的采样瓶颈:同时部署管理上百个并发手机实例资源消耗巨大、还难以复现,采样吞吐低进一步限制了 RL 的规模和效率。
核心矛盾:手机智能体 RL 的奖励是稀疏二值的、只在任务最终成功时才给,而任务难度呈重尾分布、采样代价又极高——标准 GRPO 的均匀采样和统一奖励广播在这种设定下既不稳又低效。
本文目标:构建一个能在手机交互环境里高效、稳定、可复现地扩展智能体 RL 的框架,把开源 VLM 训成 SOTA 级手机 GUI 智能体。
核心 idea:先用两阶段 SFT(无推理 + 推理)热身给 RL 一个强初始策略,再用 难度自适应 GRPO(AdaGRPO) 三件套——按难度回放成功轨迹、过滤掉永远解不出的任务、按完成长度重塑奖励——把稀疏奖励、重尾难度、昂贵采样三个问题一并按住。
方法详解¶
整体框架¶
MobileRL 把训练拆成两大块:推理热身(无推理 SFT + 推理 SFT,给 RL 一个会输出动作、也会写中间推理的策略初始化)和在线智能体 RL(用 AdaGRPO 让热身后的策略与手机环境闭环交互、采轨迹、更新)。任务被建模成有限步 MDP:状态是截图 + 解析出的 UI 层级 XML + 历史 think/action 文本,动作是 Tap/Swipe/Type/Launch/Back/Finish 等原子操作,奖励只在任务成功时给二值 1、否则 0。整个 RL 跑在 Verl 框架上,底层用上百个 Docker 化的 Android 虚拟设备(AVD)并发,撑起 1000+ 环境的可复现采样。
flowchart LR
A[专家演示数据] --> B[Reasoning-Free SFT<br/>纯动作打底]
B --> C[Reasoning SFT<br/>迭代补中间推理]
C --> D[热身策略 πθ]
D --> E[与手机环境闭环交互<br/>采 G 条轨迹]
E --> F[SPA 重塑奖励<br/>算组内相对优势]
F --> G[AdaPR Buffer<br/>存高优势成功轨迹]
F --> H[FCF<br/>过滤全失败任务]
G --> I[混合采样更新策略]
H --> I
I --> D
关键设计¶
1. 两阶段推理热身:先学会动手,再学会想清楚。 直接从 base 模型起跑在线 RL 在虚拟设备里太慢,所以先做 Reasoning-Free SFT——用专家演示 + AndroidControl 训练集打动作基础,但这批数据只有最终动作序列、没有中间推理,纯靠它训出来的是"黑箱"策略。于是再叠一层 Reasoning SFT:用现成 Instruct 模型对每条任务 \(x\)(专家答案 \(a^*\))采样多组"推理-动作"候选 \((c_k, a_k)\),只保留那些动作命中 \(a^*\) 的样本 \((x, c_k, a^*)\) 进数据集 \(D_R\),先训出初始推理策略 \(\pi_0^R\),再迭代精炼——每轮让 \(\pi_t^R\) 重新提候选、挑出最佳解释 \(c^*\) 加入数据集再微调。两阶段下来让模型既有可靠的动作基础,又有透明的中间推理,把"长且组合"的复杂指令跟随能力提上去,也大幅减少 RL 阶段昂贵的 on-policy 试错。
2. 最短路径奖励调整(SPA):别让成功的长轨迹白占便宜。 手机环境只在终点给二值奖励 \(r\in\{0,1\}\),常规做法把它广播到每一步 \(R(s_t,a_t)=r\)。问题在于:成功轨迹越长贡献的梯度项越多,这等于变相奖励冗长。SPA 按轨迹长度对成功奖励做缩放:
其中 \(T_i\) 是轨迹 \(\tau_i\) 的长度,\(T_{\min}\) 是当前任务实例下最短成功轨迹的长度,\(\alpha\) 控制惩罚强度。注意它只对成功轨迹生效,失败的提前终止仍拿 0 分——所以短不等于好、不会诱导模型为了短而草草 Finish。这跟文本 RLVR 里的 token 级长度惩罚不同,SPA 作用在多步 GUI 动作轨迹上,重塑后的奖励照旧广播到每一步去算组内相对优势,引导策略偏好"更短的成功路径"而不牺牲成功率。
3. 难度自适应正样本回放(AdaPR):把稀少又珍贵的成功攒下来反复用。 稀疏奖励下"又难又成功"的轨迹极少但信息量极大,扔掉太可惜。AdaPR 借鉴经验回放的思路:每轮迭代 \(t\) 在当前策略 \(\pi_{\theta_t}\) 下采到轨迹集 \(\mathcal{T}_t\),算出轨迹级优势后把 top-\(\kappa\) 条高价值成功轨迹存进回放缓冲 \(B\)。更新时每个 mini-batch 从混合分布里采 \(M\) 条:
其中 \(p_{\text{on}}\) 是 on-policy 分布、\(p_B\) 是缓冲区经验分布。为了不让回放盖过新探索,最多从 \(B\) 里取当前优势最高的 \(\gamma M\) 条,剩下保留 on-policy 多样性。这样那些"难得一见的成功"被反复利用来强化学习信号、稳住策略更新。
4. 失败课程过滤(FCF):别在死胡同上反复烧算力。 鉴于手机基准的难度重尾分布,总有一批任务模型怎么采都是全 0 奖励,反复采它们既浪费算力又收集不到正优势数据。FCF 用在线难度统计动态降权:任何任务若连续两个 epoch 全 0 奖励就进入三 epoch 冷却期,期间采样概率按 \(w_{\text{task}}=\exp(-f)\) 衰减(\(f\) 是连续失败 epoch 数),冷却后仍解不出就永久移除。它是课程采样的资源感知简化版——不像"由易到难"课程假设探索廉价,FCF 专门剔掉昂贵手机交互下持续无解的死任务,同时保留还能恢复的失败信号。关键是 FCF 只作用于训练采样分布,所有评测仍在完整测试集上跑、不删任何任务。
实验关键数据¶
主实验表格¶
在 AndroidWorld(116 任务/20 应用)和 AndroidLab(138 任务/9 应用)两个交互式基准上对比闭源与开源模型(success rate %):
| 模型 | #参数 | AndroidWorld | AndroidLab |
|---|---|---|---|
| GPT-4o-2024-11-20 | - | 34.5 | 31.2 |
| Claude-Sonnet-4-thinking | - | 41.0 | 40.6 |
| UI-Tars-1.5 | - | 64.2 | 38.3 |
| AutoGLM-2024-10 | - | – | 36.2 |
| Qwen2.5-VL-7B-Instruct | 7B | 27.6 | 10.1 |
| GLM-4.1V-9B-Thinking | 9B | 41.7 | 24.6 |
| V-Droid | 8B | 59.5 | 38.3 |
| UI-Genie-Agent | 72B | - | 41.2 |
| MobileRL w/ Qwen2.5-VL-7B | 7B | 72.0 | 42.5 |
| MobileRL w/ GLM-4.1V-9B | 9B | 80.2 | 53.6 |
MobileRL-9B 把前 SOTA 的 64.2% / 41.2% 抬到 80.2% / 53.6%;MobileRL-7B 也以小搏大,比 72B 的 UI-Genie-Agent 在 AndroidWorld 上高出约 16%。
消融实验表格¶
框架逐阶段增益(success rate %,下标为相对上一阶段提升):
| 模型 | AndroidWorld | AndroidLab |
|---|---|---|
| Qwen2.5-VL-7B-Instruct | 27.6 | 10.1 |
| + Reasoning-Free SFT | 50.2 (+22.6) | 36.9 (+26.8) |
| + Reasoning SFT | 56.8 (+6.6) | 38.7 (+1.8) |
| + AdaGRPO (MobileRL-7B) | 72.0 (+15.2) | 42.5 (+3.8) |
| GLM-4.1V-9B-Base | 7.7 | 10.1 |
| + Reasoning-Free SFT | 48.1 (+40.4) | 42.7 (+32.6) |
| + Reasoning SFT | 66.2 (+18.1) | 45.0 (+2.3) |
| + AdaGRPO (MobileRL-9B) | 80.2 (+14.0) | 53.6 (+8.6) |
AdaGRPO 三件套消融(AndroidWorld 测试集,三次平均):
| 变体 | AndroidWorld |
|---|---|
| MobileRL(全量) | 71.1 |
| w/o AdaPR | 63.6 |
| w/o SPA | 69.1 |
| w/o AdaPR & SPA | 58.5 |
| w/o FCF | 64.8 |
| w/o AdaGRPO(仅 Reasoning SFT) | 56.8 |
关键发现¶
- 每一招都有用:去掉 AdaPR 掉 7.5 分、去掉 FCF 掉 6.3 分、去掉 SPA 掉 2 分,同时去掉 AdaPR 和 SPA 直接掉到 58.5——回放和课程过滤是稳训练的主力,奖励重塑是锦上添花。
- SFT 热身是大头:两阶段 SFT 就把 GLM-4.1V 从 7.7 拉到 66.2,AdaGRPO 在此基础上再贡献 +14。说明 RL 离不开一个够强的初始策略。
- 训练曲线更稳更高:完整 MobileRL 的训练轨迹级奖励曲线持续高于各消融变体,去掉 AdaPR/SPA 后曲线明显走低,验证三件套对训练稳定性的作用。
亮点与洞察¶
- 把"难度"显式建进 RL:AdaPR 重用难成功、FCF 剔死任务、SPA 偏好短成功,三招都围绕"任务难度异质 + 采样昂贵"这个手机场景的真痛点设计,而非照搬文本 RLVR。
- 工程也是贡献:基于 Verl 编排上千个 Docker 化 AVD 并发采样,解决了手机模拟器"难并发、难复现"的老大难,让大规模在线智能体 RL 在 Android 上真正可跑可复现。
- 以小搏大:7B 模型超过 72B 的对手,说明数据/算法设计比堆参数对 GUI 智能体更关键。
局限与展望¶
- 依赖较重的 SFT 热身:方法链路是"无推理 SFT → 推理 SFT → RL",推理 SFT 还要靠现成 Instruct 模型 bootstrap 推理标注,初始化成本不低,纯从 base 直接 RL 的可行性未充分展示。
- 奖励仍是二值终端信号:SPA 只是对成功轨迹做长度缩放,本质还是稀疏奖励,对极长程、子任务繁多的任务,过程级奖励的缺失可能仍是瓶颈。
- 基准局限于 Android:框架与环境都绑定 Android OS,迁移到 iOS / 桌面 / 网页等其他 GUI 形态的泛化性有待验证。
- FCF 的永久移除略激进:连续失败即永久剔除,可能误伤"当前太难但后期能解"的任务,冷却/移除阈值对最终覆盖面的影响值得更细的分析。
相关工作与启发¶
- GRPO 与 RLVR:本文建立在 GRPO(用组内相对优势替代价值基线)之上,把它从单轮文本推理扩展到多轮 GUI 智能体,为"如何在稀疏多轮设定下用好 GRPO"提供了一套可复用的难度自适应改造。
- 经验回放与课程学习:AdaPR 取经典经验回放思想、FCF 取课程采样思想,但都按"采样昂贵 + 奖励稀疏"重新裁剪,提示我们把成熟 RL 组件搬进 LLM 智能体时需按新约束重新设计而非直接套用。
- 对 GUI Agent 的启发:这套"强 SFT 初始化 + 难度感知在线 RL + 大规模并发模拟"的配方,对网页智能体、桌面自动化等其他交互式智能体任务有直接借鉴价值。
评分¶
- 新颖性: ⭐⭐⭐⭐ AdaPR/FCF/SPA 三件套虽各有渊源,但针对手机智能体 RL 的难度重尾与昂贵采样做了贴合的组合式创新,AdaGRPO 是有辨识度的整体方案。
- 实验充分度: ⭐⭐⭐⭐ 双基准 + 双 backbone + 逐阶段/逐组件消融 + 训练曲线,证据链完整;测试集三次平均也较严谨,略欠跨 OS 泛化验证。
- 写作质量: ⭐⭐⭐⭐ 问题-挑战-方法对应清晰,三件套动机讲得明白,公式与图表配合到位。
- 价值: ⭐⭐⭐⭐⭐ 开源、刷新 AndroidWorld/AndroidLab SOTA、7B 超 72B,且工程上打通大规模可复现手机 RL,对 GUI 智能体社区实用价值高。