MobileIPL: Enhancing Mobile Agents Thinking Process via Iterative Preference Learning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=PS8iu4PxKz
代码/数据: MobileIPL-dataset (HuggingFace)
领域: Mobile GUI Agent / 偏好学习
关键词: Mobile GUI Agent, CoaT, 迭代偏好学习, Thinking-level DPO, 规则奖励, 指令进化

一句话总结¶

针对移动 GUI agent 缺乏 CoaT 推理轨迹、又难以做步级标注的痛点，MobileIPL 用 MCTS 式迭代采样搭一棵 CoaT-tree，靠规则奖励给叶节点打分并回传到中间思考步，构造"思考级" DPO 对（T-DPO）来优化推理过程，从而在三个移动 GUI 基准上超越 OS-ATLAS、UI-TARS 等连续预训练大模型。

研究背景与动机¶

领域现状：VLM 驱动的移动 GUI agent 需要在用户指令和当前界面之间生成中间思考。AITZ 提出的 Chain of Action-Planning Thoughts（CoaT，类 System-2 慢思考）范式已被证明能显著提升 GUI 任务的推理表现，把"描述—思考—决策—定位"组织成结构化的思维链。

现有痛点：（1）高质量的多样 CoaT 轨迹稀缺，直接在固定 CoaT 轨迹上做 SFT 容易过拟合，模型被困在僵化的推理模式里；（2）自训练虽能缓解数据稀缺，但只用最终答案正确性作奖励会忽略中间推理步质量，导致 reward hacking；（3）像 ReST-MCTS 这类搜索方法靠训练过程奖励模型（PRM）来评分中间步，但 PRM 需要大规模人工步级标注——而在移动 GUI 领域，环境依赖真机或模拟器，步级标注成本和人力远比文本/代码/数学任务高。

核心矛盾：既想优化"中间思考步"的质量（而非只看最终动作对错），又不想付出 PRM 那种昂贵的步级人工标注代价。

本文目标：在无需 PRM、无需步级人工标注的前提下，对移动 GUI agent 的整个思考过程做细粒度偏好优化，同时缓解 warm-up SFT 阶段的过拟合。

核心 idea：用规则奖励替代 PRM —— 把每个动作展开成 CoaT-tree，叶节点（完整动作）用规则奖励与真值比对打分，再把分数沿树回传给中间思考步，据此自动构造思考级 DPO 对；同时用 GPT-4o 三阶段指令进化 在 SFT 阶段注入多样化 Q&A，防止过拟合并增强 UI 理解。

方法详解¶

整体框架¶

MobileIPL 分三段：先用"指令进化"扩充的混合数据做 warm-up SFT 得到种子策略；再对每个动作迭代采样构建 CoaT-tree、用规则奖励给叶节点打分并回传得到中间步价值；最后从树中过滤对比对做 Thinking-level DPO 自训练，并把更新后的 agent 当作新基座继续迭代直到性能瓶颈。

flowchart LR
    A[通用 VLM] --> B[指令进化<br/>GPT-4o 三阶段 Q&A]
    B --> C[Warm-up SFT<br/>混合 T+Q 得种子策略 πS0]
    C --> D[CoaT-tree 迭代采样<br/>每步采 K 个续写]
    D --> E[叶节点规则奖励 v·st·<br/>+ 回传到中间步]
    E --> F[对比数据过滤<br/>α/β/γ 分类构造 DPO 对]
    F --> G[Thinking-level DPO 训练]
    G -->|更新 agent 作新基座| D

关键设计¶

1. 多轮思考过程建模：把一个动作拆成四轮对话。 作者把 CoaT 推理的每个动作 \(\hat{a}_i\) 形式化为多轮对话 \(\hat{a}_i=[s_1,s_2,s_3,s_4]\)，分别对应描述、动作思考、动作决策、坐标定位，即 \(s_1=\text{Description}(P_1,u_i)\)、\(s_2=\text{Thought}(P_2,u_i,I,\hat{a}_{0:i-1},s_1)\)、\(s_3=\text{Action}(\cdot)\)、\(s_4=\text{Grounding}(\cdot)\)。这样拆分的动机很实际：当模型一口气解码整段推理时，图像模态 \(u\) 占据了绝大多数输入 token，会压过文本指令 \(I\) 和动作历史，使模型注意力偏离文本细节；多轮对话强制每一步只聚焦当前推理子任务，既平衡了跨模态 token 比例，又保证最终一定能产出符合格式要求的答案。

2. CoaT-tree 迭代采样 + 规则奖励：用规则替代 PRM 给中间步打分。 沿 CoaT 范式逐步采样，每一步 \(t\) 采 \(K\) 个续写 \(\hat{s}_t=\{\hat{s}_t^{(k)}\mid \hat{s}_{0:t-1}\}_{k=1}^K\)，自然形成一棵树。叶节点（完整动作）与真值 \(a^*\) 比对算规则奖励：完全正确得 1，动作类型匹配则给 \(v_{type}+\text{score}_{match}\)，否则为 0。其中 \(\text{score}_{match}\) 对 CLICK 用预测与真值坐标的归一化距离 \(d(x,y)\) 做平滑奖励（距离越近分越高），对 INPUT 用文本 F1 做平滑奖励（重叠越多分越高），把"差一点点"和"完全错"区分开。关键一步是把叶节点价值反向回传给中间步：\(v(s_{t-1})=c\cdot\frac{1}{K}\sum_{k=1}^{K}v(s_t^{(k)})\)，\(c\) 是折扣因子，于是每个中间思考步都拿到了一个无需 PRM、无需人工标注的连续价值。

3. 对比数据过滤：按树的质量分 α/β/γ 三类挑正负样本。 根据一棵采样树中叶节点价值的分布，把树分成三类：\(\alpha\) 是所有叶节点价值都为 1 的"完美树"（稳定输出正确思考+动作，不用于构造对比对）；\(\beta\) 是既有正确又有错误叶节点的"潜在正确树"，是构造对比对的主力；\(\gamma\) 是全部叶节点都不为 1 的"待精炼树"。在 \(\beta\) 中取价值为 1 且动作类型尽量多样的作正样本，构造 \(\beta_{pairs}=\langle \hat{s}_t^{(k)}\uparrow,\hat{s}_t^{(k')}\downarrow\mid v(\hat{s}_t^{(k)})-v(\hat{s}_t^{(k')})>1/K\rangle\)（要求正负样本价值差超过 \(1/K\) 才成对，避免噪声对）；在 \(\gamma\) 中直接用真值动作 \(a^*\) 作正样本、采样输出作负样本，\(\gamma_{pairs}=\langle a^*\uparrow,\hat{s}_t^{(k)}\downarrow\rangle\)。

4. Thinking-level DPO（T-DPO）+ 迭代自训练。 在相同前缀思考 \(s_{1:t-1}\) 条件下，对同一思考步的正负续写 \(s_t^+,s_t^-\) 做 DPO 比较：\(L_{\text{T-DPO}}=-\mathbb{E}\big[\log\sigma(\beta\log\frac{\pi_\theta(s_t^+\mid s_{1:t-1})}{\pi_{ref}(s_t^+\mid s_{1:t-1})}-\beta\log\frac{\pi_\theta(s_t^-\mid s_{1:t-1})}{\pi_{ref}(s_t^-\mid s_{1:t-1})})\big]\)，并配合 SFT loss 一起优化。与 TreePO/SPO 把长序列切成大量短片段不同，MobileIPL 用固定的 CoaT-tree 建模思考、价值直接由规则奖励算出（不依赖不稳定的 PRM），采样和训练都更高效。优化后把新 agent 当基座继续采集对比对再训，迭代直到性能瓶颈。

5. 三阶段指令进化：缓解 SFT 过拟合并增强 UI 理解。 warm-up SFT 后 CoaT 模式固定、输出多样性差，作者用 GPT-4o 基于真实手机界面截图生成三层 Q&A：Level I 通用 GUI Q&A（定位/指代/页面描述，强化基础能力）、Level II 控件功能与嵌套关系（避免 agent 把 textview 当 button 误点）、Level III 高级 FAQ（页面结构框架、对控件交互后导航结果的预期与预测）。生成的 Q&A 经人工过滤后与原轨迹 \(T\) 混合做 warm-up SFT，既防止过拟合静态指令、又通过视觉接地的问答提升对 UI 布局的理解，使采样空间从 4% 扩到 31%、含正确答案的采样比例从 72.7% 升到 77.9%。

实验关键数据¶

主实验表格¶

在 AITZ、AMEX、AndroidControl 三个移动 GUI 基准上以 Qwen2-VL-7B 为骨干，Step.Acc 为主指标：

基准	关键对比	MobileIPL	最强基线
AITZ (Total)	vs Falcon-UI-7B(3M GUI 预训练)	69.15	69.10
AITZ (Total)	vs 种子模型 / Qwen2-VL-7B	69.15	55.40 / 60.36
AMEX (Overall)	vs SphAgent-7B(SOTA)	74.29	70.71 (+3.58)
AMEX (Overall)	vs OS-Atlas / UI-Tars	74.29	70.33 / 70.33 (+3.96)
AndroidControl (Step.Acc)	vs UI-Tars-7B / OS-Atlas	72.7	72.5 / 71.2
AndroidControl (Grounding)	vs Qwen2-VL-7B(SFT)	77.0	68.5 (+8.5)

AndroidControl OOD 子集（IDD / app-unseen / task-unseen）：MobileIPL 取 73.6 / 70.0 / 72.2，全面超过 OS-Atlas（71.2 / 60.7 / 66.2，OOD 掉得明显）和同为自训练的 Qwen2-VL-GRPO（70.2 / 68.1 / 69.7），展示更强泛化、更小的域外退化。

消融实验表格¶

AITZ 第一轮（MobileIPL-R1 = 65.4）消融：

设置	Total	Δ
MobileIPL-R1（完整）	65.4	—
− IPL（只 SFT）	60.4	−5.0
− 指令进化 Evo	62.9	−2.5
− IPL 负样本	61.4	−4.0
− IPL + Naive DPO（整轨迹）	60.3	−5.1
1/2 训练数据（R1）	64.8	−0.6
4/5 训练数据（R2）	60.6	−4.8

关键发现¶

IPL 是核心：去掉 IPL 只做 SFT 掉 5.0%；负样本贡献 4.0%，说明负样本教会模型"怎么推理"而非记忆。
思考级 DPO 优于整轨迹 Naive DPO：在整条轨迹上做 naive DPO 反而掉到 60.3%，比仅用 CoaT-tree 正样本的 SFT 还低 1.1%，验证 CoaT-tree 采样 + 思考过程优化的有效性。
低资源依旧有效：只用一半数据，第一轮 IPL（64.8）就超过原始 CoaT-SFT 和 naive DPO 的最好结果。
效率-性能权衡更好：MobileIPL 准确率 69.15、每句约 27 次 rollout，优于 SPO-Chain（68.03，约 54 次）和 GRPO（66.29，8 次）。
采样数 K=3 性价比最高：K 从 3 增到 4 会让树节点从 27 暴增到 64，但提升不到 1%。

亮点与洞察¶

用规则奖励 + 回传替代 PRM：在移动 GUI 这个步级标注极贵的场景下，绕开了不稳定且需大量标注的过程奖励模型，把"中间思考步该优化哪一步"变成可由 CLICK 距离 / INPUT F1 平滑算出的连续信号。
α/β/γ 三分法是个干净的数据工程抽象：把"完美树不用学、混合树挖对比对、全错树用真值兜底"讲得很清楚，且要求正负价值差 \(>1/K\) 来过滤噪声对。
多轮对话的动机抓住了 VLM 的真实痛点：图像 token 淹没文本指令导致注意力偏移，拆成四轮强制聚焦——这是 GUI agent 区别于纯文本 CoT 的关键观察。
小模型打赢大预训练模型：用远少于 OS-Atlas/UI-TARS/Falcon-UI 的数据，7B 骨干达到甚至超越百万级 GUI 预训练，证明"优化思考过程"比"堆预训练数据"更省。

局限与展望¶

PRESS 动作偏弱：AITZ 上 MobileIPL 的 PRESS 准确率明显低于一些基线（消融表中 R1 仅 23.5），作者归因于训练后该类动作样本分布问题，留待 Appendix 讨论。
奖励规则手工设计：CLICK/INPUT 的平滑奖励依赖人工设定的 \(v_{type}/v_{format}\) 与距离归一化，对其他动作类型（SCROLL/STOP 等）只给 0/1，奖励信号不够细。
依赖 GPT-4o + 人工过滤生成指令进化数据：三阶段 Q&A 仍需闭源大模型和人工评估，规模化和复现成本存在门槛。
迭代终止靠"性能瓶颈"经验判断：缺乏明确的收敛准则，迭代轮数 R 需要调参确定。

评分¶

新颖性: ⭐⭐⭐⭐ —— "规则奖励替代 PRM + 思考级 DPO + α/β/γ 数据过滤"组合清晰，CoaT-tree 回传给中间步赋值的思路在 GUI 场景有实用创新，但底层仍是 MCTS 采样 + DPO 的拼装。
实验充分度: ⭐⭐⭐⭐ —— 三基准 + OOD + 低资源 + rollout 效率 + 参数搜索，消融完整，对比了 GRPO/SPO-Chain 等强 RL 基线；PRESS 弱项也坦诚分析。
写作质量: ⭐⭐⭐⭐ —— 公式与算法表述完整，动机交代清楚；指令进化与采样部分图文配合好，个别符号略密。
价值: ⭐⭐⭐⭐ —— 用小数据小模型超越百万级 GUI 预训练，对资源受限的移动 agent 落地有直接参考价值，数据集已开源。