Towards Scalable Lightweight GUI Agents via Multi-role Orchestration¶

会议: ACL 2026 Findings
arXiv: 2604.13488
代码: GitHub
领域: LLM Agent / GUI自动化
关键词: GUI Agent, 轻量模型, 多角色编排, 策略执行器, 强化学习

一句话总结¶

本文提出 LAMO 框架，通过角色导向的数据合成和两阶段训练（SFT with Perplexity-Weighted Cross-Entropy + 多任务 RL），将轻量 3B MLLM 训练为可灵活编排多角色的 GUI Agent，在单体推理、多 Agent 协作和即插即用策略执行器三种模式下工作，搭配 GPT-5 规划器在 AndroidWorld 上达 77.6% 成功率，超越 72B 参数的专用 GUI Agent。

研究背景与动机¶

领域现状：基于 MLLM 的 GUI Agent 正从静态环境向复杂的在线真实场景演进。当前最先进的方法（如 UI-TARS-72B、Agent-S2）通过扩展参数规模和数据获得了显著提升，但部署成本极高。轻量 GUI Agent（≤7B）虽然在静态基准上表现不错，但在在线真实环境中性能急剧下降。

现有痛点：(1) 轻量 MLLM 受限于参数规模，在需要同时处理屏幕分析、策略决策和工具调用的端到端长时序任务中表现不佳；(2) 端到端的单体学习（episodic learning）将高层推理和低层执行耦合在固定管线中，导致任务可扩展性差，难以适配多 Agent 系统（MAS）；(3) 训练多个技能专家成本高昂——例如 Agent-S2 需要同时部署 UI-TARS-72B（视觉定位）、Tesseract OCR（文本定位）和 UNO（结构定位），系统成本极高；(4) 轻量 Agent 缺乏任务可扩展性，无法通过上下文工程灵活切换角色。

核心矛盾：成本-可扩展性困境——大模型有任务可扩展性但部署成本高，轻量模型部署廉价但能力受限且不可扩展。

本文目标：在轻量 MLLM 上实现任务可扩展性，通过参数共享和多角色编排，让 3B 模型在不同推理模式下灵活工作，并能作为即插即用的策略执行器搭配先进规划器持续受益。

切入角度：将 GUI 自动化分解为五个核心能力（动作-工具对齐 ATA、逻辑一致 CoT LCC、屏幕理解 SU、目标规划 GP、屏幕定位 SG），通过角色导向的数据合成和参数共享让单一 3B 模型承担多个角色。

核心 idea：用参数共享的多角色编排替代多个专用模型——一个轻量模型通过上下文工程切换为 Observer、Planner、Allocator、Executor 四个角色，实现 MAS 级别的性能。

方法详解¶

整体框架¶

LAMO 要回答的问题是：能不能让一个 3B 的轻量 MLLM 既具备 GUI 自动化所需的全部子能力，又能像多 Agent 系统那样灵活地分工协作。它的做法是先把 GUI 任务拆成五类原子技能，用教师模型为每类技能合成训练数据，再经过两阶段训练（PWCE 监督微调 + 多任务 GRPO）把这些技能压进同一组参数。训练完的 LAMO-3B 在推理时通过切换提示词扮演不同角色，从而支持三种由弱到强的工作模式：端到端单体推理、参数共享的多 Agent 协作、以及作为即插即用执行器搭配 GPT-5 这类先进规划器。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["GUI 任务拆成五类原子技能<br/>ATA / LCC / SU / GP / SG"]
    subgraph DS["角色导向数据合成"]
        direction TB
        B["教师模型分技能合成数据<br/>Qwen2.5-VL-72B + Gemini-2.5-Pro"]
        C["SG 难点：caption 扩写<br/>+ ILG 复杂布局增强"]
        B --> C
    end
    A --> DS
    subgraph TR["两阶段训练（技能压进同一组参数）"]
        direction TB
        D["阶段1：PWCE 监督微调<br/>困惑度加权偏向坐标 token"]
        E["阶段2：多任务 GRPO 强化"]
        D --> E
    end
    DS --> TR
    TR --> F["LAMO-3B（参数共享多技能模型）"]
    subgraph MR["多角色编排推理"]
        direction TB
        G["切换提示词扮演<br/>Observer → Planner → Allocator → Executor"]
    end
    F --> MR
    MR -->|端到端单体 / 参数共享 MAS| H["LAMO-3B 自主完成全流程"]
    MR -->|策略执行器：GPT-5 规划| I["LAMO-3B 当 Executor 精确落地操作"]

关键设计¶

1. 角色导向数据合成：把长时序难题拆成可靠的子能力

轻量模型在端到端长任务上表现糟糕，但单独处理某一项子能力时却足够可靠，于是本文把 GUI 自动化分解成五类任务——ATA（动作-工具对齐）、LCC（逻辑一致 CoT）、SU（屏幕理解）、GP（目标规划）、SG（屏幕定位），分别用 Qwen-2.5-VL-72B（ATA、SG）和 Gemini-2.5-Pro（SU、LCC、GP）合成数据，让一个模型通过参数共享同时学会全部技能。

其中定位（SG）最难，针对两个实际痛点做了专门处理：一是语义稀疏元素，把原始简短描述用教师模型扩写成语义丰富的 caption，训练时让模型同时预测丰富描述和坐标，迫使它真正"看懂"目标而非死记坐标；二是复杂布局干扰，通过规则增强把前景目标叠到背景屏幕上并加入干扰项，合成出 Intricate-Layout Grounding（ILG）数据，专门锻炼在拥挤界面中定位的能力。

2. Perplexity-Weighted Cross-Entropy（PWCE）：让损失偏向最难的坐标 token

SFT 能把文本推理学得不错，但预测出的坐标往往有系统性偏差——根因在于坐标 token 困惑度高，却和普通 token 共享相同的损失权重，模型缺乏对数值细节的感知压力。PWCE 据此按 token 困惑度动态加权：\(w_i = \frac{1 + \alpha \frac{PPL_i}{\overline{PPL} + \epsilon}}{\frac{1}{|M|}\sum_{j \in M}(1 + \alpha \frac{PPL_j}{\overline{PPL} + \epsilon})}\)，再算加权交叉熵 \(\mathcal{L}_{PW} = \frac{1}{|M|}\sum_{i \in M} w_i \cdot CE(h_i^*, \tilde{y}_i)\)，最终损失为 \(\mathcal{L}_{PWCE} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{PW}\)。困惑度越高的坐标 token 权重越大，模型被迫把注意力投到这些不确定的数值上，从而显著改善定位精度——消融中移除 PWCE 在 ScreenSpot-pro 上掉了 38.3%。

3. 多角色编排推理：一套参数演出整支团队

为了在不堆参数的前提下获得 MAS 的优势，LAMO-3B 仅靠上下文工程就在推理时切换为四个角色：Observer 产出屏幕语义描述 \(\mathcal{C}_{s2w}\)，Planner 把目标分解为子任务 \(\mathcal{C}_{plan}\) 与提示 \(\mathcal{C}_{tips}\)，Allocator 结合历史与上下文给出当前动作 \(\mathcal{C}_{action}\)，Executor 再把动作指令落成原子操作 \(a_t\)。这种分解让每个角色面对的上下文更短更聚焦，缓解了单体推理中的"lost-in-the-middle"和思维-行动幻觉。

更关键的是策略执行器模式：把规划职责交给更强的 MLLM（如 GPT-5）生成高层指令 \(\mathcal{C}_{action}^*\)，LAMO-3B 退居为可靠的"手"，只负责把指令转成精确的屏幕操作。这样轻量模型不必自己承担长程规划的短板，还能随着规划器持续进步而水涨船高，性能天花板被外部模型不断抬高。

一个完整示例¶

以 AndroidWorld 上"在购物 App 里搜索某商品并加入购物车"为例，策略执行器模式下的一轮交互如下：GPT-5 规划器读取任务后生成高层指令 \(\mathcal{C}_{action}^*\)="点击顶部搜索框并输入商品名"；LAMO-3B 作为 Executor 先观察当前截图，定位到搜索框的坐标，输出原子操作 \(a_t\)=点击 (x, y)，再输入文本；环境返回新截图后，规划器据此给出下一条指令"点击第一个搜索结果"，Executor 再次定位并执行。整个过程中 3B 模型从不做长程决策，只在每一步把抽象指令精确落地为屏幕操作，凭借 PWCE 强化过的定位能力保证点击落点准确。

损失函数 / 训练策略¶

SFT 阶段：1 epoch，学习率 4e-6，warmup ratio 0.03，global batch size 256，LoRA（rank 128, alpha 256）。RL 阶段：冻结视觉骨干，仅训练 merge layer 和 LLM，GRPO 1 epoch，学习率 1e-6，rollout batch 32，每样本 8 rollouts。多任务 RL 奖励：SU/GP 用 TF-IDF 相似度归一化，SG 用坐标距离，ATA 用工具类别和值的字符串匹配，加长度惩罚 \(r_{penalty} = -\varphi \cdot \frac{length(y_{pred})}{L_{max}}\)。

实验关键数据¶

主实验¶

MiniWob++ 在线环境成功率

方法	成功率
Qwen2.5-VL-3B	34.6
UI-TARS-7B	58.7
Gemini-2.5-pro (单体)	71.0
LAMO-3B (端到端)	50.0
LAMO-3B (MAS)	60.9 (+21.8%)
LAMO-3B (Gemini-2.5-pro 规划)	77.2 (+54.4%)

AndroidWorld 成功率

方法	成功率
UI-TARS-72B	46.6
Agent-S2	54.3
Mobile-Agent-V3	73.3
LAMO-3B (Gemini-2.5-pro 规划)	60.3
LAMO-3B (GPT-5 规划)	77.6

消融实验¶

关键组件消融（相对 LAMO-3B 的性能下降）

消融项	SP	SP-v2	SP-pro	MiniWob++
移除 ILG 数据	-2.1%	-3.8%	-34.7%	-2.7%
仅 SFT（无 RL）	-1.1%	-3.0%	-32.7%	-22.5%
移除 PWCE	-1.7%	-3.5%	-38.3%	-26.9%
Qwen2.5-VL-3B (无训练)	-7.7%	-6.3%	-51.0%	-44.5%

关键发现¶

MAS 模式比端到端推理提升 21.8%（MiniWob++），策略执行器模式进一步提升 54.4%
LAMO-3B + GPT-5 规划器在 AndroidWorld 上达 77.6%，超越 Mobile-Agent-V3（73.3%）和 UI-Venus-Navi-72B（65.9%）
ScreenSpot-pro 上 LAMO-3B（36.1%）超越 UI-TARS-7B（35.7%）和多个 72B 模型
PWCE 对复杂布局场景贡献最大：SP-pro 上移除导致 38.3% 下降
RL 阶段对在线环境至关重要：仅 SFT 在 MiniWob++ 上下降 22.5%
在 OSWorld 上，LAMO-3B（38.5%）超越 UI-TARS-1.5-7B（28.2%），且仅比 Qwen2.5-VL-32B（43.6%）低 5.1 个点（参数少 10×）

亮点与洞察¶

策略执行器模式是一个极具前瞻性的设计——轻量模型不需要自己做规划，只需成为可靠的"手"，随着规划器（GPT-5 等）不断进步，整体性能天花板持续上升
PWCE 损失函数针对 GUI Agent 的坐标预测问题设计了优雅的解决方案——困惑度加权让模型更关注不确定的数值 token
参数共享的多角色编排在不增加模型参数的情况下实现了 MAS 的优势，是一种高效的能力扩展方式
InfiGUI-R1-3B 在静态环境有竞争力但在线环境暴跌（38.5 vs 10.3 in OSWorld），凸显了端到端学习的任务可扩展性缺陷

局限与展望¶

受限于 3B 参数，在需要超过 10 步的长时序任务中推理深度不足，仍需搭配大模型规划器
在桌面环境（特别是电子表格和需要软件先验的场景）表现不如移动端
ILG 数据增强的合成质量和多样性仍有提升空间
未探索与更多类型规划器的组合效果（如开源规划器 vs 闭源规划器）

评分¶

新颖性: ⭐⭐⭐⭐⭐ PWCE 损失、角色导向数据合成、参数共享多角色编排三个设计均有独创性，策略执行器模式有很强的实用前瞻性
实验充分度: ⭐⭐⭐⭐⭐ 横跨静态（ScreenSpot-pro, AndroidControl）和在线（MiniWob++, AndroidWorld, OSWorld）五个基准，消融详细
写作质量: ⭐⭐⭐⭐ 问题定义清晰，三种推理模式的层次感强，但符号系统略复杂
价值: ⭐⭐⭐⭐⭐ 为轻量 GUI Agent 指出了"执行器+规划器"的可行路径，77.6% AndroidWorld 成功率是实打实的顶尖水平