Towards Scalable Lightweight GUI Agents via Multi-role Orchestration¶
会议: ACL 2026 Findings
arXiv: 2604.13488
代码: GitHub
领域: LLM Agent / GUI自动化
关键词: GUI Agent, 轻量模型, 多角色编排, 策略执行器, 强化学习
一句话总结¶
本文提出 LAMO 框架,通过角色导向的数据合成和两阶段训练(SFT with Perplexity-Weighted Cross-Entropy + 多任务 RL),将轻量 3B MLLM 训练为可灵活编排多角色的 GUI Agent,在单体推理、多 Agent 协作和即插即用策略执行器三种模式下工作,搭配 GPT-5 规划器在 AndroidWorld 上达 77.6% 成功率,超越 72B 参数的专用 GUI Agent。
研究背景与动机¶
领域现状:基于 MLLM 的 GUI Agent 正从静态环境向复杂的在线真实场景演进。当前最先进的方法(如 UI-TARS-72B、Agent-S2)通过扩展参数规模和数据获得了显著提升,但部署成本极高。轻量 GUI Agent(≤7B)虽然在静态基准上表现不错,但在在线真实环境中性能急剧下降。
现有痛点:(1) 轻量 MLLM 受限于参数规模,在需要同时处理屏幕分析、策略决策和工具调用的端到端长时序任务中表现不佳;(2) 端到端的单体学习(episodic learning)将高层推理和低层执行耦合在固定管线中,导致任务可扩展性差,难以适配多 Agent 系统(MAS);(3) 训练多个技能专家成本高昂——例如 Agent-S2 需要同时部署 UI-TARS-72B(视觉定位)、Tesseract OCR(文本定位)和 UNO(结构定位),系统成本极高;(4) 轻量 Agent 缺乏任务可扩展性,无法通过上下文工程灵活切换角色。
核心矛盾:成本-可扩展性困境——大模型有任务可扩展性但部署成本高,轻量模型部署廉价但能力受限且不可扩展。
本文目标:在轻量 MLLM 上实现任务可扩展性,通过参数共享和多角色编排,让 3B 模型在不同推理模式下灵活工作,并能作为即插即用的策略执行器搭配先进规划器持续受益。
切入角度:将 GUI 自动化分解为五个核心能力(动作-工具对齐 ATA、逻辑一致 CoT LCC、屏幕理解 SU、目标规划 GP、屏幕定位 SG),通过角色导向的数据合成和参数共享让单一 3B 模型承担多个角色。
核心 idea:用参数共享的多角色编排替代多个专用模型——一个轻量模型通过上下文工程切换为 Observer、Planner、Allocator、Executor 四个角色,实现 MAS 级别的性能。
方法详解¶
整体框架¶
LAMO 要回答的问题是:能不能让一个 3B 的轻量 MLLM 既具备 GUI 自动化所需的全部子能力,又能像多 Agent 系统那样灵活地分工协作。它的做法是先把 GUI 任务拆成五类原子技能,用教师模型为每类技能合成训练数据,再经过两阶段训练(PWCE 监督微调 + 多任务 GRPO)把这些技能压进同一组参数。训练完的 LAMO-3B 在推理时通过切换提示词扮演不同角色,从而支持三种由弱到强的工作模式:端到端单体推理、参数共享的多 Agent 协作、以及作为即插即用执行器搭配 GPT-5 这类先进规划器。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["GUI 任务拆成五类原子技能<br/>ATA / LCC / SU / GP / SG"]
subgraph DS["角色导向数据合成"]
direction TB
B["教师模型分技能合成数据<br/>Qwen2.5-VL-72B + Gemini-2.5-Pro"]
C["SG 难点:caption 扩写<br/>+ ILG 复杂布局增强"]
B --> C
end
A --> DS
subgraph TR["两阶段训练(技能压进同一组参数)"]
direction TB
D["阶段1:PWCE 监督微调<br/>困惑度加权偏向坐标 token"]
E["阶段2:多任务 GRPO 强化"]
D --> E
end
DS --> TR
TR --> F["LAMO-3B(参数共享多技能模型)"]
subgraph MR["多角色编排推理"]
direction TB
G["切换提示词扮演<br/>Observer → Planner → Allocator → Executor"]
end
F --> MR
MR -->|端到端单体 / 参数共享 MAS| H["LAMO-3B 自主完成全流程"]
MR -->|策略执行器:GPT-5 规划| I["LAMO-3B 当 Executor 精确落地操作"]
关键设计¶
1. 角色导向数据合成:把长时序难题拆成可靠的子能力
轻量模型在端到端长任务上表现糟糕,但单独处理某一项子能力时却足够可靠,于是本文把 GUI 自动化分解成五类任务——ATA(动作-工具对齐)、LCC(逻辑一致 CoT)、SU(屏幕理解)、GP(目标规划)、SG(屏幕定位),分别用 Qwen-2.5-VL-72B(ATA、SG)和 Gemini-2.5-Pro(SU、LCC、GP)合成数据,让一个模型通过参数共享同时学会全部技能。
其中定位(SG)最难,针对两个实际痛点做了专门处理:一是语义稀疏元素,把原始简短描述用教师模型扩写成语义丰富的 caption,训练时让模型同时预测丰富描述和坐标,迫使它真正"看懂"目标而非死记坐标;二是复杂布局干扰,通过规则增强把前景目标叠到背景屏幕上并加入干扰项,合成出 Intricate-Layout Grounding(ILG)数据,专门锻炼在拥挤界面中定位的能力。
2. Perplexity-Weighted Cross-Entropy(PWCE):让损失偏向最难的坐标 token
SFT 能把文本推理学得不错,但预测出的坐标往往有系统性偏差——根因在于坐标 token 困惑度高,却和普通 token 共享相同的损失权重,模型缺乏对数值细节的感知压力。PWCE 据此按 token 困惑度动态加权:\(w_i = \frac{1 + \alpha \frac{PPL_i}{\overline{PPL} + \epsilon}}{\frac{1}{|M|}\sum_{j \in M}(1 + \alpha \frac{PPL_j}{\overline{PPL} + \epsilon})}\),再算加权交叉熵 \(\mathcal{L}_{PW} = \frac{1}{|M|}\sum_{i \in M} w_i \cdot CE(h_i^*, \tilde{y}_i)\),最终损失为 \(\mathcal{L}_{PWCE} = \mathcal{L}_{CE} + \lambda \mathcal{L}_{PW}\)。困惑度越高的坐标 token 权重越大,模型被迫把注意力投到这些不确定的数值上,从而显著改善定位精度——消融中移除 PWCE 在 ScreenSpot-pro 上掉了 38.3%。
3. 多角色编排推理:一套参数演出整支团队
为了在不堆参数的前提下获得 MAS 的优势,LAMO-3B 仅靠上下文工程就在推理时切换为四个角色:Observer 产出屏幕语义描述 \(\mathcal{C}_{s2w}\),Planner 把目标分解为子任务 \(\mathcal{C}_{plan}\) 与提示 \(\mathcal{C}_{tips}\),Allocator 结合历史与上下文给出当前动作 \(\mathcal{C}_{action}\),Executor 再把动作指令落成原子操作 \(a_t\)。这种分解让每个角色面对的上下文更短更聚焦,缓解了单体推理中的"lost-in-the-middle"和思维-行动幻觉。
更关键的是策略执行器模式:把规划职责交给更强的 MLLM(如 GPT-5)生成高层指令 \(\mathcal{C}_{action}^*\),LAMO-3B 退居为可靠的"手",只负责把指令转成精确的屏幕操作。这样轻量模型不必自己承担长程规划的短板,还能随着规划器持续进步而水涨船高,性能天花板被外部模型不断抬高。
一个完整示例¶
以 AndroidWorld 上"在购物 App 里搜索某商品并加入购物车"为例,策略执行器模式下的一轮交互如下:GPT-5 规划器读取任务后生成高层指令 \(\mathcal{C}_{action}^*\)="点击顶部搜索框并输入商品名";LAMO-3B 作为 Executor 先观察当前截图,定位到搜索框的坐标,输出原子操作 \(a_t\)=点击 (x, y),再输入文本;环境返回新截图后,规划器据此给出下一条指令"点击第一个搜索结果",Executor 再次定位并执行。整个过程中 3B 模型从不做长程决策,只在每一步把抽象指令精确落地为屏幕操作,凭借 PWCE 强化过的定位能力保证点击落点准确。
损失函数 / 训练策略¶
SFT 阶段:1 epoch,学习率 4e-6,warmup ratio 0.03,global batch size 256,LoRA(rank 128, alpha 256)。RL 阶段:冻结视觉骨干,仅训练 merge layer 和 LLM,GRPO 1 epoch,学习率 1e-6,rollout batch 32,每样本 8 rollouts。多任务 RL 奖励:SU/GP 用 TF-IDF 相似度归一化,SG 用坐标距离,ATA 用工具类别和值的字符串匹配,加长度惩罚 \(r_{penalty} = -\varphi \cdot \frac{length(y_{pred})}{L_{max}}\)。
实验关键数据¶
主实验¶
MiniWob++ 在线环境成功率
| 方法 | 成功率 |
|---|---|
| Qwen2.5-VL-3B | 34.6 |
| UI-TARS-7B | 58.7 |
| Gemini-2.5-pro (单体) | 71.0 |
| LAMO-3B (端到端) | 50.0 |
| LAMO-3B (MAS) | 60.9 (+21.8%) |
| LAMO-3B (Gemini-2.5-pro 规划) | 77.2 (+54.4%) |
AndroidWorld 成功率
| 方法 | 成功率 |
|---|---|
| UI-TARS-72B | 46.6 |
| Agent-S2 | 54.3 |
| Mobile-Agent-V3 | 73.3 |
| LAMO-3B (Gemini-2.5-pro 规划) | 60.3 |
| LAMO-3B (GPT-5 规划) | 77.6 |
消融实验¶
关键组件消融(相对 LAMO-3B 的性能下降)
| 消融项 | SP | SP-v2 | SP-pro | MiniWob++ |
|---|---|---|---|---|
| 移除 ILG 数据 | -2.1% | -3.8% | -34.7% | -2.7% |
| 仅 SFT(无 RL) | -1.1% | -3.0% | -32.7% | -22.5% |
| 移除 PWCE | -1.7% | -3.5% | -38.3% | -26.9% |
| Qwen2.5-VL-3B (无训练) | -7.7% | -6.3% | -51.0% | -44.5% |
关键发现¶
- MAS 模式比端到端推理提升 21.8%(MiniWob++),策略执行器模式进一步提升 54.4%
- LAMO-3B + GPT-5 规划器在 AndroidWorld 上达 77.6%,超越 Mobile-Agent-V3(73.3%)和 UI-Venus-Navi-72B(65.9%)
- ScreenSpot-pro 上 LAMO-3B(36.1%)超越 UI-TARS-7B(35.7%)和多个 72B 模型
- PWCE 对复杂布局场景贡献最大:SP-pro 上移除导致 38.3% 下降
- RL 阶段对在线环境至关重要:仅 SFT 在 MiniWob++ 上下降 22.5%
- 在 OSWorld 上,LAMO-3B(38.5%)超越 UI-TARS-1.5-7B(28.2%),且仅比 Qwen2.5-VL-32B(43.6%)低 5.1 个点(参数少 10×)
亮点与洞察¶
- 策略执行器模式是一个极具前瞻性的设计——轻量模型不需要自己做规划,只需成为可靠的"手",随着规划器(GPT-5 等)不断进步,整体性能天花板持续上升
- PWCE 损失函数针对 GUI Agent 的坐标预测问题设计了优雅的解决方案——困惑度加权让模型更关注不确定的数值 token
- 参数共享的多角色编排在不增加模型参数的情况下实现了 MAS 的优势,是一种高效的能力扩展方式
- InfiGUI-R1-3B 在静态环境有竞争力但在线环境暴跌(38.5 vs 10.3 in OSWorld),凸显了端到端学习的任务可扩展性缺陷
局限与展望¶
- 受限于 3B 参数,在需要超过 10 步的长时序任务中推理深度不足,仍需搭配大模型规划器
- 在桌面环境(特别是电子表格和需要软件先验的场景)表现不如移动端
- ILG 数据增强的合成质量和多样性仍有提升空间
- 未探索与更多类型规划器的组合效果(如开源规划器 vs 闭源规划器)
相关工作与启发¶
- vs UI-TARS: UI-TARS-72B 参数量是 LAMO-3B 的 24 倍,在 AndroidWorld 上仅达 46.6%,而 LAMO-3B + GPT-5 达 77.6%——证明"大执行器"不如"轻执行器+强规划器"
- vs GUI-R1 / InfiGUI-R1: 这些方法在端到端 episodic RL 上训练,静态环境表现好但在线环境崩溃;LAMO 通过角色分解实现了更好的任务可扩展性
- vs Agent-S2: Agent-S2 使用多个大参数专用执行器(UI-TARS-72B + Tesseract + UNO),系统成本极高;LAMO-3B 用一个 3B 模型完成所有执行功能
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ PWCE 损失、角色导向数据合成、参数共享多角色编排三个设计均有独创性,策略执行器模式有很强的实用前瞻性
- 实验充分度: ⭐⭐⭐⭐⭐ 横跨静态(ScreenSpot-pro, AndroidControl)和在线(MiniWob++, AndroidWorld, OSWorld)五个基准,消融详细
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,三种推理模式的层次感强,但符号系统略复杂
- 价值: ⭐⭐⭐⭐⭐ 为轻量 GUI Agent 指出了"执行器+规划器"的可行路径,77.6% AndroidWorld 成功率是实打实的顶尖水平