Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents¶
会议: AAAI 2026
arXiv: 2511.10705
代码: 未开源
领域: Agent / LLM / GUI自动化
关键词: GUI Agent, Planning-Grounding协同进化, GRPO, 自迭代训练, 奖励集成
一句话总结¶
提出Co-EPG框架,将GUI Agent解耦为Planning和Grounding两个模型,通过GRPO协同训练和基于置信度的动态奖励集成机制(C-DREM)建立正反馈循环,使两个模型自迭代协同进化,仅用基准数据集(无需外部数据)即在Multimodal-Mind2Web(58.4%)和AndroidControl(83.1%)上达到SOTA。
背景与动机¶
GUI任务自动化是AI的重要前沿方向。当前GUI Agent需要两个核心能力:规划(Planning)——根据屏幕状态决定做什么操作;定位(Grounding)——在界面上找到对应元素的精确位置。
现有方法存在两大范式: 1. 端到端单模型:直接训练一个VLM同时做规划和定位。但在多样化GUI环境中泛化能力差,感知和交互都有局限。 2. 模块化多模型:将规划和定位解耦为独立模型或采用多Agent协作。但现有的协作架构存在两个根本问题: - 协同不足:各模型独立优化,没有利用规划与定位之间的互相促进关系 - 数据低效:过度依赖大规模合成数据生成,对已有数据的利用不充分
因此,需要一种能让Planning和Grounding模型互相促进、持续提升的新范式。
核心问题¶
如何在解耦的Planning-Grounding架构中实现两个模型的协同进化?具体来说: 1. 规划模型生成的plan质量如何用定位模型来评估和引导? 2. 规划模型的改进如何反过来产出更高质量的训练数据增强定位模型? 3. 如何在不依赖外部数据的前提下,通过自迭代实现持续提升?
这个问题的关键难点在于:plan的好坏无法直接评估(不像坐标可以直接和gt比),需要通过定位模型的执行结果来间接衡量。
方法详解¶
整体框架¶
Co-EPG是一个自迭代训练框架,核心是建立Planning和Grounding之间的正反馈循环:
输入:GUI截图 + 任务描述 + 历史操作
输出:完整的操作动作(坐标 + 动作类型 + 动作值)
整体流程分为两个交替阶段: 1. 迭代训练(Iterative Training):先用SFT初始化两个模型,然后用C-DREM驱动的GRPO协同训练优化规划模型,再用优化后的规划模型生成的高质量数据进一步SFT定位模型 2. 数据增强(Data Enhancement):利用更新后的模型扩充和提升训练数据的质量与多样性
通过多轮迭代(论文做了3轮),两个模型不断螺旋上升。
关键设计¶
-
P-G双模型架构:将决策解耦为两步:
- 规划模型 \(\pi\):输入当前观察 \(o_t\)、任务描述 \(Q\)、历史 \(h_t\),输出文本plan \(p_t\)、动作类型 \(a_t^{type}\)、动作值 \(a_t^{value}\)
- 定位模型 \(\phi\):输入截图 \(o_t^{vision}\) 和plan \(p_t\),输出目标元素坐标 \(a_t^{coor}\)
Plan作为两个模型之间的交互媒介——它既是规划模型的输出,又是定位模型的输入。这是协同进化的关键桥梁。
-
C-DREM(基于置信度的动态奖励集成机制):解决GRPO训练中"单一奖励模型有偏差"的问题。核心思路:
- 使用多个定位模型(包含两个大型开源VLM:Qwen2.5-VL-72B和32B,以及迭代训练的定位模型 \(\phi_k\))共同评估plan质量
- 每个模型的权重由两部分决定:静态先验 \(\sigma_j\)(自训练模型设更高权重)和动态置信度 \(c_j\)(通过预测坐标token的对数似然均值计算)
- 权重通过softmax归一化:\(w_j = \frac{\exp(\sigma_j \cdot c_j)}{\sum_n \exp(\sigma_n \cdot c_n)}\)
- Plan奖励 \(r_{plan}\):若定位模型预测坐标落在目标bbox内则为1,否则为0;最终加权求和
-
自增强数据演化:
- 初始化(k=0):用开源VLM池(Planner Π和Verifier Φ)生成plan并验证,保留成功的构成 \(D_0\)
- 后续迭代(k≥1):将新训练的 \(\pi_k'\) 加入Planner池增加多样性,\(\phi_k\) 加入Verifier池提升验证可靠性
- 只保留最新两代模型以平衡效率
损失函数 / 训练策略¶
奖励设计(三部分): - Plan奖励 \(r_{plan}\):定位模型预测坐标是否在目标bbox内,通过C-DREM加权集成 - 动作类型奖励 \(r_{type}\):精确匹配gt,正确为1错误为0 - 动作值奖励 \(r_{value}\):预测值与gt的F1分数 > 0.5则为1,否则为0
最终奖励:若 \(r_{type}=0\) 或 \(r_{value}=0\),则 \(r_i=0\);否则 \(r_i = r_{plan}\)。这意味着动作类型和值是"门控"条件,plan奖励才是核心优化信号。
GRPO训练:每组生成 \(G=7\) 个rollout,通过组内归一化计算advantage:\(A_i = \frac{r_i - \text{mean}(\{r_1,...,r_G\})}{\text{std}(\{r_1,...,r_G\})}\)
训练细节: - 骨干模型:Qwen2.5-VL-3B/7B-Instruct - SFT:batch size 96, lr \(1 \times 10^{-6}\), 3 epochs, 8 GPUs - GRPO:batch size 294, lr \(5 \times 10^{-7}\), temperature 0.9, KL系数 \(\beta=0.01\), clip \(\epsilon=0.2\), 7 GPUs, 约48小时 - C-DREM静态先验权重比:Qwen2.5-VL-72B : 32B : \(\phi_k\) = 1:1:2
实验关键数据¶
Multimodal-Mind2Web(Web任务)¶
| 方法 | 模型规模 | Cross-Task Step SR | Cross-Website Step SR | Cross-Domain Step SR | Avg Step SR |
|---|---|---|---|---|---|
| GPT-4 + Choice | - | 40.2 | 32.4 | 36.8 | 36.5 |
| GPT-4V + OmniParser | - | 39.4 | 36.5 | 42.0 | 39.3 |
| Explorer-7B | 7B | 53.2 | 56.7 | 53.0 | 54.3 |
| AgentTrek-7B | 7B | 55.7 | 51.4 | 52.6 | 53.2 |
| AGUVIS-7B | 7B | 60.4 | 54.6 | 56.6 | 57.2 |
| Co-EPG-Web-3B | 3B | 53.1 | 51.1 | 50.0 | 51.4 |
| Co-EPG-Web-7B | 7B | 61.9 | 58.1 | 55.3 | 58.4 |
AndroidControl(移动任务)¶
| 方法 | High Step Acc | Low Step Acc | Avg Step Acc |
|---|---|---|---|
| UI-TARS-2B | 68.9 | 89.3 | 79.1 |
| UI-TARS-7B | 72.5 | 90.8 | 81.7 |
| InfiGUI-R1-3B | 73.2 | 90.0 | 81.6 |
| Co-EPG-Mob-3B | 73.4 | 90.2 | 81.8 |
| Co-EPG-Mob-7B | 74.2 | 92.0 | 83.1 |
OmniACT(桌面+Web跨平台)¶
| 方法 | Avg Acc |
|---|---|
| GPT-4o + UGround-V1-7B | 34.0 |
| Co-EPG-Des-7B-M2 | 53.2 (+19.2%) |
消融实验要点¶
P-G解耦 vs 端到端:
| 架构 | Avg Step SR |
|---|---|
| End-to-End | 50.1 |
| P-G Dual-Model | 53.5 (+3.4%) |
C-DREM消融:
| 变体 | Avg Step SR |
|---|---|
| w/o C-DREM(单一定位模型做奖励) | 56.50 |
| w/o Confidence & Prior Weights(均匀加权) | 57.01 (+0.51) |
| w/o Confidence Weights(仅静态先验) | 57.67 (+1.17) |
| 完整C-DREM | 58.41 (+1.91) |
迭代效果(Co-EPG-Web-7B Avg Step SR):
| 阶段 | w/o GRPO | w/ GRPO |
|---|---|---|
| Iteration 1 | 52.6 | 53.5 |
| Iteration 2 | 54.5 | 55.0 |
| Iteration 3 | 56.5 | 58.4 |
每轮迭代都有稳定提升,GRPO始终优于纯SFT,说明数据迭代和GRPO协同训练是双驱动力。
数据效率:Co-EPG-Web-7B仅使用6862个标注step(AGUVIS的2.42%即283500),即超越AGUVIS-7B的性能。
亮点¶
- 正反馈循环设计非常优雅:Plan作为Planning和Grounding的桥梁,定位模型的执行结果自然地成为规划模型的奖励信号,不需要人工设计复杂的reward函数
- C-DREM解决了RL训练中奖励模型单点失效的问题:用多个定位模型集成 + 置信度加权,比单一奖励模型更稳定,收敛更快。置信度用token对数似然计算,计算开销很小
- 数据效率极高:仅用基准数据集的2.42%数据就超越了依赖大规模合成数据的AGUVIS,验证了"深度挖掘数据价值"比"粗暴堆数据"更有效
- 跨平台泛化:在Web(Mind2Web)、Mobile(AndroidControl)、Desktop(OmniACT)三类环境都有效
局限与展望¶
- 仅做了step-level评估:论文只评估单步动作的准确率,没有做完整任务的端到端成功率评估(trajectory-level),而实际应用中需要连续多步都正确
- 定位模型仍需大模型做奖励:C-DREM依赖Qwen2.5-VL-72B和32B作为辅助奖励源,GRPO训练的计算开销很大(7 GPUs × 48小时)
- 迭代收益递减:从3轮迭代的数据看,提升幅度在逐渐减小(Iter1→2 vs Iter2→3),论文也没有探索更多轮次是否会饱和
- Plan的语义质量没有直接度量:plan的好坏完全通过定位结果间接评估,但一个好的plan被差的定位模型执行失败也会得到负奖励,可能引入噪声
- 仅在离线数据上验证:没有在线环境交互的实验,不知道在真实GUI环境中连续执行的效果
- 对Qwen2.5-VL的依赖较强:骨干和辅助奖励模型都基于Qwen系列,在其他VLM上的效果未知
与相关工作的对比¶
- vs AGUVIS(ICLR 2025):AGUVIS采用两阶段(先grounding预训练再planning微调)的端到端单模型方案,需要大量合成数据(283K steps)。Co-EPG用解耦+协同进化的方式,数据量仅为其2.42%就超越它。本质区别是Co-EPG让两个模型互相提升,而非单向的先后训练。
- vs WebRL / WebEvolver:这些方法也用RL做self-evolution,但都是端到端单模型设计,没有利用Planning-Grounding的解耦特性。Co-EPG的贡献在于将解耦架构与自进化训练结合。
- vs Agent-SAMA(AAAI 2026):Agent-SAMA用状态感知的FSM做GUI导航决策但不涉及训练优化,更偏工程设计。Co-EPG聚焦训练范式创新。
启发与关联¶
- 协同进化的思路可迁移:不仅限于GUI Agent,任何可以分解为"策略+执行"的任务(如机器人操作中的高层规划+低层控制)都可以借鉴这种正反馈循环
- C-DREM的思路有通用价值:用多个模型的置信度加权做奖励集成,可以推广到其他RL-from-AI-feedback的场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 将Planning-Grounding解耦与GRPO协同训练结合是新的,C-DREM的置信度加权集成也有巧思,但每个单独组件不算全新
- 实验充分度: ⭐⭐⭐⭐ 在Web/Mobile/Desktop三个benchmark上验证,消融实验覆盖了主要组件,但缺少trajectory-level评估和在线交互实验
- 写作质量: ⭐⭐⭐⭐ 整体逻辑清晰,框架图易懂,公式推导完整。但Section 4与Table 1的排版位置有些混乱
- 实用价值: ⭐⭐⭐⭐ 数据效率高是很大的优点,但GRPO训练需要多个大模型做奖励评估,部署门槛较高