K²-Agent: Co-Evolving Know-What and Know-How for Hierarchical Mobile Device Control¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=9BKg0BAWrb
代码: 待确认
领域: LLM Agent / 移动设备控制 / GUI Agent
关键词: Mobile Device Control, Hierarchical Agent, Declarative & Procedural Knowledge, GRPO, Self-Evolution

一句话总结¶

K²-Agent 借鉴人类「知道是什么（declarative）」与「知道怎么做（procedural）」两套认知系统，用一个高层 planner 跑 SRLR 自进化循环演化任务知识、低层 executor 用课程式 C-GRPO 学操作技能，二者闭环协同进化，仅靠原始截图和开源 7B/72B 骨干就在 AndroidWorld 上拿到 76.1% 成功率的新 SOTA。

研究背景与动机¶

领域现状：移动设备控制 agent 大致分两派——训练免费派（精心设计 prompt/工作流，把任务知识塞进上下文，开发便宜但性能被闭源基座卡死、改不了顽固错误）和学习派（在大量标注数据上做 SFT/RL，分布内动作稳但长程信用分配难、任务泛化差）。近期趋势是把「推理」与「执行」分层（planner–executor），实践中确实比扁平策略强。
现有痛点：大多数层级化设计只是结构上的拆分——要么两层都训练免费，要么两层都用 SFT/RL 统一训练，导致系统要么依赖大量人工设计、要么需要 10k+ 样本和上百张 GPU。把高层策略学习（知道做什么）和低层动作执行（知道怎么做）混在一个单体策略里训练，二者的最优更新规则其实并不一样。
核心矛盾：know-what 是符号化、可言说、能从一两个 demo 里总结并通过回忆精炼的知识；know-how 是隐式的「肌肉记忆」，难以言说、只能靠反复练习获得。把两者强行用同一套更新规则学习，既不高效也不泛化。
本文目标：用一个低成本（每任务 1 个 demo + 单台 8×A100）、纯截图输入的框架，同时把声明性知识和程序性知识学好且能跨模型/跨任务泛化。
核心 idea：「know-what 与 know-how 天然匹配层级化设计，应该用不同更新规则、并通过持续交互协同进化」——高层 planner 训练免费、靠 SRLR 循环演化语言形式的任务知识库；低层 executor 可训练、靠 C-GRPO 演化参数化技能；二者通过单步子目标正向通信、通过执行反馈反向修订知识，形成「思考」与「实践」互相强化的闭环。

方法详解¶

整体框架¶

K²-Agent 是两层 Planner–Executor 架构，每层各由一个 VLM 初始化。高层 planner \(\pi_H\)（Qwen2.5-VL-72B，训练免费）维护一个声明性知识库 \(K_G\)，不直接操作环境，而是查 \(K_G\) 把全局任务 \(g\) 分解为一串即时单步子目标 \(z_t\)；低层 executor \(\pi_L\)（Qwen2.5-VL-7B，可训练）在增广状态 \(s'_t=(o_t,g,z_t)\) 下产出原子动作。两模块闭环协进化：子目标 \(z_t\) 是正向通信，executor 的成功/失败/错误模式作为反馈被 planner 用来修订 \(K_G\)；更准的 \(K_G\) 让 planner 生成更可执行的子目标，从而给 executor 提供更结构化的探索问题与更有效的学习信号。整体采用交替更新 \((\text{SRLR}_H)^n \to \text{C-GRPO}_L\)，实验取 \(n=3\)。

flowchart LR
    D[单次专家 Demo] --> S[Summarize 初始化 K_G]
    subgraph High[高层 Planner π_H 训练免费]
        S --> R1[Reflect 分析执行偏差]
        R1 --> L[Locate 定位首个失败点 t*]
        L --> R2[Revise 原子算子修补 K_G]
        R2 --> R1
    end
    R2 -- 子目标 z_t --> Low
    subgraph Low[低层 Executor π_L 可训练 C-GRPO]
        EDR[Error-Decoupled Replay 平衡采样] --> DDI[Dynamic Demo Injection 注入专家前缀]
        DDI --> G[GRPO 更新]
    end
    Low -- 成功/失败/错误模式反馈 --> R1

关键设计¶

1. SRLR 自进化循环：让声明性知识从一个 demo 滚雪球。 高层 planner 通过 Summarize–Reflect–Locate–Revise 四阶段循环演化 \(K_G\)，整个循环由 VLM 自身完成、只需单条专家轨迹 \(T^d\) 启动。Summarize 阶段一次性蒸馏出结构化初始知识库 \(K_G^0=\text{Summarize}(T^d,g;\theta_H)\)，把核心逻辑、关键 UI 元素及其功能写成规则/分步 checklist。执行新轨迹 \(T^e\) 后，Reflect 在两个粒度上工作：步级持续核对每个动作结果是否符合 \(K_G\) 预期以即时发现偏差；任务级在 episode 失败时生成根因解释 \(M_{case}\)（如「没认出 Rename 按钮」）。Locate 把执行轨迹与 \(K_G\) 对齐，找出第一个产生意外结果的决策点 \(t^*=\min\{t\mid \text{Verify}(s^e_{t+1},a^e_t,K_G,t;\theta_H)=\text{False}\}\)。最后 Revise 用四个原子算子（Add 补缺步、Delete 删错误指令、Update 改参数、Highlight 强调约束）对 \(K_G\) 做局部「手术」，得到 \(K'_G\)。循环迭代让任务知识越用越准。

2. Error-Decoupled Replay Balancing：按错误类型分池采样治样本失衡。 C-GRPO 观察到动作级错误可解耦为类型错误（该 click 却预测 swipe）和参数错误（click 了但坐标不准）。对输入 \(i\) 让 \(\pi_L\) 生成 \(G\) 个候选，用二值奖励 \(r(a,\hat a)=\mathbb{1}[\text{type}(a)=\text{type}(\hat a)\wedge\|\text{coord}(a)-\text{coord}(\hat a)\|_2<\epsilon]\) 估出两个错误率：类型错误率 \(\eta_{type}(i)\) 和（类型对但坐标偏）参数错误率 \(\eta_{param}(i)\)。据此把每个输入动态分到三个回放池——常规池 \(D_{con}\)、类型探索池 \(D_{type}\)、精度优化池 \(D_{param}\)，再按预设比例 \(\{\beta_{con},\beta_{type},\beta_{param}\}\) 组 mini-batch，保证模型在不同弱点上均衡进步，缓解 click 等常见操作远多于 long-press/swipe 的偏置。

3. Dynamic Demonstration Injection：用退火的专家前缀引导稀疏奖励下的探索。 在 (V)LLM 巨大的文本×屏幕动作空间里，光靠回放平衡仍难自发发现正确动作序列、奖励长期稀疏。该机制给输入前置可变长度的专家原子动作前缀，注入长度 \(l=L_h(k,d_i)=L\cdot\sigma(k)\cdot f_{gate}(d_i)\)，其中 \(\sigma(k)=\max(0,1-k/K_{max})\) 是随训练步 \(k\) 线性退火的调度器，\(f_{gate}(d_i)=\tanh(d_i/T)\) 是温度 \(T\) 控制的难度门控，难度分 \(d_i=\eta_{type}(i)+\eta_{param}(i)\)。直觉是：对当前难样本给更多引导、随训练推进逐步断奶。这显著提高生成成功轨迹的概率，为策略优化提供更密更优的信号，最终 C-GRPO 目标把这些课程策略接进标准 GRPO 的 clip 目标 \(J_{C\text{-}GRPO}\)，优势 \(\hat A_{i,t}\) 来自基于式(5)稠密二值专家匹配奖励的组内相对估计。

实验关键数据¶

主实验表格（AndroidWorld，116 任务 / 20 app，人类专家约 80%）¶

类型	Agent	基座	输入	SR (%)
训练免费	Agent S2	Claude-3.5-Sonnet	Screenshot	54.3
训练免费	MobileUse	Qwen2.5-VL-72B	Screenshot	62.9
训练免费	FinalRun	GPT-5	Screenshot+A11y	76.7
学习派	UI-Venus	Qwen2.5-VL-72B	Screenshot	65.9
学习派	Mobile-Agent-v3	Qwen-VL based	Screenshot	73.3
学习派	UI-TARS-2	Seed-thinking-1.6	Screenshot	73.3
学习派	AutoGLM-Mobile	AutoGLM-Mobile	Screenshot+A11y	75.8
Ours	K²-Agent	Qwen2.5-VL (72B+7B)	Screenshot	76.1 ± 1.0

仅用原始截图就超过所有开源学习派和受限于截图输入的闭源模型，与用 A11y tree 额外信息的 FinalRun(GPT-5) 持平。

消融实验表格（AndroidWorld）¶

配置	SR (%)
No Hierarchy（扁平端到端）	35.3
No Hierarchy + SRLR	58.6
SRLR + SFT-Low	62.0
SRLR + GRPO-Low	68.9
K²-Agent (Full, SRLR + C-GRPO)	76.1

逐级提升清晰隔离了各组件贡献：加 SRLR 声明知识 +23.3，引入层级结构 +3.4，GRPO 交互学习 +6.9，C-GRPO 课程策略再 +7.2。

关键发现¶

双重泛化：声明性知识 \(K_G\) 是语言形式、模型无关——直接复用到 Qwen-2.5-72B/32B、GPT-4o、Gemini-2.5-Pro 四种骨干上均显著涨点（如 Qwen-2.5-72B 35.0→76.7，+41.7）；程序性技能可跨基准——AndroidWorld 训练的 executor 零样本迁移到 ScreenSpot-v2 拿 91.3% 总精度、到 AitW-General 拿 86.5%，超过 DigiRL 等 RL/SFT 方法。
C-GRPO 两组件：Dynamic Demonstration Injection 影响最大，去掉后奖励大幅下降且训练剧烈震荡，说明专家前缀对早期发现成功行为、稳定后续自生 rollout 至关重要；去掉 Error-Decoupled Replay Balancing 则收敛变慢、终值略低。
效率：planner 每任务仅 1 个 demo，executor 基于 7B 开源骨干、单台 8×A100 训练，远低于动辄 10k+ 样本、上百 GPU 的同类方法。

亮点与洞察¶

把认知科学中 declarative/procedural 双系统的区分，干净地映射到 planner/executor 的「不同更新规则 + 协同进化」上，理论动机和工程实现罕见地一致。
SRLR 的 Locate 用「第一个 Verify 失败点」做精确定位，再用 Add/Delete/Update/Highlight 四原子算子做局部手术，让非参数知识演化既可控又可解释。
C-GRPO 把动作误差解耦成类型 vs 参数两类、分池均衡采样，是对 GUI grounding 场景奖励信号的一个很贴合的工程洞见。

局限与展望¶

高层 planner 用 72B 闭源/重型 VLM 推理，部署成本仍不低；声明知识依赖每类任务一条人工录制的 demo，全新任务类型的冷启动仍需人介入。
协同进化采用固定的 \((\text{SRLR}_H)^3\to\text{C-GRPO}_L\) 交替模式，\(n\) 与交替节奏靠经验设定，缺少自适应调度。
评测主要集中在 AndroidWorld 及其迁移，真机环境的动态干扰、弹窗、网络波动等鲁棒性未充分检验；ScreenSpot-v2 上 icon 类（尤其 Mobile-Icon 80.6）仍落后于专精 grounding 的 UI-Venus-Ground-72B。

评分¶

新颖性: ⭐⭐⭐⭐ 认知双系统映射到层级 agent 的「不同更新规则 + 协同进化」框架清晰且少见，SRLR 与 C-GRPO 各有具体创新。
实验充分度: ⭐⭐⭐⭐ AndroidWorld SOTA + 双重泛化（跨骨干/跨基准）+ 逐级消融 + 参数敏感性，证据链完整；真机鲁棒性与更广 benchmark 覆盖可加强。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑顺畅，公式与图示到位，知识演化案例放附录略影响主文自洽。
价值: ⭐⭐⭐⭐ 纯截图 + 开源骨干 + 单服务器达 SOTA，对低成本可泛化的移动 GUI agent 有较强实用与方法论价值。