跳转至

When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

会议: ICML2026
arXiv: 2605.30102
代码: 无
领域: multi_agent
关键词: 混合多智能体, 云端模型, 端侧模型, Agent 评测, 上下文效率

一句话总结

这篇论文系统研究云端 GPT-4o 监督者与端侧 Qwen3 执行者组成的混合多智能体系统,发现 PEVR 和 EVA 在 UI assistance 与 deep search 上各有优势,更多云端介入不一定更好,而上下文重置与摘要能显著改善端侧长任务的成本和 KV-cache 压力。

研究背景与动机

领域现状:LLM agent 正从短对话走向长时程任务执行,需要分解目标、调用工具、维护状态并在环境中多步行动。最强的 frontier LLM 通常部署在云端,能力强但 token 成本高;较小的 SLM 可以在手机或笔记本上运行,成本低、隐私更好,但长上下文和复杂推理能力有限。

现有痛点:混合 AI 往往通过 router 在大模型和小模型之间选择,或在小模型失败时升级到大模型。但在 agent 场景中,计算不只是“哪个模型回答”,还涉及谁规划、谁执行、谁验证、何时重启上下文。现有系统大多针对单一任务临时设计,缺少跨任务、跨成本维度的系统性比较。

核心矛盾:云端模型越多介入,理论上能提供更强监督,但也会增加 API 成本,并可能频繁打断端侧执行;端侧模型持续执行省钱,但长上下文会带来 KV-cache 增长、上下文腐化和错误累积。混合 MAS 的难点就是在准确率、云端费用和端侧能耗之间找 Pareto 平衡。

本文目标:作者希望把代表性多智能体架构改造成 cloud-edge hybrid 版本,在 HotpotQA、FanOutQA、AppWorld 三类任务上系统评估模型分工、监督频率、重启方式和上下文管理对性能与成本的影响。

切入角度:论文把云端 GPT-4o 作为间歇性 Supervisor,把端侧 Qwen3 4B/8B/14B/32B 作为长期 Executor。这样,最 token-intensive 的 ReAct 执行留在端侧,昂贵云端模型只在规划、验证或建议时介入。

核心 idea:把混合 agent 设计看成多智能体角色分配问题,而不是简单模型路由;通过 PEVR 与 EVA 两种结构对比,找出不同任务下“计划式监督”和“建议式摘要”各自适合的边界。

方法详解

论文没有提出一个新的 agent benchmark,而是围绕混合 MAS 的设计空间做系统实验。核心变量包括:架构采用 PEVR 还是 EVA,端侧 Executor 用哪个 Qwen3 尺寸,云端 Supervisor 多久验证一次,以及执行失败后是重规划还是给建议并重置上下文。

整体框架

系统由两个角色组成。Executor 是端侧小模型,负责持续 ReAct 循环:根据当前任务、上下文和可用工具生成 reasoning/action,调用环境,收集 observation。Supervisor 是云端 GPT-4o,不直接承担每一步工具执行,而是周期性查看轨迹并决定是否介入。用户通过 verification interval 控制云端介入频率,interval 越小,云端调用越频繁,成本越高。

实验覆盖三个难度逐步增加的任务族。HotpotQA 是短程多跳问答,报告 ROUGE-1 F1;FanOutQA 是长程 fan-out 信息聚合,同样报告 ROUGE-1 F1;AppWorld 是状态化 API 环境,报告 Test Pass Ratio 和 Task Success。效率侧报告云端 API 美元成本、端侧能耗估计,以及长任务中的 KV-cache 最大占用。

关键设计

  1. PEVR: Plan-Execute-Verify-Replan:

    • 功能:让云端 Supervisor 先给出显式计划,并在执行过程中检查端侧 Executor 是否偏离计划。
    • 核心思路:Supervisor 根据用户 query 生成自然语言 plan;Executor 按 plan 执行;每隔 \(T_v\) 步,Supervisor 根据当前 plan 和轨迹做 verification。如果判断需要介入,就输出 revised plan,Executor 在更新计划下继续执行。
    • 设计动机:AppWorld 这类状态化 UI/API 任务中,错误早期动作可能不可逆,因此明确计划、控制流和工具调用顺序很重要。PEVR 把云端能力集中用于规划和纠偏。
  2. EVA: Execute-Verify-Advise:

    • 功能:让端侧 Executor 先自主执行,云端 Supervisor 只在发现进展异常时给摘要和建议。
    • 核心思路:EVA 没有初始 plan,Executor 直接 ReAct;Supervisor 周期性根据 query 和轨迹判断是否介入。介入时不重写 plan,而是生成过往动作摘要和后续 advice,并清空 Executor 的旧上下文。
    • 设计动机:FanOutQA / HotpotQA 这类 deep search 任务更依赖探索和信息聚合,过于频繁的重规划会打断搜索轨迹;轻量建议加摘要更适合保持长期搜索方向。
  3. 成本和上下文效率的联合评估:

    • 功能:不仅看准确率,还看云端费用、端侧能耗和 KV-cache 增长。
    • 核心思路:云端成本按 GPT-4o API 价格累加,端侧能耗按模型推理估计;上下文效率用最大 KV-cache footprint 衡量。PEVR/EVA 的干预都会触发上下文重置或摘要,从而限制端侧长上下文增长。
    • 设计动机:混合 MAS 的价值不只是“比端侧更准”,还要“比纯云更便宜”并“能在端侧内存限制下跑完长任务”。

损失函数 / 训练策略

本文不训练模型,所有实验都是推理时系统设计比较。云端模型固定为 GPT-4o,端侧模型为 Qwen3 4B、8B、14B、32B。HotpotQA 最大 10 个 ReAct turn,验证间隔为 1/2/3/5;FanOutQA 最大 20 turn,间隔为 1/2/3/5/10;AppWorld 最大 40 turn,间隔为 1/2/4/8/16。Qwen3 32B 使用 fp8 KV-cache 和权重量化以便单 A100 跑实验。

实验关键数据

主实验

论文主结论来自 Figure 2 和 Table 2。下面的表格聚焦“谁当 Executor、谁当 Supervisor”的对比,分数取相应任务上最佳准确率设置,成本为云端 API 成本,越低越好。

配置 AppWorld Task Success AppWorld Cost FanOutQA ROUGE-1 F1 FanOutQA Cost 结论
GPT-4o 单体云端 0.25 0.37 0.14 0.19 准确但成本高
Qwen 32B Executor + GPT-4o Supervisor 0.21 0.09 0.23 0.11 端执行云监督在 FanOutQA 上优于纯云且更便宜
Qwen 14B Executor + GPT-4o Supervisor 0.19 0.08 0.12 0.04 成本低,能力受端侧模型限制
Qwen 8B Executor + GPT-4o Supervisor 0.16 0.08 0.09 0.04 仍优于部分端侧单体配置
Qwen 4B Executor + GPT-4o Supervisor 0.11 0.13 0.06 0.04 小模型执行能力成为瓶颈
GPT-4o Executor + Qwen 32B Supervisor 0.25 0.67 0.14 0.17 云端执行、端侧监督更贵且不更准
Qwen 32B 单体端侧 0.07 0.00 0.15 0.00 便宜但 AppWorld 明显不足

消融实验

论文分析了验证器误判、架构角色反转和上下文效率。这里列出两个最直接支撑设计结论的表。

Benchmark Verifier False Negative False Positive 解释
AppWorld Plan-based PEVR 5.3% 6.2% 更积极介入,计划偏离是有效信号
AppWorld Query-based EVA 6.0% 1.9% 更保守,但缺少初始计划帮助
FanOutQA Plan-based PEVR 8.4% 7.7% 过多重启会伤害长程搜索
FanOutQA Query-based EVA 14.8% 6.1% 漏报更多,但较少打断执行
Max Turns Architecture Qwen3 8B Task Success Qwen3 8B KV$ GB Qwen3 32B Task Success Qwen3 32B KV$ GB
20 Monolithic 0.00 3.52 0.05 6.59
20 PEVR 0.07 3.34 0.18 6.53
40 Monolithic 0.02 4.82 0.07 11.34
40 PEVR 0.09 3.65 0.16 6.98
80 Monolithic 0.00 5.17 0.09 13.12
80 PEVR 0.11 3.82 0.19 7.90

关键发现

  • 混合 MAS 可以找到比端侧单体更准、又比云端单体更便宜的配置,但最佳点随任务变化。
  • PEVR 更适合 AppWorld,因为状态化环境需要初始计划和可执行 replan;EVA 更适合 FanOutQA / HotpotQA,因为 deep search 被频繁 restart 会明显伤害表现。
  • 更多云端监督不等于更高准确率。验证间隔太短会增加成本,也可能因过度干预打断端侧执行。
  • 端侧模型越大通常越好,但混合架构完成了一些纯云端和纯端侧都没完成的任务,说明协作不是简单 router 的并集。
  • PEVR/EVA 的上下文重置和摘要能限制 KV-cache 增长,在 AppWorld 80 turn 场景中,Qwen3 32B 的 PEVR KV-cache 为 7.90GB,而单体端侧达到 13.12GB。

亮点与洞察

  • 论文没有把 hybrid agent 简化成“便宜小模型不行就问大模型”,而是认真拆解了规划、执行、验证、建议这些角色,分析它们在不同任务中的作用。
  • “更多云端介入可能更差”是很有用的工程结论。强模型如果频繁重启长程搜索,可能破坏已经积累的中间状态。
  • PEVR 和 EVA 的差异说明 agent 架构应该任务自适应:状态化任务需要可执行计划,开放信息搜索更需要保留探索轨迹和适度摘要。
  • 上下文效率表很有现实意义。很多端侧 agent 的瓶颈不是单步推理,而是长轨迹导致 KV-cache 爆炸;MAS 的周期性重置恰好缓解这个问题。

局限与展望

  • 云端模型固定为 GPT-4o,端侧模型固定为 Qwen3 系列;不同模型家族、不同上下文长度或更强本地模型可能改变最优架构。
  • 论文覆盖 HotpotQA、FanOutQA、AppWorld,但没有覆盖代码 agent、机器人控制、浏览器 GUI 或真实移动端部署。
  • 能耗是估计而非真实设备测量,实际手机/笔记本上的延迟、温控、内存带宽和系统调度会带来额外约束。
  • 当前 verification interval 是手工扫参,未来更自然的方向是学习一个动态 supervisor policy,根据不确定性和任务状态决定何时请求云端。

相关工作与启发

  • vs 单体云端 agent: 云端单体能力强但成本高,且不一定覆盖所有混合系统能解决的任务;混合 MAS 可以以更低费用进入相近甚至更好的 Pareto 区域。
  • vs 单体端侧 agent: 端侧单体便宜但在 AppWorld 这类长程状态任务上失败多;云端规划/验证能提供关键纠偏。
  • vs model routing: routing 是每个 query 选一个模型,而本文显示 MAS 能完成一些纯云和纯端都失败的任务,说明角色协作带来新的行为。
  • vs AgentFlow / advisor-style MAS: PEVR 接近 planner-executor-verify-replan,EVA 接近 advisor with reset;论文贡献在于把两者放进统一 cloud-edge 成本框架比较。

评分

  • 新颖性: ⭐⭐⭐⭐☆ 混合云端/端侧 agent 不是全新概念,但系统性拆解 PEVR/EVA 与成本、能耗、上下文效率很有价值。
  • 实验充分度: ⭐⭐⭐⭐☆ 三类 benchmark、多种 Qwen3 尺寸和监督间隔,分析扎实;真实设备实测和更多任务域仍缺。
  • 写作质量: ⭐⭐⭐⭐☆ 结构清晰,机制分析到位;Figure 2 信息量较大,读者需要结合后续表格理解。
  • 价值: ⭐⭐⭐⭐⭐ 对实际部署端侧 agent 和云端辅助系统很实用,尤其是“少量云端监督 + 上下文管理”的设计原则。