跳转至

Multi-Agent Guided Policy Optimization

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=OT8beoc0W0
代码: 基于 JAX MARL 库 Mava 实现(论文未公开独立仓库)
领域: reinforcement_learning(合作式多智能体强化学习 / MARL)
关键词: CTDE, 多智能体强化学习, 自回归联合策略, 教师-学生蒸馏, 单调策略改进, 策略镜像下降

一句话总结

MAGPO 用一个自回归联合"引导者"策略做集中式协调探索,并通过 KL 对齐把它约束在去中心化"学习者"策略能实现的范围内,既保住了 CTDE 的可部署性,又给出了单调策略改进的理论保证。

研究背景与动机

领域现状:在合作式多智能体强化学习中,由于部分可观测和通信受限,"集中式训练—去中心化执行"(CTDE)是主流范式:训练时用全局信息,执行时每个 agent 只看自己的局部观测独立决策。主流 CTDE(QMIX、MAPPO 等)只通过一个中心化价值函数来利用全局信息,被作者称为 vanilla CTDE——并没有真正榨干集中式训练的潜力。

现有痛点:近期出现的 CTDS(Centralized Teacher with Decentralized Student)想更激进地利用集中式协调:训练一个看全局状态、输出联合动作的中心化教师,再把它蒸馏给去中心化学生。但 CTDS 有两个结构性顽疾:

  • 可扩展性差:教师在联合动作空间上学习,空间随 agent 数量指数膨胀;
  • 模仿鸿沟(imitation gap):教师条件于全局状态与联合上下文,学生只能基于局部观测——去中心化策略空间里可能根本不存在教师那套策略,蒸馏必然损失性能。

核心矛盾:论文用一个"三个 agent 各报一个整数、和必须等于 10"的玩具例子点透矛盾(图 1)。三种范式各有死穴:

  • Vanilla CTDE:三个 agent 共享同一目标却独立决策,可能同时把动作从 3 调到 4(得 12 仍失败),缺乏"谁该调整"的协调信号,只能靠随机试错碰巧凑出成功组合;
  • CTCE:让 agent 顺序决策、后者能看到前者动作,协调轻而易举且稳定,但要求集中式执行、现实中往往不可部署;
  • CTDS:一旦教师学到随机且不可分解的协调策略(如第一个 agent 随机取 3/4、第三个 agent 取 7−x),强行拆成独立去中心化策略就会失败(出现 [4,3,4] 这类组合),成功率只剩 50%。

协调模式编码在联合策略里,被压进去中心化表示时就丢了——这是贯穿全文的核心失败模式。

本文目标:在不牺牲去中心化可部署性的前提下,把集中式协调真正用起来,并给出理论保证。

核心 idea约束式引导而非自由蒸馏——维护一个自回归联合引导者策略做协调探索,但全程把它约束得贴近去中心化学习者,从而既享受联合探索的协调红利,又保证学到的协调策略是去中心化可实现的,从根上堵住 CTDS 的模仿鸿沟。

方法详解

整体框架

MAGPO 维护两套策略:一个自回归联合引导者 \(\mu(a|s)=\prod_j \mu_{i_j}(a_{i_j}|s, a_{i_{1:j-1}})\)(agent 顺序决策、后者看前者动作 + 全局信息),和一个去中心化学习者 \(\pi(a|s)=\prod_j \pi_{i_j}(a_{i_j}|s)\)(各 agent 独立)。训练按四步循环迭代:① 用引导者采样轨迹做协调探索;② 用策略镜像下降(PMD)更新引导者;③ 用 KL 最小化把学习者对齐到引导者;④ 引导者回溯——把引导者重置为当前学习者。这套设计脱胎于单智能体 GPO,但针对 MARL 加了顺序联合动作建模与去中心化对齐更新。

flowchart LR
    A[数据采集<br/>引导者 μ_k 采样轨迹] --> B[引导者更新<br/>PMD/PPO 提升回报<br/>+KL 约束贴近学习者]
    B --> C[学习者更新<br/>KL 对齐 μ̂_k<br/>+RL 辅助项]
    C --> D[引导者回溯<br/>μ_{k+1} ← π_{k+1}]
    D --> A

关键设计

1. 自回归引导者 + 引导者回溯:把"提升"和"可部署"解耦。 引导者用 PMD 在完整联合空间里找一个提升回报的策略 \(\hat\mu_k=\arg\max_\mu\{\eta_k\langle Q_{\mu_k}(s,\cdot),\mu(\cdot|s)\rangle-D_{KL}(\mu(\cdot|s),\mu_k(\cdot|s))\}\),学习者再通过 KL 最小化把它投影回去中心化策略空间。关键的回溯步 \(\mu_{k+1}=\pi_{k+1}\) 在理论上恒可行——任何去中心化策略 \(\pi\) 都能通过"忽略对历史动作的条件"退化成一个合法的自回归联合策略。正是这一点让作者证出 Theorem 4.1(单调改进)\(V_\rho(\pi_{k+1})\ge V_\rho(\pi_k),\forall k\)。直觉上,引导者在联合空间用 PMD 找到提升方向,学习者把它投影下来,因为目标是按投影梯度选的,投影后回报照样改进。

2. 与 HARL 并列但可并行的序贯更新视角。 借助多智能体优势分解引理,作者证明 MAGPO 的学习者更新等价于一组序贯优势加权更新(Corollary 4.2):\(\pi^{i_j}_{k+1}=\arg\max_{\pi^{i_j}}\mathbb{E}[A^{i_j}_\pi(s,a_{i_{1:j-1}},a_{i_j})]-\frac{1}{\eta_k}D_{KL}(\pi^{i_j},\pi^{i_j}_k)\)。这把它和 HATRPO/HAPPO 这类有理论保证的方法接上了,但有本质区别:HARL 要求 agent 异构且逐个串行更新,MAGPO 则允许所有 agent 同时并行更新,且对同构/异构都成立,因而能吃到参数共享的红利——这正是大规模 MARL 里的关键工程优势。

3. 双裁剪 + 掩码:用超参 δ 把引导者"拴"在学习者附近。 实践中引导者损失(式 9)在标准 PPO clip 之外引入一个双裁剪 \(\text{clip}(\cdot,\epsilon,\delta)\) 和一个掩码 \(m^{i_j}_t(\delta)\),由新超参 \(\delta>1\) 控制,把引导者与学习者的概率比强行约束在 \((1/\delta,\delta)\) 内。内层 clip 在"优势信号想让引导者漂离学习者太远"时截断梯度,掩码则保证 KL 损失只在比值越界时才施加。\(\delta\) 是全方法最敏感的旋钮:教师策略越不可分解(如 CoordSum),越要收紧 \(\delta\) 逼它可模仿;教师本就好模仿(如 medium-4ag-hard),收太紧反而拖累学习。

4. RL 辅助项:让学习者"反向监督"引导者。 学习者损失(式 10)= 对引导者的行为克隆 KL + 一个由 \(\lambda\) 加权的 PPO 式 RL 辅助项。因为引导者被约束得贴近学习者,采样近似在线,这个辅助项能直接从轨迹里提升回报。更妙的是它起到"反向监督"作用:当引导者的 RL 目标指向一个不可去中心化的方向、学习者又因模仿约束把它往回拉时,两者会反复拉扯停滞;RL 辅助项让学习者帮引导者找到更可去中心化的更新方向。注意该项在 CTDS 上几乎无效——因为 CTDS 的行为策略是不与学生对齐的教师,数据离线,学生上的在线 RL 损失帮不上忙。

实验关键数据

主实验

在 6 个 JAX 多智能体套件、共 43 个任务上对比 SOTA:CTCE 的 Sable / MAT、CTDE 的 MAPPO / HAPPO,以及 vanilla CTDS(≈去掉双裁剪、掩码和 RL 辅助的 MAGPO)。每任务 10 个种子、训练 2000 万环境步,用 min-max 归一化的 IQM + 95% 自助置信区间聚合。

对比口径 MAGPO 表现
超过所有 CTDE 基线的任务数 32 / 43
超过所有基线(含 CTCE)的任务数 20 / 43
与 SOTA CTCE(Sable)对比 在 3 个套件上打成平手甚至反超
与 CTDS 对比 在 CoordSum、RWARE 上有显著差距

CoordSum、RWARE 上 MAGPO 大幅领先 CTDS,恰好印证:这些环境里 CTCE 教师容易学出"不可去中心化"的策略,直接蒸馏(CTDS)失效,而 MAGPO 的约束机制救回了性能。

消融实验

设计组件 结论
引导者选择(Sable vs MAT) MAGPO 性能随引导者强弱而变:simple_spread_10ag 上 MAT 弱→MAGPO(MAT) 弱;large-8ag 上 MAT 强→MAGPO(MAT) 更好。这是特性而非缺陷——MAGPO 是 CTCE→CTDE 的桥梁
约束比 δ 最敏感超参。不可分解任务(CoordSum-5x20-80)小 δ 更好;可模仿任务(medium-4ag-hard)δ 太小反而受限
RL 辅助权重 λ 适当调 λ 有提升但不如 δ 关键;同样的 RL 辅助项加到 CTDS 上几乎无收益(数据离线所致)

关键发现

  • 桥接 CTCE 与 CTDE:MAGPO 让 CTCE 的进展能直接惠及需要去中心化部署的 CTDE 场景,推动两条范式协同演进。
  • 观测不对称同样致命:CTCE 条件于所有 agent 局部观测的并集,个体策略只看自己的——这道鸿沟让 CTDS 即便在联合策略可分解时也会失败,而 MAGPO 用 δ 控制散度来缓解。

亮点与洞察

  • 把"模仿鸿沟"从根上重构成"约束式投影":不是先学强教师再硬蒸馏,而是全程约束教师贴近学生,保证协调策略一开始就落在可实现集合内——这是对 CTDS 失败模式的精准回应。
  • 单调改进保证 + 可并行:少见地同时给出理论保证(Theorem 4.1)和工程实用性(并行更新、兼容参数共享),填补了 vanilla CTDE(无保证)和 HARL(有保证但串行)之间的空白。
  • CoordSum 玩具环境设计精巧,把"不可分解的随机协调"这一抽象失败模式做成可复现 benchmark。

局限与展望

  • 性能受限于引导者上限:MAGPO 不会超过其底层 CTCE 方法太多,CTCE 弱则 MAGPO 弱(作者把它解读为"桥梁特性",但确实是天花板约束)。
  • δ 需逐任务调:最关键的超参没有自适应机制,依赖对任务"可模仿性"的先验判断。
  • 未利用特权信息:训练时常有超出"局部观测并集"的真全局状态可用,本文没有把这类特权信号喂给引导者,作者明确指出这是进一步提升的方向。
  • 实验集中在 JAX 仿真套件,缺真实机器人/物理系统验证。

相关工作与启发

  • CTDE / 价值分解(VDN、QMIX、QTRAN、QPLEX)与策略式 CTDE(COMA、MADDPG、MAPPO):MAGPO 批评它们只用价值函数利用全局信息,未尽集中式训练之力。
  • CTDS(Zhao et al., 2024 等):MAGPO 的直接靶子,指出其可扩展性与模仿鸿沟问题。
  • HARL(HATRPO/HAPPO/HASAC):提供序贯更新的理论保证,MAGPO 证明自己等价于序贯优势更新但可并行、兼容同构参数共享。
  • CTCE / Transformer 序列建模(MAT、Sable):作为 MAGPO 的引导者骨干,MAGPO 把它们的协调能力"过继"给去中心化策略。
  • 单智能体 GPO(Li et al., 2025):MAGPO 的思想母体,本文的贡献在于针对 MARL 加了自回归联合动作建模与去中心化对齐,而非简单照搬。

评分

  • 新颖性: ⭐⭐⭐⭐ 把单智能体 GPO 的"约束式引导"思想迁移到 MARL,并针对联合动作空间设计自回归引导者 + 双裁剪约束,切中 CTDS 模仿鸿沟的要害,思路清晰且有原创性。
  • 实验充分度: ⭐⭐⭐⭐ 6 套件 43 任务、10 种子、严谨的 IQM + 置信区间评估,消融覆盖引导者/δ/λ 三个关键维度,说服力强;略欠真实系统验证。
  • 写作质量: ⭐⭐⭐⭐⭐ CoordSum 玩具例子把抽象失败模式讲得透彻,理论(单调改进、序贯更新等价性)与实现衔接自然,逻辑链条完整。
  • 价值: ⭐⭐⭐⭐ 同时给出理论保证与可并行实现,且作为 CTCE→CTDE 的桥梁有清晰的实用定位,对需要去中心化部署的合作式 MARL 有直接参考价值。