ICLR 2026 强化学习 CTDE 多智能体强化学习自回归联合策略教师-学生蒸馏单调策略改进策略镜像下降

Multi-Agent Guided Policy Optimization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=OT8beoc0W0
代码: 基于 JAX MARL 库 Mava 实现（论文未公开独立仓库）
领域: reinforcement_learning（合作式多智能体强化学习 / MARL）
关键词: CTDE, 多智能体强化学习, 自回归联合策略, 教师-学生蒸馏, 单调策略改进, 策略镜像下降

一句话总结¶

MAGPO 用一个自回归联合"引导者"策略做集中式协调探索，并通过 KL 对齐把它约束在去中心化"学习者"策略能实现的范围内，既保住了 CTDE 的可部署性，又给出了单调策略改进的理论保证。

研究背景与动机¶

领域现状：在合作式多智能体强化学习中，由于部分可观测和通信受限，"集中式训练—去中心化执行"（CTDE）是主流范式：训练时用全局信息，执行时每个 agent 只看自己的局部观测独立决策。主流 CTDE（QMIX、MAPPO 等）只通过一个中心化价值函数来利用全局信息，被作者称为 vanilla CTDE——并没有真正榨干集中式训练的潜力。

现有痛点：近期出现的 CTDS（Centralized Teacher with Decentralized Student）想更激进地利用集中式协调：训练一个看全局状态、输出联合动作的中心化教师，再把它蒸馏给去中心化学生。但 CTDS 有两个结构性顽疾：

可扩展性差：教师在联合动作空间上学习，空间随 agent 数量指数膨胀；
模仿鸿沟（imitation gap）：教师条件于全局状态与联合上下文，学生只能基于局部观测——去中心化策略空间里可能根本不存在教师那套策略，蒸馏必然损失性能。

核心矛盾：论文用一个"三个 agent 各报一个整数、和必须等于 10"的玩具例子点透矛盾（图 1）。三种范式各有死穴：

Vanilla CTDE：三个 agent 共享同一目标却独立决策，可能同时把动作从 3 调到 4（得 12 仍失败），缺乏"谁该调整"的协调信号，只能靠随机试错碰巧凑出成功组合；
CTCE：让 agent 顺序决策、后者能看到前者动作，协调轻而易举且稳定，但要求集中式执行、现实中往往不可部署；
CTDS：一旦教师学到随机且不可分解的协调策略（如第一个 agent 随机取 3/4、第三个 agent 取 7−x），强行拆成独立去中心化策略就会失败（出现 [4,3,4] 这类组合），成功率只剩 50%。

协调模式编码在联合策略里，被压进去中心化表示时就丢了——这是贯穿全文的核心失败模式。

本文目标：在不牺牲去中心化可部署性的前提下，把集中式协调真正用起来，并给出理论保证。

核心 idea：约束式引导而非自由蒸馏——维护一个自回归联合引导者策略做协调探索，但全程把它约束得贴近去中心化学习者，从而既享受联合探索的协调红利，又保证学到的协调策略是去中心化可实现的，从根上堵住 CTDS 的模仿鸿沟。

方法详解¶

整体框架¶

MAGPO 维护两套策略：一个自回归联合引导者 \(\mu(a|s)=\prod_j \mu_{i_j}(a_{i_j}|s, a_{i_{1:j-1}})\)（agent 顺序决策、后者看前者动作 + 全局信息），和一个去中心化学习者 \(\pi(a|s)=\prod_j \pi_{i_j}(a_{i_j}|s)\)（各 agent 独立）。训练按四步循环迭代：① 用引导者采样轨迹做协调探索；② 用策略镜像下降（PMD）更新引导者；③ 用 KL 最小化把学习者对齐到引导者；④ 引导者回溯——把引导者重置为当前学习者。这套设计脱胎于单智能体 GPO，但针对 MARL 加了顺序联合动作建模与去中心化对齐更新。

flowchart LR
    A[数据采集<br/>引导者 μ_k 采样轨迹] --> B[引导者更新<br/>PMD/PPO 提升回报<br/>+KL 约束贴近学习者]
    B --> C[学习者更新<br/>KL 对齐 μ̂_k<br/>+RL 辅助项]
    C --> D[引导者回溯<br/>μ_{k+1} ← π_{k+1}]
    D --> A

关键设计¶

1. 自回归引导者 + 引导者回溯：把"提升"和"可部署"解耦。 引导者用 PMD 在完整联合空间里找一个提升回报的策略 \(\hat\mu_k=\arg\max_\mu\{\eta_k\langle Q_{\mu_k}(s,\cdot),\mu(\cdot|s)\rangle-D_{KL}(\mu(\cdot|s),\mu_k(\cdot|s))\}\)，学习者再通过 KL 最小化把它投影回去中心化策略空间。关键的回溯步 \(\mu_{k+1}=\pi_{k+1}\) 在理论上恒可行——任何去中心化策略 \(\pi\) 都能通过"忽略对历史动作的条件"退化成一个合法的自回归联合策略。正是这一点让作者证出 Theorem 4.1（单调改进）：\(V_\rho(\pi_{k+1})\ge V_\rho(\pi_k),\forall k\)。直觉上，引导者在联合空间用 PMD 找到提升方向，学习者把它投影下来，因为目标是按投影梯度选的，投影后回报照样改进。

2. 与 HARL 并列但可并行的序贯更新视角。 借助多智能体优势分解引理，作者证明 MAGPO 的学习者更新等价于一组序贯优势加权更新（Corollary 4.2）：\(\pi^{i_j}_{k+1}=\arg\max_{\pi^{i_j}}\mathbb{E}[A^{i_j}_\pi(s,a_{i_{1:j-1}},a_{i_j})]-\frac{1}{\eta_k}D_{KL}(\pi^{i_j},\pi^{i_j}_k)\)。这把它和 HATRPO/HAPPO 这类有理论保证的方法接上了，但有本质区别：HARL 要求 agent 异构且逐个串行更新，MAGPO 则允许所有 agent 同时并行更新，且对同构/异构都成立，因而能吃到参数共享的红利——这正是大规模 MARL 里的关键工程优势。

3. 双裁剪 + 掩码：用超参 δ 把引导者"拴"在学习者附近。 实践中引导者损失（式 9）在标准 PPO clip 之外引入一个双裁剪 \(\text{clip}(\cdot,\epsilon,\delta)\) 和一个掩码 \(m^{i_j}_t(\delta)\)，由新超参 \(\delta>1\) 控制，把引导者与学习者的概率比强行约束在 \((1/\delta,\delta)\) 内。内层 clip 在"优势信号想让引导者漂离学习者太远"时截断梯度，掩码则保证 KL 损失只在比值越界时才施加。\(\delta\) 是全方法最敏感的旋钮：教师策略越不可分解（如 CoordSum），越要收紧 \(\delta\) 逼它可模仿；教师本就好模仿（如 medium-4ag-hard），收太紧反而拖累学习。

4. RL 辅助项：让学习者"反向监督"引导者。 学习者损失（式 10）= 对引导者的行为克隆 KL + 一个由 \(\lambda\) 加权的 PPO 式 RL 辅助项。因为引导者被约束得贴近学习者，采样近似在线，这个辅助项能直接从轨迹里提升回报。更妙的是它起到"反向监督"作用：当引导者的 RL 目标指向一个不可去中心化的方向、学习者又因模仿约束把它往回拉时，两者会反复拉扯停滞；RL 辅助项让学习者帮引导者找到更可去中心化的更新方向。注意该项在 CTDS 上几乎无效——因为 CTDS 的行为策略是不与学生对齐的教师，数据离线，学生上的在线 RL 损失帮不上忙。

实验关键数据¶

主实验¶

在 6 个 JAX 多智能体套件、共 43 个任务上对比 SOTA：CTCE 的 Sable / MAT、CTDE 的 MAPPO / HAPPO，以及 vanilla CTDS（≈去掉双裁剪、掩码和 RL 辅助的 MAGPO）。每任务 10 个种子、训练 2000 万环境步，用 min-max 归一化的 IQM + 95% 自助置信区间聚合。

对比口径	MAGPO 表现
超过所有 CTDE 基线的任务数	32 / 43
超过所有基线（含 CTCE）的任务数	20 / 43
与 SOTA CTCE（Sable）对比	在 3 个套件上打成平手甚至反超
与 CTDS 对比	在 CoordSum、RWARE 上有显著差距

CoordSum、RWARE 上 MAGPO 大幅领先 CTDS，恰好印证：这些环境里 CTCE 教师容易学出"不可去中心化"的策略，直接蒸馏（CTDS）失效，而 MAGPO 的约束机制救回了性能。

消融实验¶

设计组件	结论
引导者选择（Sable vs MAT）	MAGPO 性能随引导者强弱而变：simple_spread_10ag 上 MAT 弱→MAGPO(MAT) 弱；large-8ag 上 MAT 强→MAGPO(MAT) 更好。这是特性而非缺陷——MAGPO 是 CTCE→CTDE 的桥梁
约束比 δ	最敏感超参。不可分解任务（CoordSum-5x20-80）小 δ 更好；可模仿任务（medium-4ag-hard）δ 太小反而受限
RL 辅助权重 λ	适当调 λ 有提升但不如 δ 关键；同样的 RL 辅助项加到 CTDS 上几乎无收益（数据离线所致）

关键发现¶

桥接 CTCE 与 CTDE：MAGPO 让 CTCE 的进展能直接惠及需要去中心化部署的 CTDE 场景，推动两条范式协同演进。
观测不对称同样致命：CTCE 条件于所有 agent 局部观测的并集，个体策略只看自己的——这道鸿沟让 CTDS 即便在联合策略可分解时也会失败，而 MAGPO 用 δ 控制散度来缓解。

亮点与洞察¶

把"模仿鸿沟"从根上重构成"约束式投影"：不是先学强教师再硬蒸馏，而是全程约束教师贴近学生，保证协调策略一开始就落在可实现集合内——这是对 CTDS 失败模式的精准回应。
单调改进保证 + 可并行：少见地同时给出理论保证（Theorem 4.1）和工程实用性（并行更新、兼容参数共享），填补了 vanilla CTDE（无保证）和 HARL（有保证但串行）之间的空白。
CoordSum 玩具环境设计精巧，把"不可分解的随机协调"这一抽象失败模式做成可复现 benchmark。

局限与展望¶

性能受限于引导者上限：MAGPO 不会超过其底层 CTCE 方法太多，CTCE 弱则 MAGPO 弱（作者把它解读为"桥梁特性"，但确实是天花板约束）。
δ 需逐任务调：最关键的超参没有自适应机制，依赖对任务"可模仿性"的先验判断。
未利用特权信息：训练时常有超出"局部观测并集"的真全局状态可用，本文没有把这类特权信号喂给引导者，作者明确指出这是进一步提升的方向。
实验集中在 JAX 仿真套件，缺真实机器人/物理系统验证。

评分¶

新颖性: ⭐⭐⭐⭐ 把单智能体 GPO 的"约束式引导"思想迁移到 MARL，并针对联合动作空间设计自回归引导者 + 双裁剪约束，切中 CTDS 模仿鸿沟的要害，思路清晰且有原创性。
实验充分度: ⭐⭐⭐⭐ 6 套件 43 任务、10 种子、严谨的 IQM + 置信区间评估，消融覆盖引导者/δ/λ 三个关键维度，说服力强；略欠真实系统验证。
写作质量: ⭐⭐⭐⭐⭐ CoordSum 玩具例子把抽象失败模式讲得透彻，理论（单调改进、序贯更新等价性）与实现衔接自然，逻辑链条完整。
价值: ⭐⭐⭐⭐ 同时给出理论保证与可并行实现，且作为 CTCE→CTDE 的桥梁有清晰的实用定位，对需要去中心化部署的合作式 MARL 有直接参考价值。