跳转至

HCPO: Hierarchical Conductor-Based Policy Optimization in Multi-Agent Reinforcement Learning

会议: AAAI2026
arXiv: 2511.12123
领域: 强化学习
关键词: multi-agent RL, cooperative MARL, joint policy optimization, hierarchical framework, trust region

一句话总结

提出 HCPO 算法,通过引入 conductor(指挥者)机制增强多智能体联合策略的表达能力和探索效率,构建类似 Gaussian mixture model 的联合策略框架,并证明两级策略更新的单调改进保证。

研究背景与动机

合作式 MARL 中,高效探索对联合策略优化至关重要。现有 CTDE 范式(如 MAPPO、QMIX)存在两个核心问题:

  • 联合策略表达受限:大多数方法假设联合策略为各智能体独立策略的乘积 \(\boldsymbol{\pi}(\boldsymbol{a}|s) = \prod_i \pi^i(a^i|s)\),限制了策略空间的表达能力
  • 独立探索缺乏协调:各智能体独立探索,无法有效协调发现高价值联合策略
  • 现有层次方法的局限:MAVEN 依赖 QMIX 的单调性假设,COPA 在执行时需要通信,skill discovery 方法依赖变分推断

方法详解

Conductor-based 联合策略框架

受足球比赛中教练指挥球员的启发,引入集中式 conductor 为全队提供指令 \(M\)

\[\boldsymbol{\pi}_{\text{mar}}(\boldsymbol{a}|s) \triangleq \mathbb{E}_{M \sim w(\cdot|s)} \boldsymbol{\pi}(\boldsymbol{a}|s, M)\]
  • conductor 策略 \(w(\cdot|s)\) 根据全局状态选择 \(K\) 个离散指令之一
  • 给定指令 \(M\) 后,联合策略分解为条件独立策略的乘积:\(\boldsymbol{\pi}(\boldsymbol{a}|s,M) = \prod_{i=1}^N \pi^i(a^i|s,M)\)
  • 整体形成类似 Gaussian mixture model 的混合策略结构,显著增强表达能力

优势函数分解

将联合优势函数分解为 conductor 层和 agent 层:

\[A_{\boldsymbol{\pi}_{\text{mar}}}(s, \boldsymbol{a}) = A_{\boldsymbol{\pi}_{\text{mar}}}(M|s) + A_{\boldsymbol{\pi}_{\text{mar}}}(\boldsymbol{a}|s, M)\]
  • Instruction advantage \(A(M|s)\):评估指令 \(M\) 相对其他指令的优劣
  • Joint action advantage \(A(\boldsymbol{a}|s,M)\):评估给定指令下联合动作的优劣

两级策略更新

  1. Conductor 策略更新:最大化指令优势函数,受 KL 散度约束
\[w_{k+1} = \arg\max_{\bar{w}} \left[\mathbb{E}_{s,M\sim\bar{w}} A(M|s) - C \cdot D_{\text{KL}}^{\max}(w_k, \bar{w})\right]\]
  1. Agent 策略顺序更新:对每个指令 \(M^j\),按随机排列顺序逐一更新各智能体策略,利用 conditional advantage decomposition(Lemma 2)将联合优势分解为单智能体边际优势之和

去中心化执行

  • 训练时使用集中式 conductor,每个智能体配备本地 conductor \(w^i(\cdot|o^i)\)
  • 通过 cross-entropy loss 将集中式 conductor 的策略蒸馏到本地 conductor
  • 执行时各智能体仅依赖本地观测和本地 conductor,无需通信

理论保证

证明 \(J(\boldsymbol{\pi}_{\text{mar},k+1}) \geq J(\boldsymbol{\pi}_{\text{mar},k})\),即联合策略性能单调递增,且不依赖 QMIX 的单调性假设。

实验关键数据

SMAC(StarCraft II)

在 5 个地图上评测(5 seeds),HCPO 在所有地图上率先达到 90% 胜率,且标准差最低。

MA-MuJoCo

  • HalfCheetah-v2-2×3:最终回报较次优算法 HAA2C 高 23.42%
  • t-SNE 可视化显示 HCPO 在训练早期探索的状态空间覆盖更广
  • Walker2d-v2-6×1:熵分析和平均最近邻距离验证 HCPO 探索更优

MPE(Multi-agent Particle Environment)

  • 训练前期(0-2M steps)策略提升最快,表明合作效率高
  • 相比 HATRPO 和 A2PO 表现出更高的稳定性

消融实验

  • 移除 conductor 后胜率下降且收敛变慢
  • 指令数 \(K\) 需要在性能与资源消耗间平衡
  • 随机 conductor(均匀输出指令)性能显著下降,验证学习到的指令分布的有效性
  • 本地 conductor 中位回报接近集中式 conductor

亮点

  • 混合策略表达:将联合策略建模为混合分布,突破独立策略乘积的表达瓶颈
  • 严格单调改进保证:不依赖 QMIX 单调性假设的理论保证
  • 去中心化执行:通过策略蒸馏消除执行时通信需求
  • 统一框架:将 trust region 方法与顺序更新、层次机制有机结合

局限性

  • 仅适用于 on-policy 算法,样本效率受限;作者计划未来集成 off-policy 方法
  • 离散指令空间(\(K\) 个指令),连续指令空间未探索
  • conductor 蒸馏引入额外训练开销

评分

  • 新颖性: ⭐⭐⭐⭐ — conductor-based 混合策略框架在 MARL 中新颖,理论推导完整
  • 实验充分度: ⭐⭐⭐⭐ — SMAC/MA-MuJoCo/MPE 三大基准全覆盖,消融详尽
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,理论推导严谨但符号较多
  • 价值: ⭐⭐⭐⭐ — 对 MARL 策略表达和协调探索问题提供新思路