HCPO: Hierarchical Conductor-Based Policy Optimization in Multi-Agent Reinforcement Learning¶

会议: AAAI2026
arXiv: 2511.12123
领域: 强化学习
关键词: multi-agent RL, cooperative MARL, joint policy optimization, hierarchical framework, trust region

一句话总结¶

提出 HCPO 算法，通过引入 conductor（指挥者）机制增强多智能体联合策略的表达能力和探索效率，构建类似 Gaussian mixture model 的联合策略框架，并证明两级策略更新的单调改进保证。

研究背景与动机¶

合作式 MARL 中，高效探索对联合策略优化至关重要。现有 CTDE 范式（如 MAPPO、QMIX）存在两个核心问题：

联合策略表达受限：大多数方法假设联合策略为各智能体独立策略的乘积 \(\boldsymbol{\pi}(\boldsymbol{a}|s) = \prod_i \pi^i(a^i|s)\)，限制了策略空间的表达能力
独立探索缺乏协调：各智能体独立探索，无法有效协调发现高价值联合策略
现有层次方法的局限：MAVEN 依赖 QMIX 的单调性假设，COPA 在执行时需要通信，skill discovery 方法依赖变分推断

方法详解¶

Conductor-based 联合策略框架¶

受足球比赛中教练指挥球员的启发，引入集中式 conductor 为全队提供指令 \(M\)：

\[\boldsymbol{\pi}_{\text{mar}}(\boldsymbol{a}|s) \triangleq \mathbb{E}_{M \sim w(\cdot|s)} \boldsymbol{\pi}(\boldsymbol{a}|s, M)\]

conductor 策略 \(w(\cdot|s)\) 根据全局状态选择 \(K\) 个离散指令之一
给定指令 \(M\) 后，联合策略分解为条件独立策略的乘积：\(\boldsymbol{\pi}(\boldsymbol{a}|s,M) = \prod_{i=1}^N \pi^i(a^i|s,M)\)
整体形成类似 Gaussian mixture model 的混合策略结构，显著增强表达能力

优势函数分解¶

将联合优势函数分解为 conductor 层和 agent 层：

\[A_{\boldsymbol{\pi}_{\text{mar}}}(s, \boldsymbol{a}) = A_{\boldsymbol{\pi}_{\text{mar}}}(M|s) + A_{\boldsymbol{\pi}_{\text{mar}}}(\boldsymbol{a}|s, M)\]

Instruction advantage \(A(M|s)\)：评估指令 \(M\) 相对其他指令的优劣
Joint action advantage \(A(\boldsymbol{a}|s,M)\)：评估给定指令下联合动作的优劣

两级策略更新¶

Conductor 策略更新：最大化指令优势函数，受 KL 散度约束

\[w_{k+1} = \arg\max_{\bar{w}} \left[\mathbb{E}_{s,M\sim\bar{w}} A(M|s) - C \cdot D_{\text{KL}}^{\max}(w_k, \bar{w})\right]\]

Agent 策略顺序更新：对每个指令 \(M^j\)，按随机排列顺序逐一更新各智能体策略，利用 conditional advantage decomposition（Lemma 2）将联合优势分解为单智能体边际优势之和

去中心化执行¶

训练时使用集中式 conductor，每个智能体配备本地 conductor \(w^i(\cdot|o^i)\)
通过 cross-entropy loss 将集中式 conductor 的策略蒸馏到本地 conductor
执行时各智能体仅依赖本地观测和本地 conductor，无需通信

理论保证¶

证明 \(J(\boldsymbol{\pi}_{\text{mar},k+1}) \geq J(\boldsymbol{\pi}_{\text{mar},k})\)，即联合策略性能单调递增，且不依赖 QMIX 的单调性假设。

实验关键数据¶

SMAC（StarCraft II）¶

在 5 个地图上评测（5 seeds），HCPO 在所有地图上率先达到 90% 胜率，且标准差最低。

MA-MuJoCo¶

HalfCheetah-v2-2×3：最终回报较次优算法 HAA2C 高 23.42%
t-SNE 可视化显示 HCPO 在训练早期探索的状态空间覆盖更广
Walker2d-v2-6×1：熵分析和平均最近邻距离验证 HCPO 探索更优

MPE（Multi-agent Particle Environment）¶

训练前期（0-2M steps）策略提升最快，表明合作效率高
相比 HATRPO 和 A2PO 表现出更高的稳定性

消融实验¶

移除 conductor 后胜率下降且收敛变慢
指令数 \(K\) 需要在性能与资源消耗间平衡
随机 conductor（均匀输出指令）性能显著下降，验证学习到的指令分布的有效性
本地 conductor 中位回报接近集中式 conductor

亮点¶

混合策略表达：将联合策略建模为混合分布，突破独立策略乘积的表达瓶颈
严格单调改进保证：不依赖 QMIX 单调性假设的理论保证
去中心化执行：通过策略蒸馏消除执行时通信需求
统一框架：将 trust region 方法与顺序更新、层次机制有机结合

局限性¶

仅适用于 on-policy 算法，样本效率受限；作者计划未来集成 off-policy 方法
离散指令空间（\(K\) 个指令），连续指令空间未探索
conductor 蒸馏引入额外训练开销

评分¶

新颖性: ⭐⭐⭐⭐ — conductor-based 混合策略框架在 MARL 中新颖，理论推导完整
实验充分度: ⭐⭐⭐⭐ — SMAC/MA-MuJoCo/MPE 三大基准全覆盖，消融详尽
写作质量: ⭐⭐⭐⭐ — 结构清晰，理论推导严谨但符号较多
价值: ⭐⭐⭐⭐ — 对 MARL 策略表达和协调探索问题提供新思路