R3DM: Enabling Role Discovery and Diversity Through Dynamics Models in Multi-agent Reinforcement Learning¶
会议: ICML 2025
arXiv: 2505.24265
代码: 有
领域: 自动驾驶
关键词: 多智能体强化学习, 角色发现, 动力学模型, 对比学习, 内在奖励
一句话总结¶
提出 R3DM 框架,通过最大化智能体角色、历史轨迹与未来预期行为之间的互信息,利用动力学模型驱动的内在奖励实现角色多样性与协调性的平衡,在 SMAC/SMACv2 环境中将胜率提升最高 20%。
研究背景与动机¶
多智能体强化学习(MARL)在交通控制、自动驾驶、协作机器人等领域取得重要进展。现有方法主要面临以下矛盾:
共享参数 vs 行为多样性:CTDE 范式(如 QMIX、MAPPO)通过共享策略参数提高样本效率,但阻碍了个体智能体学习差异化行为
多样性 vs 协调性:多样性驱动的方法(如 CDS)虽然鼓励个体差异,但往往牺牲团队协调效果
现有角色方法的局限:ROMA、RODE、ACORM 等角色方法仅从智能体的过去经验推导角色,忽略了角色对未来行为的影响
核心矛盾举例:在消防无人机场景中,如果两架无人机初始观测相似,基于历史的角色推断会使它们获得相同角色,导致都飞向同一个火点,无法有效分工。
本文核心 idea:智能体的角色应当塑造其未来行为——采取不同角色的智能体在任意时刻之后应自然展现出不同的轨迹。因此需要将角色与未来预期行为通过动力学模型建立联系。
方法详解¶
整体框架¶
R3DM 在 CTDE 框架下提出基于信息论的目标函数,最大化智能体角色 \(m_i^t\)、观测-动作历史 \(\tau_i^t\) 与未来轨迹 \(\tau_i^{t+1:t+k}\) 之间的互信息。通过 Theorem 4.1 将该不可解目标分解为两个可优化的子目标:
- 第一项:从历史中学习中间角色嵌入 → 对比学习优化
- 第二项:确保角色嵌入能引导未来行为多样性 → 内在奖励优化
关键设计¶
-
对比学习角色嵌入(优化第一项): 用轨迹编码器 \(f_{\theta_e}\) 将观测-动作历史编码为嵌入 \(e_i^t\),再通过角色编码器 \(f_{\theta_r}\) 获得角色嵌入 \(z_i^t\)。通过 K-means 将智能体嵌入聚类为 \(|M|\) 个角色组,同组为正例、跨组为负例,用双线性打分函数 \(g(z_i^t, e_i^t)\) 计算相似度。核心公式(Theorem 4.2):
\(\mathbb{E}\left[\log\frac{p(z_i^t | e_i^t)}{p(z_i^t)}\right] \geq \log|M| + \mathbb{E}\left[\log\frac{g(z_i^t, e_i^t)}{g(z_i^t, e_i^t) + \sum_{m_i^{t*}} g(z_i^t, e_i^{t*})}\right]\)
设计动机:复用 ACORM 的成熟对比学习框架获得中间角色表示,作为后续内在奖励的基础。
-
策略内在奖励(Policy Intrinsic Reward): 通过 Theorem 4.3 将未来轨迹-角色互信息分解为策略项和动力学项。策略内在奖励衡量角色对动作选择的影响:
\(r_{i,\text{pol}}^t = \sum_{l=t}^{t+k-1} \mathbb{D}_{KL}\left(\text{SoftMax}(Q_i(\cdot|\tau_i^l, z_i^t; \phi_Q)) \| p(\cdot|\tau_i^l)\right)\)
其中 \(p(\cdot|\tau_i^l) = \mathbb{E}_{z_i^t}[\text{SoftMax}(Q_i(\cdot|\tau_i^l, z_i^t; \phi_Q))]\) 是所有角色下的平均动作概率。该 KL 散度鼓励不同角色产生差异化的策略分布。
-
动力学内在奖励(Dynamics Intrinsic Reward): 学习两个 DreamerV3 风格的 RSSM 世界模型——角色条件模型 \(q_\psi(o_i^{l+1}|\tau_i^l, z_i^t, a_i^l)\) 和角色无关模型 \(p(o_i^{l+1}|\tau_i^l, a_i^l)\)。RSSM 包含序列模型、观测编码器、动力学预测器和观测解码器四个组件。动力学内在奖励为两模型的对数似然之差:
\(r_{i,\text{dyn}}^t = \sum_{l=t}^{t+k-1}\left(\beta_1[\log q_{\psi_{\text{dec}}}(\cdot) + \beta_2 \log q_{\psi_{\text{dyn}}}(\cdot)] - [\text{role-agnostic terms}]\right)\)
设计动机:当角色条件模型的预测显著优于角色无关模型时,说明角色嵌入确实对未来轨迹有预测力。\(\beta_1\) 平衡跨角色轨迹多样性与角色-轨迹一致性。
损失函数 / 训练策略¶
总内在奖励:\(r_{\text{int}}^t = \sum_{i \in I} \beta_3 r_{i,\text{pol}}^t + r_{i,\text{dyn}}^t\)
最终 TD 学习目标:
其中 \(\alpha\) 平衡任务奖励与内在奖励,\(\phi^{-}\) 为冻结目标网络参数。默认想象步长 \(k=1\),\(\epsilon\)-greedy 探索从 1.0 线性衰减到 0.02。
实验关键数据¶
主实验¶
在 SMAC(6 个 hard/super-hard 地图)和 SMACv2(6 个环境)上评测,与 QMIX、CDS、EMC、CIA、GoMARL、ACORM 比较。
| 场景 | 指标 | R3DM | ACORM (SOTA) | 提升 |
|---|---|---|---|---|
| 3s5z_vs_3s6z (SMAC) | 测试胜率 | ~55% | ~35% | +20% |
| Corridor (SMAC) | 测试胜率 | ~90% | ~80% | +10% |
| 6h_vs_8z (SMAC) | 测试胜率 | ~30% | ~20% | +10% |
| protoss_10_vs_11 (SMACv2) | 测试胜率 | 最优 | 次优 | 边际 |
| protoss_5_vs_5 (SMACv2) | 累积奖励 | 最优 | 接近 | 策略更高效 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| k=1(默认) | 最佳胜率 | 单步想象即可 |
| k=10 | 性能明显下降 | 局部观测世界模型累积误差 |
| |M|=3 | 收敛最快 | 平衡协调与专业化 |
| |M|=8 | 类似最终性能但收敛慢 | 过度特化 |
| 无对比学习 | 低于完整版但优于 ACORM | 内在奖励是核心贡献 |
| 无内在奖励(=ACORM) | 基线水平 | 证实动力学奖励有效 |
关键发现¶
- 内在奖励是核心:去掉对比学习后仍优于 ACORM,但去掉内在奖励则退化为 ACORM
- 短 horizon 预测更好:基于局部观测的世界模型在多步预测时误差累积严重
- 定性分析(3s_vs_5z):R3DM 的一个 stalker 学会"诱敌"角色,引开 3 个 zealot,主力分两队歼灭弱化敌军;ACORM 全员冲锋最终落败
- SMACv2 中 R3DM 累积奖励优势明显,即使胜率相近也学到了更高效的获胜策略
亮点与洞察¶
- 核心 insight 简洁有力:角色应塑造未来行为,而非仅从过去推断——直击现有方法的根本局限
- 将 DreamerV3 世界模型引入 MARL 角色学习是新颖的跨领域组合
- 信息论推导严谨,从 MI 目标到可操作下界到具体奖励设计,每步都有定理支撑
- 定性分析(战术演示)非常有说服力,直观展示了角色分化带来的战术协调优势
局限与展望¶
- 角色数量需预设:\(|M|\) 是超参数,未来可探索从 replay buffer 动态推导
- 世界模型基于局部观测:仅用 ego agent 观测建模,未考虑其他智能体的动作/角色影响
- 仅在 SMAC 类环境验证:未在连续动作空间或真实自动驾驶场景中测试
- 计算开销:需训练两个 RSSM 模型(角色条件 + 角色无关),增加计算和内存负担
相关工作与启发¶
- vs ACORM:R3DM 在 ACORM 基础上增加动力学内在奖励,3s5z_vs_3s6z 胜率从 35% 提升到 55%
- vs CDS:CDS 过度强调个体多样性损害协调,R3DM 通过角色约束的多样性避免此问题
- vs MAVEN:MAVEN 用隐变量促进探索但不学习显式角色,R3DM 更可解释
- 启发:世界模型 + 内在奖励的组合可扩展到更多 MARL 场景,未来可用全局世界模型提升精度
评分¶
- 新颖性: ⭐⭐⭐⭐ 世界模型引入 MARL 角色学习是创新组合,MI 分解严谨
- 实验充分度: ⭐⭐⭐⭐ SMAC/SMACv2 全面评测含消融和定性分析,但环境类型单一
- 写作质量: ⭐⭐⭐⭐ 定理推导清晰,消防无人机例子贯穿全文,直观易懂
- 价值: ⭐⭐⭐⭐ 为 MARL 角色学习提供连接历史与未来行为的新范式