BayesG: Bayesian Ego-Graph Inference for Networked Multi-Agent Reinforcement Learning¶
会议: NeurIPS 2025
arXiv: 2509.16606
代码: https://github.com/Wei9711/BayesG
领域: 自动驾驶
关键词: 贝叶斯推断, 自我图, 网络化MARL, 动态通信图, 去中心化
一句话总结¶
BayesG 让网络化 MARL 中的每个 agent 通过贝叶斯变分推断学习其局部通信图的动态结构——用 Gumbel-Softmax 采样边掩码、ELBO 目标联合优化策略和图结构,在 167 agent 的纽约交通场景中奖励比最佳 baseline 高 50%+。
研究背景与动机¶
领域现状:网络化 MARL 中 agent 通过通信图交换信息。现有方法使用固定通信图,或需全局状态来学习动态图。
现有痛点:固定邻居集在动态环境中次优——不同时刻不同邻居的信息价值不同。中心化图学习(需要全局可观测)在去中心化系统中不现实。
核心矛盾:agent 只有局部观测,但需要决定"从哪些邻居获取信息最有用"——这本身是一个不确定性问题。
本文目标 去中心化地让每个 agent 学习任务自适应的局部通信图结构。
切入角度:将边的存在/不存在建模为 Bernoulli 随机变量,用变分贝叶斯推断从局部数据估计后验。
核心 idea:每个 agent 对其自我图的边做贝叶斯变分推断(Bernoulli + Gumbel-Softmax),ELBO 目标联合优化策略和图结构,实现去中心化的动态通信。
方法详解¶
整体框架¶
agent \(i\) 的策略条件化于采样的子图:\(\pi_i(u_i, G_{\mathcal{V}_i} | s_{\mathcal{V}_i}) = \rho(G | s) \cdot \tilde{\pi}_i(u_i | \tilde{f}_i(s, G))\)。边掩码 \(Z_i\) 由变分分布 \(q(Z_i; \phi_i) = \prod \text{Bern}(z_{ij}; \sigma(\phi_{ij}))\) 采样,Gumbel-Softmax 可微化。
关键设计¶
- 贝叶斯边推断: 变分近似 \(q(Z_{ij})\) 为 Bernoulli,先验 \(p(Z_{ij})\) 有保留偏置 \(\lambda\)。ELBO: \(\mathcal{L} = E_q[-\mathcal{L}_{\theta,\varphi}] - \sum_{j} \text{KL}(q \| p)\)
- GNC 消息传递: 在掩码邻接矩阵 \(A_i^* = Z_i \odot A_i\) 上做图神经通信
- 多特征输入: 邻居状态+轨迹+策略特征三类信息
损失函数 / 训练策略¶
- Actor-Critic + ELBO 联合优化
- KL 正则化促进稀疏图(只保留有用的边)
实验关键数据¶
主实验(自适应交通信号控制 ATSC)¶
| 环境 | BayesG | NeurComm | CommNet | 提升 |
|---|---|---|---|---|
| Grid 5×5 | ~-15 | ~-20 | ~-30 | +25% |
| NewYork 167 agent | ~-30 | ~-45 | ~-60 | +50% |
消融实验¶
| 配置 | 效果 |
|---|---|
| 无掩码 | baseline 性能 |
| 随机掩码 | 严重退化 |
| 学习掩码 | 最优 |
| 轨迹+状态+策略 | 最佳特征组合 |
关键发现¶
- 学习图结构比固定图显著好——尤其在大规模场景(167 agent)
- 随机掩码反而有害,证明结构学习的必要性
- 更快收敛(早期训练阶段就显著领先)
亮点与洞察¶
- 贝叶斯处理不确定性很自然:不确定哪个邻居有用时,概率采样比硬选择更鲁棒
- KL 正则化自动实现稀疏:不需要手动设定通信预算
局限与展望¶
- 未分析学习图结构随时间的演化
- 仅测试到 167 agent
- 固定通信间隔
相关工作与启发¶
- vs CommNet: 固定全连接,BayesG 学习稀疏动态图
- vs NeurComm: 中心化图学习,BayesG 完全去中心化
评分¶
- 新颖性: ⭐⭐⭐⭐ 贝叶斯图推断+MARL的自然结合
- 实验充分度: ⭐⭐⭐⭐ 5 环境 + 消融
- 写作质量: ⭐⭐⭐⭐ 方法清晰
- 价值: ⭐⭐⭐⭐ 分布式多智能体系统实用方案
- 交互结构应该是动态的而非预定义的——贝叶斯推断让agent自适应选择交互对象
- 在167agent交通控制中超越全连接和固定图方法,学到的稀疏图更高效
- 该方法的核心创新在于设计思路的简洁性和有效性
- 实验结果充分验证了核心假设