BayesG: Bayesian Ego-Graph Inference for Networked Multi-Agent Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2509.16606
代码: https://github.com/Wei9711/BayesG
领域: 自动驾驶
关键词: 贝叶斯推断, 自我图, 网络化MARL, 动态通信图, 去中心化

一句话总结¶

BayesG 让网络化 MARL 中的每个 agent 通过贝叶斯变分推断学习其局部通信图的动态结构——用 Gumbel-Softmax 采样边掩码、ELBO 目标联合优化策略和图结构，在 167 agent 的纽约交通场景中奖励比最佳 baseline 高 50%+。

研究背景与动机¶

领域现状：网络化 MARL 中 agent 通过通信图交换信息。现有方法使用固定通信图，或需全局状态来学习动态图。

现有痛点：固定邻居集在动态环境中次优——不同时刻不同邻居的信息价值不同。中心化图学习（需要全局可观测）在去中心化系统中不现实。

核心矛盾：agent 只有局部观测，但需要决定"从哪些邻居获取信息最有用"——这本身是一个不确定性问题。

本文目标 去中心化地让每个 agent 学习任务自适应的局部通信图结构。

切入角度：将边的存在/不存在建模为 Bernoulli 随机变量，用变分贝叶斯推断从局部数据估计后验。

核心 idea：每个 agent 对其自我图的边做贝叶斯变分推断（Bernoulli + Gumbel-Softmax），ELBO 目标联合优化策略和图结构，实现去中心化的动态通信。

方法详解¶

整体框架¶

agent \(i\) 的策略条件化于采样的子图：\(\pi_i(u_i, G_{\mathcal{V}_i} | s_{\mathcal{V}_i}) = \rho(G | s) \cdot \tilde{\pi}_i(u_i | \tilde{f}_i(s, G))\)。边掩码 \(Z_i\) 由变分分布 \(q(Z_i; \phi_i) = \prod \text{Bern}(z_{ij}; \sigma(\phi_{ij}))\) 采样，Gumbel-Softmax 可微化。

关键设计¶

贝叶斯边推断: 变分近似 \(q(Z_{ij})\) 为 Bernoulli，先验 \(p(Z_{ij})\) 有保留偏置 \(\lambda\)。ELBO: \(\mathcal{L} = E_q[-\mathcal{L}_{\theta,\varphi}] - \sum_{j} \text{KL}(q \| p)\)
GNC 消息传递: 在掩码邻接矩阵 \(A_i^* = Z_i \odot A_i\) 上做图神经通信
多特征输入: 邻居状态+轨迹+策略特征三类信息

损失函数 / 训练策略¶

Actor-Critic + ELBO 联合优化
KL 正则化促进稀疏图（只保留有用的边）

实验关键数据¶

主实验（自适应交通信号控制 ATSC）¶

环境	BayesG	NeurComm	CommNet	提升
Grid 5×5	~-15	~-20	~-30	+25%
NewYork 167 agent	~-30	~-45	~-60	+50%

消融实验¶

配置	效果
无掩码	baseline 性能
随机掩码	严重退化
学习掩码	最优
轨迹+状态+策略	最佳特征组合

关键发现¶

学习图结构比固定图显著好——尤其在大规模场景（167 agent）
随机掩码反而有害，证明结构学习的必要性
更快收敛（早期训练阶段就显著领先）

亮点与洞察¶

贝叶斯处理不确定性很自然：不确定哪个邻居有用时，概率采样比硬选择更鲁棒
KL 正则化自动实现稀疏：不需要手动设定通信预算

局限与展望¶

未分析学习图结构随时间的演化
仅测试到 167 agent
固定通信间隔

评分¶

新颖性: ⭐⭐⭐⭐ 贝叶斯图推断+MARL的自然结合
实验充分度: ⭐⭐⭐⭐ 5 环境 + 消融
写作质量: ⭐⭐⭐⭐ 方法清晰
价值: ⭐⭐⭐⭐ 分布式多智能体系统实用方案
交互结构应该是动态的而非预定义的——贝叶斯推断让agent自适应选择交互对象
在167agent交通控制中超越全连接和固定图方法，学到的稀疏图更高效
该方法的核心创新在于设计思路的简洁性和有效性
实验结果充分验证了核心假设