Causality Meets Locality: Provably Generalizable and Scalable Policy Learning for Networked Systems¶

会议: NeurIPS 2025
arXiv: 2510.21427
代码: 待确认
领域: 自动驾驶
关键词: 网络MARL, 因果掩码, 近似紧凑表示ACR, 域泛化, 元学习Actor-Critic

一句话总结¶

提出 GSAC 框架，将因果表示学习与元 Actor-Critic 结合，通过从网络 MARL 中学习稀疏因果掩码构建近似紧凑表示 (ACR) 实现可扩展性，通过域因子条件化策略实现跨域泛化，给出了因果恢复、收敛和自适应间隙的有限样本保证。

研究背景与动机¶

领域现状：大规模网络系统（交通网络、电力网格、无线通信）中的 MARL 面临两个根本困难：可扩展性（联合状态-动作空间随智能体数指数增长）和可泛化性（训练与部署环境不同）。现有网络 MARL 工作（Qu 2022 等）利用局部交互实现可扩展，但假设固定环境。

现有痛点： - 可扩展性方面：即使利用 \(\kappa\)-hop 截断，当节点度数或 \(\kappa\) 较大时输入维度仍然很高 - 泛化性方面：单智能体域泛化 RL 有研究，但多智能体网络系统中同时实现可扩展和可泛化是 open problem - 没有工作为网络 MARL 中的结构可识别性提供样本复杂度保证

核心矛盾：网络系统需要同时解决规模（\(n\) 个智能体，指数级状态空间）和泛化（环境参数 \(\omega\) 在训练与测试间变化）——目前没有框架能同时保证两者。

本文目标：设计首个同时可证明可扩展和可泛化的网络 MARL 算法。

切入角度：因果结构是跨域不变的，只有域因子 \(\omega\) 变化。通过因果掩码识别每个智能体状态转移的最小依赖变量集，构建紧凑表示同时降维（可扩展）和隔离域因子（可泛化）。

核心 idea：用因果掩码识别最小邻域依赖构建近似紧凑表示（ACR），在此基础上用元 Actor-Critic 跨域训练策略并快速适应新环境。

方法详解¶

整体框架¶

GSAC 四阶段流水线：(1) 因果发现 + 域因子估计 → (2) 构建 ACR → (3) 元学习 Actor-Critic 跨源域训练 → (4) 在目标域快速适应。

关键设计¶

近似紧凑表示 (ACR)：
- 功能：从 \(\kappa\)-hop 邻域状态中识别真正影响价值函数的最小变量子集
- 核心思路：利用因果掩码 \(\mathbf{c}\) 递归追溯：从智能体 \(i\) 的奖励 \(r_i\) 出发，找到直接影响 \(r_i\) 的状态变量；再向前一步找到影响这些变量的下一步状态；递归 \(\kappa\) 步得到 \(\mathbf{s}_{\mathcal{N}_i^\kappa}^\circ \subset \mathbf{s}_{\mathcal{N}_i^\kappa}\)
- 近似误差：\(|\tilde{Q}_i^{\tilde{\pi}} - Q_i^\pi| \leq \frac{3\bar{r}}{1-\gamma}\gamma^{\kappa+1}\)，即误差仍以 \(\kappa\) 指数衰减
- 设计动机：标准截断已经将全局状态降到 \(\kappa\)-hop 邻域，ACR 进一步利用因果稀疏性在邻域内降维，\(|\mathbf{s}^\circ| \ll |\mathbf{s}_{\mathcal{N}_i^\kappa}|\)
域因子 ACR：
- 功能：对域因子 \(\omega\) 同样构建紧凑表示 \(\omega^\circ\)
- 核心思路：与状态 ACR 类似，追溯因果掩码中 \(\omega\) 到奖励的依赖路径
- 关键推论：域泛化时只需估计紧凑域因子 \(\omega^\circ\) 而非完整 \(\omega\)
元 Actor-Critic 学习：
- 功能：跨 \(M\) 个源域训练共享策略 \(\pi_i^{\theta_i}(\cdot | \mathbf{s}_{\mathcal{N}_i}^\circ, \omega_{\mathcal{N}_i}^\circ)\)
- Critic 更新：对每个源域做 TD 学习，在 ACR 输入空间上估计 \(\hat{Q}_i\)
- Actor 更新：聚合 \(\kappa\)-hop 邻域内所有智能体的 Q 值，用策略梯度更新参数
快速适应（Phase 4）：
- 功能：在新域中收集少量轨迹，估计域因子 \(\hat{\omega}^{M+1}\)，直接部署元策略
- 关键定理（Thm 4）：适应间隙以 \(O(1/\sqrt{T_a})\) 衰减

理论保证¶

定理	内容	速率
Thm 1	因果掩码结构可识别	-
Prop 4	因果恢复样本复杂度	\(O(d \cdot d_{\max} \log(dn/\delta) / \lambda^2)\)
Prop 5	域因子估计误差	\(O(\sqrt{D_\Omega \log(nT_e/\delta)/T_e})\)
Thm 2	Critic 误差界	\(O(1/\sqrt{T} + \rho^{\kappa+1} + 1/\sqrt{T_e})\)
Thm 3	策略梯度收敛	\(O(1/\sqrt{K} + \rho^{\kappa+1} + 1/\sqrt{T_e} + 1/\sqrt{M})\)
Thm 4	适应间隙	\(O(1/\sqrt{T_a})\)

实验关键数据¶

主实验：无线通信网络¶

方法	Grid 3×3	Grid 4×4	Grid 5×5
GSAC (ours)	最高回报 + 最快适应	最高	最高
SAC-MTL	中等，慢适应	中等	中等
SAC-FT	初期差，需微调	差	差
SAC-LFS	最慢收敛	最差	最差

关键发现¶

GSAC 在 1-30 episodes 内快速适应：仅需少量目标域轨迹即可部署，远快于微调和从头训练
规模可扩展：从 16 到 36 个智能体，GSAC 保持稳定的高性能
ACR 显著降低维度：有效输入维度远小于 \(\kappa\)-hop 邻域的完整维度
域因子估计高效：\(T_e = 20\) 条轨迹即可准确估计域因子

亮点与洞察¶

首个同时可证可扩展和可泛化的网络 MARL 算法：填补了该领域的理论空白
ACR 的双重价值：同一个因果掩码识别工具同时服务于可扩展性（降维）和可泛化性（隔离域因子），设计非常统一优雅
完整的理论链条：从因果识别 → ACR 近似误差 → Critic 收敛 → Actor 收敛 → 适应间隙，每一步都有有限样本保证
因果结构作为跨域不变量：这个洞察使得因果表示学习不只是可解释性工具，而是泛化的核心机制

局限与展望¶

仅限表格式、完全可观察设置：当前实验和理论都假设离散有限状态空间和完全可观察
因果发现假设的强度：faithfulness 假设和最小互信息假设在实际系统中可能不完全成立
实验规模中等：最大 36 个智能体，更大规模（数百个智能体）的验证缺失
域因子需独立估计：假设域因子是外生给定或可从少量数据估计的，对持续变化的非稳态环境可能需要在线更新

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次在网络 MARL 中统一因果表示学习和域泛化，理论贡献重大
实验充分度: ⭐⭐⭐ 理论充分但实验仅限两个表格式基准，实际应用验证不足