Sheaf-ADMM: Learning Multi-Agent Coordination via Sheaf-ADMM¶
会议: ICML 2026
arXiv: 2605.31005
代码: 待确认
领域: 多智能体 / 可微优化 / 几何深度学习
关键词: ADMM 展开, cellular sheaf, 多智能体一致, sheaf Laplacian, 局部视图融合
一句话总结¶
Sheaf-ADMM 把多智能体协调问题做成端到端可微的 ADMM 展开——每个 agent 只看局部 patch,独立解 ADMM 子问题(\(\bm x\)-update)、通过 cellular sheaf 定义的"边空间投影"协商一致(\(\bm z\)-update)、用对偶变量 \(\bm u\) 累积分歧;在 maze pathfinding / MNIST / Sudoku 上 agents 协同得出正确全局解,且推理路径有可分析的 primal/consensus/dual 三态——比 MPNN 更可干预。
研究背景与动机¶
领域现状:标准神经架构是 monolithic——一个大网络处理整个输入;但自然界智能多是 collective——一群只看局部的 agents 协同解全局任务(蚁群、神经元集群等)。已有相关架构包括 sheaf neural networks(Bodnar 2022)、neural cellular automata(Mordvintsev 2020)、recurrent MPNN(Gilmer 2017)。
现有痛点:(1)MPNN 风格架构每个 agent 只有单一 hidden state,混了"本地决定"和"对外协商"两件事;(2)消息传递是任意学习的非线性函数,行为不可解释;(3)通常要求 agents 在整个状态向量上一致,过于刚性(adjacent maze 区只需 boundary 一致,不需内部一致);(4)已有 sheaf-constrained ADMM(Hanks 2025b)用固定手工 sheaf 处理多智能体线性控制,没做可微学习。
核心矛盾:要让一群"信息不全"的 agents 真正协同解全局任务,需要(a)明确分离本地决策和全局协商;(b)灵活的"局部一致"语义(不同 agent 对不同方面一致);(c)端到端可学习;现有架构都做不到三者兼得。
本文目标:(1)端到端可微的多智能体协调框架;(2)用 cellular sheaf 定义"哪些方面要一致"的灵活语义;(3)每个 agent 维护 primal/consensus/dual 三态保可解释性;(4)在标准 DL 任务上验证。
切入角度:复用 ADMM 的天然分解结构——consensus form ADMM 把全局问题拆成 N 个 agent 的局部子问题 + consensus 投影;用 cellular sheaf 替代"全状态一致"约束,让 agents 只在 edge stalk(边空间)上投影后才需一致——这是个数学上严格、几何上直观的"灵活一致"语义。
核心 idea:unrolled ADMM + learnable cellular sheaf——每 agent 解 \(\bm x\)-update(神经编码器参数化的凸子问题)→ sheaf-Laplacian 扩散做 \(\bm z\)-update(投影到 ker(\(\bm F\)))→ \(\bm u\)-update 累积分歧;全管线可微,端到端反传。
方法详解¶
整体框架¶
输入 \(\bm D \in \mathbb{R}^{H \times W \times C_{in}}\) 分成 \(N\) 个重叠 patch(agents); 1. 编码:每 patch \(\bm d_i\) 经共享 encoder 出 \(\bm Q_i, \bm q_i\) 参数化 agent \(i\) 的凸子问题 2. ADMM 展开 \(K\) 步: - \(\bm x\)-update:agent \(i\) 解 \(\arg\min_{\bm x_i} \tfrac{1}{2}\bm x_i^\top \bm Q_i \bm x_i + \bm q_i^\top \bm x_i + \tfrac{\rho}{2}\|\bm x_i - \bm z_i + \bm u_i\|^2\)(闭式) - \(\bm z\)-update:sheaf-Laplacian 扩散 \(\bm z^{t+1} = \bm z^t - \eta \bm L_\mathcal{F} \bm z^t\) 投影到 ker(\(\bm F\)) - \(\bm u\)-update:\(\bm u^{k+1} = \bm u^k + \bm x^{k+1} - \bm z^{k+1}\) 3. 解码:最终 \(\bm x\) + 本地 patch 经 decoder 得本地预测,聚合成全局输出
关键设计¶
-
三态分离(primal \(\bm x\) / consensus \(\bm z\) / dual \(\bm u\)):
- 功能:清晰区分 agent 的本地决策、协商目标、历史分歧
- 核心思路:\(\bm x_i\) 是 agent 的本地最优解(受 augmented Lagrangian 牵引向 \(\bm z - \bm u\))、\(\bm z_i\) 是当前 consensus 目标(满足 sheaf 约束)、\(\bm u_i\) 累积过去分歧;augmented Lagrangian 项 \(\|\bm x - \bm z + \bm u\|^2\) 把这三者联系起来
- 设计动机:MPNN 等架构混所有信息到单一 hidden state,相当于把"我想什么、我们达成什么、我们曾分歧什么"全压一起;ADMM 分开三态让推理动力学可分析(可单独可视化 \(\bm z\) 看 consensus 收敛、看 \(\bm u\) 看冲突区)
-
Cellular Sheaf 定义灵活一致语义:
- 功能:让 agents 只在低维 edge stalk 上一致,不要求全状态一致
- 核心思路:每条边 \(e = (i, j)\) 有 edge stalk \(\mathbb{R}^{d_e}\)(\(d_e < d_v\));restriction maps \(\bm F_{i \to e}, \bm F_{j \to e} \in \mathbb{R}^{d_e \times d_v}\) 把 agent 状态投到 edge stalk;全局一致 = \(\bm F_{i \to e} \bm x_i = \bm F_{j \to e} \bm x_j\);定义 sheaf Laplacian \(\bm L_\mathcal{F} = \bm F^\top \bm F\),\(\bm x^\top \bm L_\mathcal{F} \bm x = \sum_e \|\bm F_{i \to e} \bm x_i - \bm F_{j \to e} \bm x_j\|^2\) 度量总分歧
- 设计动机:adjacent maze 区只需 boundary 一致,不需内部一致——硬要求全一致浪费容量;sheaf 让一致只发生在"任务真正要求一致的低维子空间";restriction maps 学到的是"哪些方面我们要同意"
-
Unrolled ADMM + Inexact \(\bm z\)-update:
- 功能:把 ADMM 当做一个可微的递归层,端到端学
- 核心思路:固定 \(K\) 步 ADMM,每步 \(\bm z\)-update 用少数几步 sheaf-Laplacian 扩散(inexact),整体反传;扩散的不完全求解相当于 smoother——快速去高频局部分歧、保留低频全局结构
- 设计动机:sparse 大型系统中 \(\bm L_\mathcal{F}\) 条件数大,完美收敛太贵;少步扩散够把高频对齐;这种"少步消高频"的 inductive bias 是 ADMM 在多智能体的特殊优势
实验关键数据¶
Sudoku(核心 reasoning task)¶
| 方法 | 解题率 | 参数量 |
|---|---|---|
| MPNN(参数匹配) | 32% | ~500K |
| Recurrent Transformer | 41% | ~500K |
| Sheaf-ADMM | 78% | ~500K |
Sudoku 这种全局逻辑约束任务上 Sheaf-ADMM 显著超 MPNN——因为 sheaf 的局部一致约束天然匹配 Sudoku 的行/列/宫约束结构。
Maze Pathfinding¶
| 难度 | MPNN | Sheaf-ADMM |
|---|---|---|
| 8×8 | 89% | 96% |
| 16×16 | 67% | 88% |
| 32×32 | 23% | 64% |
随迷宫增大 MPNN 退化更快,Sheaf-ADMM 因 ADMM 的全局收敛性质泛化更好。
MNIST 鲁棒性(关键发现)¶
| Test 分布 | CNN baseline | Sheaf-ADMM |
|---|---|---|
| Standard MNIST | 99.1 | 98.8 |
| Rotated MNIST | 73.2 | 89.4 |
| Translated MNIST | 81.7 | 93.1 |
| Noisy MNIST | 85.5 | 91.8 |
干净测试上略弱(−0.3),但分布偏移下显著鲁棒(+15+ on rotation)——证明 local-view decomposition + sheaf consensus 提供了更强的归纳偏置
可解释性(ADMM 三态)¶
论文 Figure 3 展示在 maze 任务上: - \(\bm x\)(primal):早期每 agent 独立提议本地路径 - \(\bm z\)(consensus):通过 ADMM 迭代汇成全局连贯路径 - \(\bm u\)(dual):标识"曾经分歧大"的区域——常是迷宫拐点
这种可视化在 MPNN 上完全做不到(只有一个 hidden state)。
关键发现¶
- 任务越需要全局协调,Sheaf-ADMM 优势越大:Sudoku(强约束 +46%)> Maze 32×32(+41%)> MNIST clean(−0.3);说明 framework 对真协调任务才有大收益
- 分布偏移鲁棒性是天然 byproduct:local-view decomposition 让模型不依赖全局位置先验,泛化到 rotation/translation
- inexact ADMM 够用:少步扩散就够把高频分歧消掉,不需要完美收敛——大幅省算力
- sheaf 学到的 restriction maps 可解释:可视化展示 agents 学到"在哪些维度上协商"
亮点与洞察¶
- 三态分离 + sheaf 一致是真正全新的归纳偏置:以往 MPNN 把所有信息混一起 + 全状态一致是个粗略 prior;本文把"我决定、我们一致、我们曾分歧"清晰分开 + 用 sheaf 形式化"哪些方面一致"——这套结构性 prior 比 MPNN 自由度小但匹配真协调任务的结构
- Optimization-derived 更新 vs 任意学习更新:sheaf-Laplacian 扩散和 ADMM proximal 更新都是 optimization 推出的,不是任意学习函数;这给出了"为什么这样更新"的数学解释,可分析、可干预
- 可解释性 + 可干预性:训练完可对 \(\bm x, \bm z, \bm u\) 单独可视化和扰动——MPNN 完全没这种可分析性,对 safety-critical 多智能体应用有意义
- Sheaf 作为通用 framework:cellular sheaf 远比图 Laplacian 灵活,可以表达异构一致语义;本文展示了把 sheaf 用到 DL coordination 的完整 pipeline
局限性 / 可改进方向¶
- ADMM 展开层数 \(K\) 固定,对不同难度样本不自适应——可考虑自适应迭代或 early termination
- sparse 大型系统下 \(\bm L_\mathcal{F}\) 条件数仍是问题,少步扩散是 workaround;可考虑 preconditioning
- restriction maps 全局共享,对极异构 agents(如不同模态混合)可能不够
- 仅在结构化预测任务(grid-organized agents)验证;任意图拓扑的扩展和效果未充分测试
- 训练成本——unrolled \(K\) 步会让 backward 内存膨胀;implicit differentiation 可能是更好选择但需重新设计
相关工作与启发¶
- vs MPNN / GNN:MPNN 用任意学习消息函数,行为不可解;Sheaf-ADMM 用 optimization-derived 更新,三态分离
- vs Sheaf Neural Networks (Bodnar 2022):那个用 sheaf Laplacian 做 diffusion-based message passing;Sheaf-ADMM 进一步用 sheaf 约束 ADMM 的 consensus,且有 primal-dual 结构
- vs Hanks 2025b:那个用固定手工 sheaf 做多智能体线性控制;本文学 sheaf + 任意凸子问题,端到端可微
- vs Neural Cellular Automata:NCA 用任意学习更新做 emergence;Sheaf-ADMM 用 optimization 结构保证收敛
- 启发:把任何"分布式优化算法"通过 unrolling 变成可微神经层是个 fertile direction;ADMM、PGD、Frank-Wolfe 等都可这样做
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 端到端学习的 sheaf-constrained ADMM 是真正全新的多智能体协调架构
- 实验充分度: ⭐⭐⭐⭐ Sudoku + Maze + MNIST 鲁棒性覆盖了 reasoning 和 classification,但场景仍偏 grid 结构
- 写作质量: ⭐⭐⭐⭐⭐ 数学严谨(sheaf + ADMM 完整推导),Figure 1/2/3 直观;三态分离的可解释性论证清晰
- 价值: ⭐⭐⭐⭐ 对多智能体 RL、机器人协同、分布式推理都有理论和实践启发;可解释性对 safety-critical 应用有意义