On the Expressive Power of GNNs to Solve Linear SDPs¶

会议: ICML 2026
arXiv: 2604.27786
代码: 未公开
领域: 优化 / 图神经网络 / 学习优化
关键词: 半定规划, GNN 表达力, Weisfeiler-Leman, PDHG, warm-start

一句话总结¶

本文从 Weisfeiler–Leman 层级的角度首次刻画了学习线性 SDP 解所需的最小 GNN 表达力，证明标准的变量-约束二部图消息传递（VC-WL）和高阶 VC-2-WL 都不够，而 2-FWL 等价的 VC-2-FWL 架构足以仿真 PDHG 求解器的更新步骤，并在合成与 SDPLIB 上把高质量预测用作 warm-start，最多带来约 80% 的加速。

研究背景与动机¶

领域现状：把线性规划（LP）和混合整数规划（MILP）用 GNN 学习求解（learning-to-optimize, L2O）已经相当成熟，主流做法是把约束-变量构造为二部图，再用 1-WL 等价的消息传递（如 Gasse 等人的 IPM/PDHG 对齐 GNN），在中小规模问题上能逼近最优解或显著加速 IPM。

现有痛点：把同一思路直接搬到 半定规划（SDP） 上失败了。SDP 的核心变量不是向量分量，而是一整个对称半正定矩阵 \(X \in S^n_+\)，其条目 \(X_{ij}\) 在"行列同时置换"下等变；传统 V-C 二部图根本没法表达这种 2-阶对称性，导致 GNN 无论训练多久都拟不上最优解。

核心矛盾：现有 L2O 文献只研究了 LP/QP/SOCP 的表达力门槛（多数 1-WL 就够），但 SDP 的"约束-变量-条目"是三阶张量结构，需要哪一层 WL 才足以恢复最优解至今没有答案，这直接卡住了"神经 SDP 求解器"的方向。

本文目标：1) 形式化 SDP 实例到最优矩阵解 \(X^*\) 的映射所需的最小表达力；2) 证明标准 GNN 类架构的不可能性；3) 给出充分性架构并实验验证；4) 把预测用作经典求解器 warm-start。

切入角度：将 SDP 写成约束矩阵 \(A_k\)、目标矩阵 \(C\) 与变量矩阵 \(X\) 共同构成的"超图"，把 1-WL/2-WL/2-FWL 的 hash 更新原样套到这个张量图上，分别构造 VC-WL、VC-2-WL、VC-2-FWL，然后通过模拟一阶求解器 PDHG 来证明充分性——只要 GNN 能仿真求解器一步迭代，就一定能逼近收敛解。

核心 idea：用 2-FWL 等价的"成对节点联合聚合"取代标准消息传递，使 GNN 的稳定着色细于 PDHG 迭代下的轨迹划分，从而获得表达力上的充分条件。

方法详解¶

整体框架¶

输入是 SDP 实例 \((C, \{A_k\}_{k=1}^m, \{b_k\}_{k=1}^m)\)。作者把它编码成一张双类型节点的图：变量节点对应矩阵 \(X\) 的条目 \((i,j) \in [n]\times[n]\)，约束节点对应每个 \(A_k\)；变量节点之间的"二阶交互"通过 \(A_{k,ij}\) 加权。模型经 \(T\) 轮置换等变的消息传递后，把变量嵌入解码出预测矩阵 \(\hat X\)，与最小 Frobenius 范数最优解 \(X^*\)（命题 1.1 证明唯一）做监督。最后把 \(\hat X\) 作为 PDHG 求解器的 warm-start 初始点，加速收敛。

关键设计¶

不可能性结果（VC-WL / VC-2-WL 都不够）:
- 功能：界定"哪些 GNN 一定学不会 SDP"。
- 核心思路：作者构造一族结构同构但最优解不同的 SDP 实例，证明 1-WL 等价的 VC-WL 在稳定着色后给出相同节点表示，因此任何基于它的 GNN 必给出相同输出，从而无法区分不同最优解。把分析推广到 VC-2-WL（标准 2-WL 的变种）后结论依然成立。
- 设计动机：把 GNN 表达力研究中常用的"WL 同色 \(\Rightarrow\) GNN 同输出"经典论证迁移到 SDP 设定，给出一个清晰的下界，警告后续工作不要再在 1-WL 类架构上浪费算力。
充分性架构 VC-2-FWL（仿真 PDHG）:
- 功能：给出一个能学会线性 SDP 最优解的可实现架构。
- 核心思路：颜色赋给节点对 \((u,v)\in V^2\)，更新规则用 folklore 2-FWL：\(c^t_{uv} := \text{hash}(c^{t-1}_{uv}, \{\!\{(c^{t-1}_{wv}, c^{t-1}_{uw}) \mid w\in V\}\!\})\)。关键证明是把 PDHG 的一步迭代（包含矩阵-矩阵乘积、PSD 投影中的特征分解结构信息）显式映射为 VC-2-FWL 的若干 hash 步骤——只要嵌入维度足够，对偶变量和原变量的更新都能精确仿真。这意味着 VC-2-FWL 的稳定着色细于 PDHG 收敛轨迹的状态划分，从而具备拟合最优解的能力。
- 设计动机：直接证"能逼近最优解"很难；改证"能仿真一个已知收敛到最优解的求解器"是 L2O 的标准技巧（Qian et al. IPM 工作的 SDP 版）。这让 VC-2-FWL 成为目前已知最弱的能解 SDP 的 GNN 架构。
Warm-start 集成:
- 功能：把学到的预测 \(\hat X\) 真正变成实用加速。
- 核心思路：训练后用 \(\hat X\) 作为 PDHG 的初始点 \(X^{(0)}\)，让经典求解器从离最优更近的位置出发，剩余的优化负担由 PDHG 来收敛精度。这避免了"GNN 输出未必严格可行"的部署难点：可行性和最优性由 PDHG 保证，GNN 只需提供好的起点。
- 设计动机：纯神经求解器在精度要求高的科学计算场景没法用；warm-start 是把 ML 与传统优化结合的最稳妥范式，能把表达力上的 \(\hat X \approx X^*\) 折合成"实际墙钟时间减少"的工程收益。

损失函数 / 训练策略¶

监督目标是预测矩阵与最小 Frobenius 范数最优解的 Frobenius 误差 \(\|\hat X - X^*\|_F\)，外加目标差距 \(|\langle C, \hat X\rangle - \langle C, X^*\rangle|\) 作为辅助指标。训练数据是合成 SDP 实例（覆盖随机生成的对称矩阵族）和 SDPLIB 中各类 SDP（如 max-cut 松弛、\(\theta\)-函数等）。

实验关键数据¶

主实验¶

在合成 SDP 与 SDPLIB 多类基准上，VC-2-FWL 架构在预测误差、目标差距两项上一致优于 VC-WL、VC-2-WL 等理论上更弱的基线。

设置	指标	VC-WL	VC-2-WL	VC-2-FWL
合成 SDP	\(\\|\hat X - X^*\\|_F\)	最高	中等	最低
SDPLIB	目标差距	最大	中等	最小
Warm-start PDHG	收敛时间减少	几乎无	一般	最多 80%

消融实验¶

配置	关键现象	说明
VC-WL（1-WL 等价）	拟合误差最高，部分实例完全无法区分	印证不可能性定理
VC-2-WL（2-WL 等价）	优于 VC-WL，但仍偏离最优	标准 2-WL 不够
VC-2-FWL（2-FWL 等价）	误差最低，目标差距最小	满足充分性
仅冷启动 PDHG	基线收敛时间	对照
VC-2-FWL warm-start	收敛时间减少最高约 80%	表达力 → 实用加速

关键发现¶

表达力层级与"实际拟合质量"严格对齐：VC-WL ⊏ VC-2-WL ⊏ VC-2-FWL 的理论关系在合成与真实基准上都翻译为预测误差的严格递减。
把"GNN 误差降一点"转成"求解器迭代少一截"的杠杆效应明显——只要预测落到最优解的吸引盆内，PDHG 的剩余迭代数会大幅减少。
错误模式分析显示 VC-WL 主要在"高度对称的约束矩阵族"上失败，正是 1-WL 区分能力的经典盲区，与理论预测一致。

亮点与洞察¶

首个 SDP-GNN 表达力刻画：把 LP/QP 上成熟的"WL 层级即 GNN 表达力"框架推广到 SDP，填补了 L2O 理论的一大空白；这套分析模板可以直接迁移到 SOCP 之外的更广凸锥规划。
"仿真求解器即获得表达力"的范式漂亮：不是直接证 \(\hat X\) 收敛，而是证 GNN 能模拟 PDHG 一步——这把"逼近最优解"问题转换为"模拟离散动力系统"问题，更易处理。
理论指导架构的典型案例：当未来有人想训神经 SDP 求解器，可以直接跳过 1-WL/2-WL 失败的"踩坑期"，从 2-FWL 等价架构起步。
有限门槛上界：证明 VC-2-FWL “足以”不代表“必要”，但不可能性结果隐含 1-WL/2-WL 不够，这里面的 gap （3-WL？3-FWL？）留下后续可探究的机会。

局限与展望¶

实验主要集中在合成数据和中等规模 SDPLIB，实际超大规模 SDP（如组合优化松弛中 \(n>10^4\)）下 VC-2-FWL 的内存成本（节点对数量 \(O(n^2)\)）很快爆炸，尚未给出可扩展实现。
充分性证明仅针对"线性 SDP + 唯一最小范数最优解"，对解集非唯一、退化解、半无限 SDP 等情形并未覆盖。
Warm-start 收益依赖 PDHG 作为下游求解器；与 IPM、ADMM 等更精确求解器的兼容性还需验证。
未来方向：稀疏化或子图采样使 VC-2-FWL 可扩展、把分析推广到二阶锥/混合整数 SDP、与现代低秩 SDP 算法结合。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把 SDP 解恢复挂到 WL 层级上的工作。
实验充分度: ⭐⭐⭐⭐ 合成 + SDPLIB 都覆盖，但缺超大规模与多求解器对比。
写作质量: ⭐⭐⭐⭐ 理论部分清晰，warm-start 工程实验细节可再充实。
价值: ⭐⭐⭐⭐ 对"神经凸优化"理论社区有标杆意义，工业落地仍需扩展。