跳转至

How hard is learning to cut? Trade-offs and sample complexity

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=pc3ZW7lmaV
代码: 未公开
领域: learning_theory
关键词: 学习理论, 样本复杂度, 学习割平面, 分支定界, 整数规划, Chvátal-Gomory cut, VC 维, fat-shattering 维

一句话总结

本文为"学习割平面(learning-to-cut)"任务首次给出样本复杂度的下界,证明无论用 B&C 树规模还是 gap closed 作为评分函数,学习一个把实例映射到割平面的函数类,所需样本量都至少等于(在常数倍意义下)用同一函数类去拟合一个一般目标函数的样本量;下界与已知上界几乎吻合,说明两个评分在可学习性上难度相当,进而用 GNN 实验佐证 gap closed 是逼近 tree size 的好代理。

研究背景与动机

领域现状:分支定界(branch-and-cut, B&C)是整数规划(ILP/MILP)求解器的基石,其中"选哪个割平面(cut)加入当前 LP 松弛"是一个关键决策。近年大量工作用机器学习(模仿学习、强化学习、神经网络打分)替代手工启发式来做 cut selection。评价一个割好坏有两种主流评分函数:(i) B&C 树规模——加入割后树的相对缩小量,最贴近真实运行时间(约等于求解的 LP 个数),但要把问题解到最优才能评估,极其昂贵;(ii) gap closed——加入割后 LP 松弛目标值的相对改善量,只需解一个 LP,便宜很多,被整数规划界长期使用,常被当作 tree size 的代理。

现有痛点:学习方法绕不开的一个根本问题是"要多少训练样本才能在整个(且未知的)实例分布上泛化",即样本复杂度。但已有理论(Balcan et al. 2021、Cheng et al. 2024)只给了特定算法(受限概念类,如固定 CG 权重或神经网络生成 CG 权重)的上界,且都是针对 tree size 评分;从来没有人给出下界,也没人把两个评分放在一起做原则性比较。

核心矛盾:gap closed 虽是 tree size 的"代理",但两者其实很难正面比较——一个割可能大幅缩小树却根本不切掉 LP 最优分数解,反之一个切掉分数解的割可能对树规模毫无长期帮助(论文给了 \(\max 5x_1+8x_2\) 的反例)。那么这个代理到底有多好?两个评分谁更难学?如果某个评分天生更难学,就会影响学习算法设计与评价标准的选择。

本文目标:(1) 理论上给出对一大类函数类(含神经网络、图神经网络)都成立的样本复杂度下界,并与已知上界对比判断紧度;(2) 实践上验证 gap closed 是否真能作为 tree size 的可行代理。

核心 idea把"学习割平面"归约到"学习一般目标函数"——通过对概念类施加平移/缩放不变性假设,证明割学习问题的 fat-shattering / VC 维不会低于底层函数类拟合任意目标的难度,从而下界由概念类自身的复杂度(如神经网络的 \(WL\log(W/L)\))决定,且对两个评分函数都成立。

方法详解

整体框架

论文是"理论下界 + 实验佐证"双线结构。理论线把 learning-to-cut 形式化为一个监督回归问题:学一个函数 \(f\in F\) 把 ILP 实例 \(I\) 映射到一组 CG 割权重,目标最小化 \(\mathbb{E}_{(I,s)\sim D}[(h(I,f(I))-s)^2]\),其中 \(s\) 是该实例"最佳割"的评分标签。借助 Anthony & Bartlett 的 fat-shattering 下界定理(注意:传统 VC 下界只约束一致收敛 UC,不一定反映真实学习样本复杂度,所以必须按概念类小心分析),通过两条结构性假设把割学习的可打散能力下放到底层函数类,得到与上界几乎匹配的下界;实验线则训练一个 GNN 在 Simplex tableau 割上分别用两种评分打分,看 gap closed 训练出的模型能否在 tree size 上同样有效。

关键设计

1. 把割学习形式化为监督回归,并区分于已有的无监督上界设定:学习目标是公式 \(\min_{f\in F}\mathbb{E}_{(I,s)\sim D}[(h(I,f(I))-s)^2]\),标签 \(s\) 与实例 \(I\) 联合采样而非确定性函数。论文专门论证(Remark 2.1)这个监督设定的合理性:一是真实 B&C 树规模本身带随机性(求解器 tie-breaking 导致的 performance variability),评分天然服从条件分布;二是即便标签确定但属于足够复杂的函数族,fat-shattering 论证依然成立。这与 Cheng et al. (2024) 纯由评分函数驱动、不看标签的无监督上界设定不同——这一区分是后续上下界能否对齐比较的前提。

2. 两条结构假设把"割学习难度"归约到"底层函数类难度":这是下界推导的技术核心。假设 1(平移与缩放封闭)要求 \(F\) 对输入平移、对输出每个坐标缩放保持封闭——神经网络/图神经网络对任意非恒零激活都满足。假设 2(按行限制保持打散能力)要求把 \(f\) 限制到只看 \(n\) 个变量输入时,每个坐标分量 \(F_i[n]\) 的 VC 维是常数,记为 \(\mathrm{VCdim}(F[n])\)。在此之上引入一个"挤压函数" \(\sigma'\) 把网络输出压到 \([0,1]^m\) 当作 CG 权重,构造最终概念类 \(F_{s,\sigma'}:=\{I\mapsto s(I,h(I)):h\in F_{\sigma'}\}\)Theorem 3.2 由此得到核心下界:对 gap-closed 和 tree size 两种评分,\(m_L(\epsilon,\delta)=\Omega\!\left(\frac{\mathrm{VCdim}(F[n])}{\epsilon}\right)\)Corollary 3.3 进一步说明这个下界恰好等于"用 \(F_n\) 去学一个一般目标函数"的样本复杂度——即学割不比学任意函数更容易,且两评分难度同阶。

3. 神经网络实例化下界并与上界对齐判定紧度:把上述抽象下界落到具体 ReLU 网络(\(\le L\) 层、\(\le W\) 权重、concatenation 编码 \(I\mapsto(A,b,c)\))。Proposition 3.4 给出 \(m_L(\epsilon,\delta)\ge \frac{1}{\epsilon C}\,\overline{W}L\log(\overline{W}/L)\),其中 \(\overline{W}=W-w_1(n+1)m\) 是扣掉被忽略的 \((n+1)m\) 个输入后剩余的权重数。对比 Cheng et al. (2024) 的上界 \(O\!\left(\frac{1}{\epsilon^2}(LW\log(U+m)+W\log M)\right)\),在网络权重远大于 \(n,m\) 的 regime 下,上下界只差 \(1/\epsilon\) 量级(忽略 \(\log\) 因子),这一 gap 在一般学习框架里本就不可避免——说明下界近乎紧。值得注意下界不依赖输入数据幅度 \(M\)。下界中 \(W>CL\) 的结构假设并非来自本文证明技术,而是继承自 Bartlett et al. (2019) 用 bit-extraction 给神经网络 VC 维下界时的限制。

4. 推广到 Simplex tableau 割的受限割池:实际求解器只从最优单纯形表(tableau)读取 CG 割(Gomory 把 \(u\) 取为基的逆),而非所有 CG 割。论文把概念类改写为"先用 simplex 算出 \(m\) 个 tableau 割 \((a_i,b_i)\),再用 \(g\in G\) 给每个割打分并取最大者"的复合形式 \(\tilde G\)Theorem 3.6 证明即便割池受限,样本复杂度仍由底层 VC 维驱动:\(m_L(\epsilon,\delta)=\Omega(\mathrm{VCdim}(G[n])/\epsilon)\)Proposition 3.7 给出对应神经网络下界 \(\frac{1}{\epsilon C}\overline{W}L\log(\overline{W}/L)\)(此时 \(\overline{W}=W-w_1(n+1)(m+1)\)),与上界 \(O(WL\log(Um)/\epsilon^2)\) 对比同样近乎紧。这保证理论结论在贴近实际求解器的设定下依然成立。

实验关键数据

实验用 GNN 把 (ILP 实例, 割) 对编码为带三维点特征的加权二部图(变量点 + 约束点),在 Simplex 最优 tableau 割上训练打分模型来引导 cut selection,比较"用 tree size 训练" vs "用 gap closed 训练"。数据集为 Set Cover、Facility Location、Knapsack、Vertex Cover 四类经典 ILP(各 1000 个实例随机生成),用 Gurobi 12.0.1(关掉默认割/启发式/presolve)求解,250 个测试实例上报平均树规模。

主实验表格(部分结果:250 测试实例上的平均 B&C 树规模,越小越好)

Set Cover

策略 B&C tree 训练 gap closed 训练
Optimal(完美预测器) 4.95
Parallelism 8.29
Efficacy 9.90
Mix 9.30
Random 9.71
GNN 8.27 8.65

Facility Location

策略 B&C tree 训练 gap closed 训练
Optimal(完美预测器) 86.31
Parallelism 144.09
Efficacy 123.63
Mix 133.72
Random 152.46
GNN 128.85 134.61

消融实验表格(两评分训练得到的 GNN 对比,体现 gap closed 代理质量)

问题 GNN(tree size) GNN(gap closed) 与最优差距
Set Cover 8.27 8.65 距 Optimal 4.95 仍有空间
Facility Location 128.85 134.61 距 Optimal 86.31 仍有空间

关键发现

  • GNN 确实学到了东西:在 facility location、knapsack 上明显优于经典启发式(Parallelism/Efficacy/Mix/Random),在 set cover、vertex cover 上与 SOTA 启发式持平。
  • gap closed 是好代理:用便宜的 gap closed 训练出的 GNN,其 tree size 表现仅略逊于直接用昂贵 tree size 训练,二者差距小——与理论"两评分难度同阶"互相印证。
  • 仍有提升空间:两种 GNN 距完美预测器 Optimal 都还有可观差距,说明 learning-to-cut 远未饱和。

亮点与洞察

  • 首个 learning-to-cut 样本复杂度下界:填补了该领域只有上界、无下界的空白,把两个评分函数首次放在同一理论框架里比较。
  • 归约思路漂亮:用两条对(图)神经网络天然成立的结构假设,把"学割"的难度精确归约到"学一般函数",使下界与已知上界差距收窄到不可避免的 \(1/\epsilon\) 量级。
  • 理论与实践闭环:理论说两评分难度同阶 → 实验验证 gap closed 可作代理 → 反过来为整数规划界长期使用 gap closed 提供了首个原则性辩护。
  • 下界不依赖数据幅度:相比上界含 \(\log M\)(系数幅度上界),下界纯由网络结构 \(W,L\) 决定,更干净。

局限与展望

  • 未利用"切掉分数解"的额外结构:作者猜想,由于 gap closed 隐含只需要那些真正切掉 LP 分数解的割(数量受限),应能为 gap closed 推出更好的上界,从而打破当前"两评分同阶"的对称结论——这是留给后续的关键开放问题。
  • \(W>CL\) 结构假设:神经网络下界继承了 bit-extraction 技术对网络结构的限制,要去掉需另寻专门针对打散 ILP 的证明路径。
  • 下界仅对未知分布成立:在完全确定且结构简单的设定下,真实样本复杂度可能低于本文下界;下界的意义依赖标签机制足够复杂(求解器随机性或丰富标签族)。
  • 简化设定:理论与实验都只考虑"一次加一个割",而真实求解器是成轮(round)批量加割;分析批量过程要难得多。
  • 实验规模偏小:四类问题实例规模都不大(如 knapsack 仅 2 背包 16 物品),代码未公开。

相关工作与启发

  • 学割上界:Balcan et al. (2021) 给固定 CG 权重的上界,Cheng et al. (2024) 给神经网络生成 CG 权重的多项式-对数上界——本文的下界正是与它们对齐比较。
  • 割平面理论:Gomory (1958)、Chvátal (1973) 的 CG 割是全文的割族基础;Deza & Khalil (2023) 的 survey 是 learning-to-cut 的入口。
  • 学割的学习方法:Paulus et al. (2022) 模仿学习选割、Huang et al. (2022) 学打分函数、Tang et al. (2020) 用 RL 把选割建模为 MDP、Ling et al. (2024) 学"何时停止加割"——这些都是本文样本复杂度分析针对的对象。
  • 算法选择 / 带预测的算法设计:Rice (1976)、Gupta & Roughgarden (2016)、Mitzenmacher & Vassilvitskii (2022) 把"按实例选算法"的样本复杂度纳入更广谱系。
  • 学习理论工具:Anthony & Bartlett (2009) 的 fat-shattering 下界定理、Bartlett et al. (2019) 的分段线性网络 VC 维界、Shalev-Shwartz et al. (2009) 与 Feldman (2016) 关于 UC 与学习样本复杂度之间 gap 的发现,是下界推导的理论支柱。
  • 启发:把"任务特定学习问题"归约到"底层函数类拟合任意目标"的下界技巧,可推广到其他 learning-to-optimize 场景(学分支变量、学启发式)来判断已有上界是否紧。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首个 learning-to-cut 样本复杂度下界,且首次把两个评分函数放进统一理论框架并行比较,归约思路有原创性。
  • 实验充分度: ⭐⭐⭐ — 实验是理论的佐证而非主体,覆盖四类经典 ILP 但规模偏小、代码未公开,距完美预测器仍有差距。
  • 写作质量: ⭐⭐⭐⭐ — 动机清晰、上下界对比规范、用具体反例说明两评分不可正面比较,理论陈述严谨;部分证明细节下放附录。
  • 价值: ⭐⭐⭐⭐ — 为整数规划界长期沿用的 gap closed 代理提供了首个原则性理论辩护,并指明 gap closed 上界可改进的开放方向,对 learning-to-cut 的理论基础有奠基意义。