跳转至

PINE: Pruning Boosted Tree Ensembles with Conformal In-Distribution Prediction Equivalence

会议: ICML 2026
arXiv: 2605.28068
代码: 待确认
领域: 模型压缩 / 树集成剪枝 / Conformal Prediction
关键词: 树集成剪枝, 忠实剪枝, 共形预测, 分布内等价, Chow-Liu 树

一句话总结

PINE 把"忠实剪枝"对 boosted 树集成的等价约束从全输入空间收缩到一个由 Chow-Liu 树似然 + 分裂共形校准定义的"分布内区域" \(\mathcal{X}_{\text{ID}}(\alpha)\),用单一参数 \(\alpha\) 平滑控制压缩-保真折中,在 12 个公开 tabular 数据集上把压缩率相对 FIPE 最高提升 30%,同时把"剪枝前后预测一致"的概率以 \(\geq 1-\alpha\) 的形式给出可证明保证。

研究背景与动机

领域现状:在 tabular 数据上,XGBoost 这类 boosted 决策树集成仍是 SOTA,但树多了之后推理慢、验证(鲁棒性/公平性)也变难,所以训完之后做 ensemble pruning 是常见操作。已有两条路线:(a) accuracy-oriented 剪枝(IC/DREP/MDEP/ForestPrune 等),只在精度上不掉太多即可,预测可以随便变;(b) faithful pruning(Born-Again Trees, FIPE)则要求剪枝前后对任意输入预测完全一致。

现有痛点:accuracy-oriented 剪枝虽然能压得狠,但很多预测会变 —— 在医疗、金融这类高风险场景里,一旦下游有"按模型输出触发的工作流"或"绕着模型搭的鲁棒性/公平性检查",预测一变下游全得重做。FIPE 这种忠实剪枝把"预测不变"做成硬约束,可惜的是它要求在整个输入空间 \(\mathcal{X}\) 上都成立 —— 包括那些现实里几乎不会出现的 OOD 角落(比如 Adult 里"学前教育 + 13.5 年学龄"或者 COMPAS 里"prior offenses=0 且 prior offenses>3"这种逻辑上不可能的点)。为这些"鬼点"保留细粒度边界,FIPE 在 30 棵树的玩具例子里也只能剪到 11 棵。

核心矛盾:fidelity 和 compression 之间存在结构性 trade-off。要 100% fidelity,就得照顾所有 OOD 点,压缩上不去;放弃 fidelity 又会破坏决策一致性。

本文目标:找到一种机制,能在"真正会出现的输入"上保证预测等价,对 OOD 区域不做承诺,并且这个"真正会出现的区域"的大小可以用一个旋钮平滑调。

切入角度:作者观察到,OOD 区域对决策意义不大,但却吃掉了大量等价约束 —— 如果只在一个分布内区域 \(\mathcal{X}_{\text{ID}}\) 上要求等价,剪枝的可行域立刻变大;同时只要 \(\mathcal{X}_{\text{ID}}\) 的覆盖率被 conformal prediction 校准过,就能把"未来输入落在 \(\mathcal{X}_{\text{ID}}\)"的概率压在 \(\geq 1-\alpha\),从而把"剪枝前后预测一致"翻译成 \(\geq 1-\alpha\) 的概率保证。

核心 idea:用 Chow-Liu 树的负对数似然当 "plausible score" \(s(\bm{x})\),用 split conformal 校准阈值 \(\tau(\alpha)\) 得到 \(\mathcal{X}_{\text{ID}}(\alpha)=\{\bm{x}:s(\bm{x})\leq\tau(\alpha)\}\),然后把 FIPE 的 Oracle 搜索 counterexample 的范围从 \(\mathcal{X}\) 缩到 \(\mathcal{X}_{\text{ID}}(\alpha)\);Chow-Liu 的树状分解恰好能干净地编进 MILP。

方法详解

整体框架

输入是已经训好的 boosted 树集成 \(\mathcal{T}=\{T_m\}_{m=1}^M\)、原始权重 \(\bm{w}^{(0)}\)、miscoverage 水平 \(\alpha\)、用于拟合分数函数的 \(\mathcal{D}_{\text{fit}}\) 和用于校准阈值的 \(\mathcal{D}_{\text{cal}}\)。输出是剪枝后的稀疏权重 \(\bm{w}\)(权重为 0 的树直接丢掉),使得对任意 \(\bm{x}\in\mathcal{X}_{\text{ID}}(\alpha)\),剪枝前后 \(\hat{y}(\bm{x};\bm{w})=\hat{y}(\bm{x};\bm{w}^{(0)})\)

整个 pipeline 沿用 FIPE 的"Pruner + Oracle"迭代框架:(1) 在 \(\mathcal{D}_{\text{fit}}\) 上拟合 Chow-Liu 分数 \(s_{\text{CL}}(\cdot)\);(2) 在 \(\mathcal{D}_{\text{cal}}\) 上对 \(s_{\text{CL}}\) 取顺序统计量算 \(\tau(\alpha)\);(3) 初始化等价约束集 \(\mathcal{S}^{(0)}\leftarrow\mathcal{D}_{\text{fit}}\);(4) 重复 [Pruner 解最稀疏权重满足 \(\mathcal{S}^{(t)}\) 上的等价约束 → Oracle 在 \(\mathcal{X}_{\text{ID}}(\alpha)\) 内搜 MILP 找新 counterexample,并入 \(\mathcal{S}^{(t+1)}\)],直到 Oracle 返回空集,即可在 \(\mathcal{X}_{\text{ID}}(\alpha)\) 上获得已证书的等价保证。

相对 FIPE,唯一改动其实就在 Oracle 多加了一条"\(s_{\text{CL}}(\bm{x})\leq\tau(\alpha)\)"的线性约束,但工程上要保证这条约束能干净编入 MILP,所以 plausible score 不能随便选,这就引出了 Chow-Liu 的选型。

关键设计

  1. Chow-Liu NLL 作为可线性编码的 plausible score:

    • 功能:把"输入是否分布内"刻画成一个标量分数 \(s(\bm{x})=-\log p_{\text{CL}}(\tilde{\bm{x}})\),并保证这个分数可以塞进 MILP。
    • 核心思路:把每个连续特征离散成 \(B\) 个 bin 得到 \(\tilde{\bm{x}}\in\{1,\dots,B\}^p\),在特征图上做最大互信息生成树(Chow-Liu 树)拟合联合分布 \(p_{\text{CL}}(\tilde{\bm{x}})=p(\tilde{x}_r)\prod_{j\neq r}p(\tilde{x}_j\mid\tilde{x}_{\text{pa}(j)})\)。负对数恰好分解成"根节点 marginal + 树边上的 conditional",每项只依赖单个 bin 或一对父子 bin。MILP 里用 \(q_{i,b}\in\{0,1\}\) 标记"特征 \(i\) 落在 bin \(b\)"、\(u_{i,j,b,b'}\in\{0,1\}\) 标记"父子 bin 组合",并用 \(u_{i,j,b,b'}\leq q_{i,b}\)\(u_{i,j,b,b'}\leq q_{j,b'}\)\(u_{i,j,b,b'}\geq q_{i,b}+q_{j,b'}-1\) 三条线性约束编码 AND,于是 \(s_{\text{CL}}\) 写成 \(q,u\) 的线性求和,约束规模仅 \(\mathcal{O}(pB^2)\),远小于离散输入空间的 \(\mathcal{O}(B^p)\)。另外离散 bin 边界要 round 到该特征在原集成 \(\mathcal{T}\) 里出现的所有分裂阈值 \(\Theta_j\) 上,否则 MILP 可行域和 \(\{s\leq\tau\}\) 几何上会错位、漏掉 counterexample。
    • 设计动机:要让 Oracle 在 "\(\mathcal{X}_{\text{ID}}\) 内找反例"这件事可解,分数函数本身必须是 MILP-friendly 的;Chow-Liu 同时满足"对联合分布有不错的捕捉能力"和"可加可线性化"两个要求,比 isolation forest、KDE 这些常见 OOD 分数更适合直接嵌入忠实剪枝框架。
  2. Split conformal 校准 \(\tau(\alpha)\) 并落地为概率等价保证:

    • 功能:把"分布内区域大小"这件原本要凭经验选的事,变成一个有 finite-sample、distribution-free 保证的旋钮 \(\alpha\)
    • 核心思路:在 \(\mathcal{D}_{\text{cal}}\) 上算 \(\{s(\bm{x}_i)\}\) 的顺序统计量 \(s_{(1)}\leq\cdots\leq s_{(n)}\),取 \(\tau(\alpha)=s_{(k)}\)\(k=\lceil(n+1)(1-\alpha)\rceil\)。在 exchangeability 假设下立刻得 \(\mathbb{P}[s(\bm{X}_{\text{new}})\leq\tau(\alpha)]\geq 1-\alpha\),与"Oracle 在 \(\mathcal{X}_{\text{ID}}(\alpha)\) 内被证明无 counterexample"组合即得 Proposition 4.2:"\(\mathbb{P}[\hat{y}(\bm{X}_{\text{new}};\bm{w})=\hat{y}(\bm{X}_{\text{new}};\bm{w}^{(0)})]\geq 1-\alpha\)"。注意这是 marginal 概率(对 \(\mathcal{D}_{\text{cal}}\)\(\bm{X}_{\text{new}}\) 联合期望),且要求每次 MILP 跑到可证最优/不可行才算数 —— 只是"在 time limit 内没找到反例"不能当证书。
    • 设计动机:现有忠实剪枝没有调节旋钮,要么 100% 要么放弃;conformal 提供了一个既不依赖分布形状、又能给出严格上下界的方式来定义"几乎所有未来输入",让 fidelity-compression 折中变成一个 user-controllable 的连续轴。
  3. \(\mathcal{X}\)\(\mathcal{X}_{\text{ID}}(\alpha)\) 的可压缩性与搜索复杂度的双重指数收缩:

    • 功能:从理论上说明为什么把保证区域收缩一点,压缩率和 Oracle 搜索代价能同时降这么多。
    • 核心思路:原始 \(\mathcal{X}\) 被集成切成至多 \(\prod_j(|\Theta_j|+1)\) 个 cell,在高维下是组合爆炸;引入 Chow-Liu 约束后,Oracle 实际只需在离散状态集 \(A_\tau=\{\tilde{\bm{x}}:-\log p_{\text{CL}}(\tilde{\bm{x}})\leq\tau\}\) 上搜。命题 4.3 给出 \(|A_\tau|\leq e^\tau\)(证明:每个 \(\tilde{\bm{x}}\in A_\tau\)\(p_{\text{CL}}(\tilde{\bm{x}})\geq e^{-\tau}\),由概率归一性 \(1\geq|A_\tau|e^{-\tau}\))。又因为 \(\tau(\alpha)\) 关于 \(\alpha\) 单调非增,调大 \(\alpha\) → 搜索状态上界 \(e^{\tau(\alpha)}\) 指数级变小,counterexample 搜索更易。同时 \(\mathcal{X}_{\text{ID}}(\alpha)\subseteq\mathcal{X}\) 意味着约束松了、剪枝可行域大了,\(\|\bm{w}\|_0\) 在解到最优时一定不会比 FIPE 差。
    • 设计动机:单纯"放宽约束所以能压更多"是直觉,但作者把"压缩可能性"和"搜索可负担性"都接到同一个旋钮 \(\tau(\alpha)\) 上,说明 PINE 不是简单的"放水换压缩",而是搜索难度本身也随 \(\alpha\) 指数缩小,这是工程能 work 的根本原因。

损失函数 / 训练策略

目标仍是 \(\arg\min_{\bm{w}\geq 0}\|\bm{w}\|_0\),s.t. \(\hat{y}(\bm{x};\bm{w})=\hat{y}(\bm{x};\bm{w}^{(0)}),\forall\bm{x}\in\mathcal{X}_{\text{ID}}(\alpha)\)。实际通过迭代 Pruner(在 counterexample 集 \(\mathcal{S}^{(t)}\) 上的最稀疏可行权重)和 Oracle(受限于 \(s\leq\tau(\alpha)\) 的 MILP 反例搜索,沿用 OCEAN 的 leaf 选择 MILP encoding)求解。主实验用 \(\ell_0\) 目标,附录 B.2 给了 \(\ell_1\) 近似以省时。求解器是 Gurobi v11.0.3。XGBoost 集成超参:\(D=2\), \(M=30\)\(\alpha\)\(\{0.05, 0.1, 0.2, 0.4, 0.6, 0.8\}\) 上扫;离散 bin 数 \(B=4\)

实验关键数据

主实验

12 个 UCI/OpenML tabular 分类数据集,5 个随机种子,把 PINE-CL 与 FIPE(忠实基线)、IC/DREP/MDEP(accuracy-oriented 基线)对比。Pima-Diabetes 上的详细数字:

方法 \(\alpha\) 剪枝率 (%) ↑ Fidelity (%) ↑ 时间 (s) ↓ 迭代数 ↓
FIPE 17.3 100.0 42.5 24.6
PINE-CL 0.05 22.7 100.0 48.1 19.2
PINE-CL 0.1 26.7 100.0 48.0 19.6
PINE-CL 0.2 30.0 100.0 47.0 19.6
PINE-CL 0.4 34.7 99.9 33.8 15.2
PINE-CL 0.6 45.3 98.6 19.4 11.0
PINE-CL 0.8 55.3 98.3 12.0 7.8

跨 12 个数据集的平均:\(\alpha\) 从 0.05 升到 0.8,平均剪枝率从 44.6% 升到 67.8%,平均 fidelity 仅从 99.96% 跌到 99.15%;相比 FIPE 压缩率最高可提升 30%。

消融 / 敏感性

维度 配置 现象 说明
深度 \(D\) (\(M=30,\alpha=0.8\)) \(D=2\to 5\) 平均剪枝率 66.94% → 34.44%,运行时 3.82s → 932.75s,迭代 2.17 → 13.17 深树创造更多局部决策区域,更多树"部分有用",更难整体移除
树数 \(M\) (\(D=3,\alpha=0.8\)) \(M=10\to 50\) 剪枝率维持 39.17% → 51.11%,fidelity ≈ 99% \(M\) 主要影响优化开销,对压缩率影响不大
Bin 数 \(B\) 见附录 B.6 趋势稳健 Chow-Liu 离散化粒度不是瓶颈
目标 \(\ell_0\) vs \(\ell_1\) 附录 B.2 \(\ell_1\) 更快,结果近似 可用于大规模场景

关键发现

  • RQ1:accuracy-oriented 方法(IC/DREP/MDEP)在 test accuracy 上能跟原模型差不多,但 fidelity 随剪枝率单调下掉,说明"accuracy 几乎不变"\(\neq\)"决策一致"。PINE 在高压缩率下还能保 fidelity 接近 1。
  • RQ2:经验测试覆盖率 \(\hat{\pi}_{\text{ID}}\) 紧贴目标 \(1-\alpha\),说明 split conformal 校准在真实数据上 valid,\(\alpha\) 确实能当作"分布内区域大小"的旋钮。
  • RQ3:把评测限制到 PINE 的 \(\mathcal{X}_{\text{ID}}(\alpha)\) 上算 conditional fidelity \(\hat{\rho}_{\text{ID}}\),IC/DREP/MDEP 仍 \(<1\) —— 即便只看分布内输入它们也会改预测;PINE 是真正在分布内做到了 \(\hat{\rho}_{\text{ID}}=1\)
  • Case study:被 PINE 故意忽略的反例往往是 Adult 里"学前学历+13.5 学龄"或 COMPAS 里"prior offenses=0 且 >3"这种逻辑上不可能的点 —— FIPE 必须为它们保留更多树,PINE 直接忽略以换取压缩。
  • 实用 \(\alpha\) 选择:用额外 \(\mathcal{D}_{\text{sel}}\) 做 post-hoc 选择,95% fidelity 目标下经验选择器达 70.8% 平均压缩 + 98.77% 测试 fidelity;Bonferroni-Clopper-Pearson 上界选择器更保守,57.2% 压缩 + 99.72% fidelity(注意这些是经验结果,不是额外的 conformal 证书)。

亮点与洞察

  • "忠实剪枝 + conformal"的拼装非常自然:忠实剪枝原本是一个"全空间硬约束"的二元问题,conformal 又是一个"我能给覆盖率一个 distribution-free 概率"的工具,作者把后者塞进前者的 Oracle 搜索域里,立刻把硬约束变成"\(1-\alpha\) 概率约束"。这种"用概率工具松弛符号约束"的范式可以推广到其他需要"全空间等价"的验证/抽取任务(如规则抽取、模型蒸馏审计)。
  • Plausible score 的选择不只是统计上的好坏,而是 MILP 编码的可行性:作者明确说 PINE 兼容任何"tree-structured distribution constraint"。这是个隐藏可扩展点 —— 想把更强的密度模型(如 normalizing flow)塞进来就得先解决"如何线性编码"的问题,附录 C 还试了 2 个替代分数。
  • 理论上界 \(|A_\tau|\leq e^\tau\) 同时解释了压缩和效率:一个看似松的 information-theoretic 上界把"分布内状态数"和搜索复杂度漂亮地联系起来,并且通过 \(\alpha\uparrow\Rightarrow\tau\downarrow\Rightarrow|A_\tau|\downarrow\) 给出 monotone 的可控性。这种"用概率分布的归一性当 packing 上界"的小技巧值得记。
  • RQ3 把 OOD 概念反过来用来评测 baseline:定义 \(\hat{\rho}_{\text{ID}}\) 后,accuracy-oriented 方法被"分布内"显微镜照出来仍然改预测,是一个非常有说服力的实证论证,比单纯比 fidelity 数字更直击痛点。

局限与展望

  • 依赖 MILP 解到最优:所有概率等价保证都建立在"Oracle 跑到 certified optimality 或 infeasibility"上,一旦上时间限制就退化为经验保证,对大集成(\(D=5\) 单数据集近千秒)不太友好。
  • Exchangeability 假设:依赖 \(\mathcal{D}_{\text{cal}}\) 与未来输入同分布,分布漂移场景需要走 conditional / weighted conformal 等扩展。
  • 离散化粒度与 round-to-\(\Theta_j\) 的工程开销:当特征数和分裂阈值数都大的时候,bin 边界 rounding 的复杂度(见附录 C)会成为额外负担。
  • 只覆盖 tree ensembles 上的"硬决策一致":对回归 / 概率校准 / soft logits 的等价没有处理;又因为只看分类决策不看概率,下游若依赖 confidence score 可能仍有 mismatch。
  • 没有给出 task-aware 的 \(\alpha\) 选择理论:实际选 \(\alpha\) 靠 held-out 经验或 LTT 风格的 confidence bound,缺一个更直接把"业务可接受 fidelity"翻译到 \(\alpha\) 的桥梁。

相关工作与启发

  • vs FIPE (Emine et al., 2025):FIPE 在整个 \(\mathcal{X}\) 上做 \(\hat{y}\) 等价,PINE 用 conformal 把约束限制到 \(\mathcal{X}_{\text{ID}}(\alpha)\),把"100% fidelity"换成"\(\geq 1-\alpha\) probabilistic fidelity",把"无旋钮"变成"单旋钮 \(\alpha\)",最高换来 30% 压缩。框架(Pruner/Oracle 迭代)几乎没动,新东西只是 Oracle 上多一条 \(s\leq\tau(\alpha)\) 的 MILP 约束。
  • vs Born-Again Tree Ensembles (Vidal & Schiffer, 2020):BATE 用 DP 把集成蒸成一棵等价的大树,模型类整个变了;PINE 保留 ensemble 结构、只剪权重,更适合需要保留 boosting 语义的下游验证。
  • vs ForestPrune (Liu & Mazumder, 2023) / LOP (Devos et al., 2025):这些方法直接删内部节点或子树以拿到更高压缩,但放弃 fidelity;PINE 用一个 well-defined 的 probabilistic fidelity 保证作差异点。
  • vs accuracy-oriented IC/DREP/MDEP:这些是 PyPruning 里基于"贡献 + 多样性"挑子集的方法,没有任何等价保证;RQ3 显示它们在分布内仍改预测,直接被 PINE 在"分布内决策一致性"这一指标上压制。
  • 可迁移启发:忠实剪枝 = "符号验证 (MILP) + 全空间等价"的范式可以套到任何"原模型→压缩/抽取/蒸馏"任务上;只要找到一个"可线性编码 + 校准过覆盖率"的 plausible score,都可以把"全空间 = 太严"变成"分布内 = 概率保证"。比如对 NN 也可以构造"NN-MILP + conformal" 的等价剪枝 / 神经规则抽取范式。

评分

  • 新颖性: ⭐⭐⭐⭐ "把 conformal 概率覆盖 + 忠实剪枝硬约束"组合非常自然,但每个组件都已成熟,主要是 framing 上的一手好牌。
  • 实验充分度: ⭐⭐⭐⭐ 12 个数据集 × 5 seed × 6 个 \(\alpha\) + 深度/树数/bin/目标/Random Forest 等敏感性 + 两种 \(\alpha\) 选择器都覆盖了。
  • 写作质量: ⭐⭐⭐⭐ 概念顺序清晰,从 motivation 到理论再到 case study 全链路自洽;公式和算法伪代码可读性高。
  • 价值: ⭐⭐⭐⭐ 给高风险 tabular 决策场景的模型压缩提供了一个 "可控 fidelity 折中" 的 deployable 方案,且 MILP 编码、Chow-Liu 选型、conformal 校准的组合可被复用到其他 model auditing / extraction 场景。