跳转至

Rethinking Evaluation Paradigms in IBP-based Certified Training

会议: ICML 2026
arXiv: 2606.02134
代码: https://github.com/ada-research/CTRAIN
领域: AI 安全 / 认证鲁棒训练 / 多目标超参优化
关键词: 区间界传播, 认证训练, Pareto 前沿, 多目标贝叶斯优化, 鲁棒-精度 trade-off

一句话总结

作者指出 IBP 类认证训练长期以"挑一个偏心配置"的方式相互比较是不公平的,提出用多目标贝叶斯超参搜索画出每种方法的 Pareto 前沿,证明既有 SOTA 普遍欠调优——CROWN-IBP 干净精度可再涨约 \(6\%\)、Tiny ImageNet 上 MTL-IBP 同时涨 \(\sim2\%\) 干净精度和认证精度。

研究背景与动机

领域现状:在 \(\ell_\infty\) 威胁模型下,认证训练 (certified training) 用不完全验证器(IBP / CROWN-IBP / SABR / MTL-IBP)在训练时上界化最坏情况损失,使得网络在事后用完整验证器(如 \(\alpha\beta\)-CROWN)上能拿到形式化的鲁棒证书。这类方法天然存在一个权衡参数(\(\kappa\)\(\tau\)\(\alpha\))调节"干净精度 vs 认证精度"。

现有痛点:从 Gowal 2019 到 De Palma 2024b,几乎所有论文都只在曲线上挑一个偏心点报数;最近的 CTBench (Mao 2025) 虽然做了网格搜索,却仍然把它当单目标问题,倾向于压认证精度。结果是不同论文报的点根本不在一个量级上,"谁是 SOTA"取决于挑的是哪一边。

核心矛盾:当目标本身是冲突的,挑一个配置去比就等于"先选立场再选证据"。IBP 类方法的真实能力体现在整条 Pareto 前沿上,但社区一直没有系统地把它画出来;这既无法揭示方法间互补性,也掩盖了大量欠调优空间。

本文目标:把认证训练评测从单点比较升级为 Pareto 前沿比较,并提供一套可复用、计算上能负担的多目标超参搜索协议。

切入角度:作者用多目标贝叶斯优化 + 期望超体积改进 (EHVI) 直接搜 Pareto 前沿;为了让搜索能在和单点调参相近的预算内跑完,他们把"代价昂贵的完整验证认证率"换成"廉价不完整验证率"作为代理目标,并把验证 timeout 从 \(1000\,\text{s}\) 拉到 \(100\,\text{s}\),最后再用完整验证把候选点逐一过一遍。

核心 idea:用受约束的多目标贝叶斯优化在「干净精度 / 认证精度」二维空间里搜 Pareto 集合,并用聚类去重后只对代表点做昂贵的完整验证——把同一搜索预算同时分给四种方法,得到一份方法-agnostic、可复现的"真 SOTA"地图。

方法详解

整体框架

评测协议由四块拼成。第一块是统一的搜索空间:每种方法(IBP / CROWN-IBP / SABR / MTL-IBP)都在一份"通用 + 方法特定"超参集合上搜索,包括学习率、\(\ell_1\) 正则权重、Shi 2021 正则权重、warm-up / ramp-up 轮数、训练用 \(\epsilon\) 缩放因子,再加方法专属的 \(\kappa_{\text{start}} \ge \kappa_{\text{end}}\)\(\beta\)\(\tau\)\(\alpha\) 以及 PGD 攻击步数与步长。第二块是受约束的多目标贝叶斯优化器:每个目标(干净精度、不完全认证精度)用独立的高斯过程建模,采集函数为 EHVI,搜索区域约束在感兴趣区间(如 CIFAR-10 \(\epsilon=2/255\) 要求干净 \(\ge 60\%\)、认证 \(\ge 40\%\)),单种方法跑 3 个随机种子各 100 trial 合并前沿。第三块是廉价代理目标:训练完成后用 IBP→CROWN-IBP→CROWN 的级联不完全验证给出认证精度的欠估计,把昂贵的完整验证留到最后。第四块是 Pareto 前沿精修:用 single-linkage 聚类(\(d_{\min}=0.05\))合并 Pareto 集中相邻点,每个簇随机抽一个用 \(\alpha\beta\)-CROWN(cutoff \(1000\,\text{s}\))做完整验证,重组成最终前沿;多种方法的前沿再合并成"combined Pareto front"作为评测基准。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["统一专家搜索空间<br/>放开 κ/β、warm-up≤5、训练 ε 缩放"] --> B
    subgraph LOOP["受约束多目标 BO 内循环(3 种子 × 100 trial)"]
        direction TB
        B["BO 提议配置 λ"] --> C["训练网络(各方法既有损失)"]
        C --> D["不完全验证廉价代理<br/>IBP→CROWN-IBP→CROWN 级联<br/>得 (干净精度, 认证率下界)"]
        D -->|EHVI 抢未支配区| B
    end
    LOOP --> E["合并 3 种子 → Pareto 集"]
    E --> F["single-linkage 聚类去重<br/>d_min = 0.05"]
    F --> G["每簇代表点 αβ-CROWN 完整验证"]
    G --> H["重建并合并各方法<br/>combined Pareto front"]

关键设计

1. 统一的专家搜索空间:把先前被默认值掩盖的超参全放进来

过去"老方法看起来不行"很大程度上是欠调优——文献只在自己验证过的少数配置附近调参,尤其把 \(\kappa\) / \(\beta\) 过渡当成 0、warm-up 顶多用 1 个 epoch。本文反其道而行,构造一个覆盖所有合理取值的搜索空间:放开 \(\kappa_{\text{start}} \ge \kappa_{\text{end}}\) 两端、允许最多 5 个 warm-up epoch、允许训练 \(\epsilon\) 大于评估 \(\epsilon\)、把 \(\ell_1\) 正则和 Shi 2021 正则都纳入搜索,外加方法专属的 \(\beta\) / \(\tau\) / \(\alpha\) 与 PGD 攻击步数步长。这块是整个"翻案"的根基:后续 fANOVA 重要性分析显示 \(\kappa_{\text{start}}\) / \(\kappa_{\text{end}}\) 和 warm-up 轮数在所有场景都是 trade-off 的主控变量——正因为把它们放开,CROWN-IBP 这种 2020 年的方法才在干净精度上多涨约 \(6\%\)

2. 多目标贝叶斯优化 + 受约束 EHVI:让两个目标各自长成应有的样子

IBP 类方法天然带一个权衡参数,干净精度和认证精度是直接冲突的,于是"挑一个点去比"等于"先选立场再选证据"。本文索性不优化任何加权和,而是把目标写成向量 \(\mathbf{f}(\boldsymbol{\theta})=(\text{acc}_{\text{clean}},\text{acc}_{\text{cert}})\),用两个独立高斯过程各自拟合,再用期望超体积改进(EHVI)去抢已发现前沿之外的未被支配区域:

\[\mathrm{EHVI}(\boldsymbol{\theta})=\mathbb{E}_{\mathbf{f}}\big[\max(0,\ \mathrm{HV}(P\cup\{\mathbf{f}\})-\mathrm{HV}(P))\big]\]

其中 \(P\) 是当前 Pareto 前沿,同时加硬约束把"近似退化成对抗训练"的区域剔除,并对三个随机种子的前沿取并集消除局部陷阱。之所以必须用多目标 BO 而非标量化,是因为 IBP 的超参高度交互——\(\kappa\) 和 warm-up 长度耦合、\(\tau\) 和 PGD 步长耦合——任何加权求和都会把真前沿弯掉;让两个目标各自由 GP 建模、再由 Pareto 关系裁剪,才能露出真实可达的边界。

3. 不完全验证作为认证精度的廉价代理:把搜索成本压进可负担区间

完整验证是 \(\mathcal{NP}\)-complete,若每条 trial 都跑一遍完整认证,100 trial 的搜索预算根本动不了。本文的关键省钱手段是搜索阶段不算真认证率,而是按 IBP → CROWN-IBP → CROWN 级联调用——只在前一级宣告"未证明"时才上更强的方法——得到一个真完整认证率的可证下界 \(\widehat{\text{acc}}_{\text{cert}}\le\text{acc}_{\text{cert}}\),BO 直接在这个下界上优化。这一招成立的前提是单调代理几乎不改变 Pareto 序:既然代理只是真值的一致欠估计,前沿的相对位置基本不变,于是只需对最终落在 Pareto 集上的少量代表点用 \(\alpha\beta\)-CROWN 完整验证一次即可。验证空闲时还能进一步把 cutoff 从 \(1000\,\text{s}\) 降到 \(100\,\text{s}\) 而前沿不变——仅 CIFAR-10(\(\epsilon=2/255\))MTL-IBP 的总验证耗时就从 1311 小时降到 208 小时。

4. single-linkage 聚类 + 完整验证精修:把验证预算花在刀刃上

BO 倾向于在前沿曲线上密集采样,结果会冒出一堆彼此差距 \(<0.5\%\) 的"几乎同性能"点,若不去重就把昂贵的完整验证预算全花在装饰性细节上。本文在二维目标空间用欧氏距离做 single-linkage 层次聚类,超参点 \(i,j\) 在距离 \(\le d_{\min}=0.05\) 时合并(Pareto 集大于 5 个点才启动聚类),每簇随机抽一个配置走完整 \(\alpha\beta\)-CROWN,再用真实认证精度重建前沿。这样既把验证成本压到与单点调参同量级,又保证最终曲线上每个点都基于完整验证的硬数字——多种方法的前沿合并成"combined Pareto front"后,才成为公平、可复现的评测基准。

损失函数 / 训练策略

训练侧不改各方法既有损失,只是把它们放进统一的外层搜索:IBP 的 \(\kappa \cdot \mathcal{L} + (1-\kappa) \cdot \mathcal{L}_{\text{ver}}\)、CROWN-IBP 额外用 \(\beta\) 在 CROWN-IBP 与 IBP 上界间过渡、SABR 用 \(\tau \epsilon\) 子区间 + ReLU shrinking、MTL-IBP 用 \(\alpha \cdot \mathcal{L}_{\text{ver}} + (1-\alpha) \cdot \mathcal{L}_{\text{adv}}\);这些损失的权衡参数连同搜索空间(关键设计 1)一起交给多目标 BO 优化,而非沿用文献默认值。所有实验用 Shi 2021 的 CNN7 架构,BoTorch + Optuna 跑 EHVI,预算 3 种子 × 100 trial。

实验关键数据

主实验

在 CIFAR-10 (\(\epsilon \in \{2/255, 8/255\}\)) 和 Tiny ImageNet (\(\epsilon = 1/255\)) 上用 CNN7 比较四种方法,并与原始论文及 CTBench 对照。

数据集 \(\epsilon\) 方法 干净 vs 既有 SOTA 认证 vs 既有 SOTA
CIFAR-10 \(2/255\) SABR \(\ge +1\%\) \(\ge +1\%\)
CIFAR-10 \(2/255\) CROWN-IBP \(\sim +6\%\) 持平
CIFAR-10 \(8/255\) IBP 显著抬升 与既有持平
Tiny ImageNet \(1/255\) MTL-IBP \(\sim +2\%\) \(\sim +2\%\)
Tiny ImageNet \(1/255\) SABR 略高于 MTL-IBP 略低于 MTL-IBP

合并 Pareto 前沿后作者发现:CIFAR-10 \(2/255\) 上 SABR 与 MTL-IBP 互补、二者共同构成前沿;\(8/255\) 上四种方法都贡献了点;Tiny ImageNet 上 SABR 主导"高干净"端、MTL-IBP 主导"高认证"端。这等于把"谁是 SOTA"改写成了"在你关心的 trade-off 区间里谁占优"。

消融实验

配置 关键指标 说明
验证集调参 vs 测试集调参 前沿严格被支配 现有工作普遍直接在测试集上调,绝对值被高估
完整验证 cutoff \(1000\,\text{s}\)\(100\,\text{s}\) 前沿不变 计算成本可降一个数量级以上
BO trial 数 \(100 \to 50\) 前沿明显退化 优化预算比验证 timeout 更敏感
去掉 \(\kappa\) 过渡 (沿用近期工作) IBP / CROWN-IBP 跌出前沿 \(\kappa_{\text{start}}, \kappa_{\text{end}}\) 在所有场景都是高重要性超参

关键发现

  • fANOVA 重要性分析显示,IBP / CROWN-IBP 的 \(\kappa\) 过渡是 trade-off 的主控变量;社区把它当默认 0 是导致"老方法看起来不行"的主因。
  • SABR 的子选择比 \(\tau\) 和 PGD 攻击参数主导其前沿位置;MTL-IBP 的 \(\alpha\) 与训练/攻击 \(\epsilon\) 缩放因子共同决定可达区域。
  • \(8/255\) 这种大扰动半径下,四种方法殊途同归——这说明该区间的真瓶颈不在损失函数设计,而在 IBP 上界的固有松弛。
  • "在测试集上调超参"是社区默认习惯,但验证集调参的 Pareto 前沿严格更差,先前文献的绝对数字带有泛化高估。

亮点与洞察

  • 一个看似"方法论"的换骨手术,定量改写了过去 5 年的 SOTA 表:CROWN-IBP 这种 2020 年的方法只因 \(\kappa\) 没调好就被边缘化,"算法进步"被严重高估。
  • 用"廉价代理目标 + 聚类去重 + 末段完整验证"三段式把昂贵评估塞进 BO 内循环,是把多目标贝叶斯优化引入认证训练领域的关键工程动作,模板可迁移到任何"训练廉价、评估昂贵"的鲁棒性 / 公平性 benchmark。
  • "方法互补性"被首次量化:实践中不该再问"用 SABR 还是 MTL-IBP",而该问"目标在 trade-off 上的哪个区间"。

局限与展望

  • 全部实验局限在 \(\ell_\infty\) 威胁模型和 CNN7 架构,对 \(\ell_2\)\(\ell_1\) 或 Transformer 是否一致仍是开放问题。
  • 协议本身计算量很大(每会议 3 种子 × 100 trial + 完整验证),即使作者用代理目标和聚类压缩,没有大集群的小组仍跑不动;这把"认证训练能不能公平评测"的门槛推到了少数实验室。
  • 作者建议未来工作转向"廉价可验证"的训练目标,而非靠拉长完整验证 timeout 来多刷可证样本数——这其实是对 SABR / MTL-IBP 当前实践的隐性批评,但具体怎么把"易验证"写进损失,文中没给方案。

相关工作与启发

  • vs CTBench (Mao 2025): CTBench 用 250 次网格搜索做单目标比较,结论倾向于"认证精度高者赢";本文用 300 次 BO 做多目标比较,揭示同一方法在 CTBench 下被低估的真前沿,且强调"方法互补"。
  • vs De Palma 2024b (MTL-IBP 原文): 原文为 MTL-IBP 挑一个偏认证的点报数;本文证明其在干净端同样能拿到先前未报的 \(\sim 2\%\) Tiny ImageNet 增益,原文低估了自己。
  • vs Müller 2023 (SABR 原文): 原文在 CIFAR-10 \(2/255\) 上的最佳点被本文同时在干净和认证上各超 \(1\%\);同时表明 SABR 在大 \(\epsilon\) 下并非全面最优。

评分

  • 新颖性: ⭐⭐⭐⭐ 方法层面是把成熟的多目标 BO 套用过来,但"用 Pareto 前沿评测认证训练"是清晰的范式转换。
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 方法 × 3 benchmark × 多个 ablation,附带 fANOVA 重要性分析和 cutoff/budget 消融,证据链完整。
  • 写作质量: ⭐⭐⭐⭐ 论述清晰,唯独"如何把搜索协议平民化"留得太轻。
  • 价值: ⭐⭐⭐⭐⭐ 直接改写了认证训练 leaderboard,并给出可复用的开源工具 CTRAIN,社区影响面大。