Toward Understanding Adversarial Distillation: Why Robust Teachers Fail¶
会议: ICML 2026
arXiv: 2605.21999
代码: 无
领域: 模型压缩 / 对抗鲁棒性 / 知识蒸馏
关键词: 对抗蒸馏, 鲁棒过拟合, 不可学习样本, 特征学习理论, 教师选择
一句话总结¶
本文识别出对抗训练数据中存在一个跨方法稳定的「鲁棒不可学习集」,并通过两层网络的特征学习理论证明:当强鲁棒教师在这些样本上给出高置信监督时,会迫使学生记忆伪噪声进而触发鲁棒过拟合,反之教师在这些样本上保持高熵即可抑制噪声梯度,由此给出基于不可学习样本预测熵的教师选择准则。
研究背景与动机¶
领域现状:对抗训练 (AT) 通过 min-max 优化抵御 \(\ell_\infty\) 扰动是当前最有效的经验防御,而对抗蒸馏 (AD) 在此基础上让学生匹配鲁棒教师的软标签,被认为可以缓解鲁棒过拟合并把大模型鲁棒性迁到资源受限学生上。
现有痛点:AD 的成功高度不稳定——更强的教师并不必然带来更强的学生,甚至会加剧学生的鲁棒过拟合 (robust test accuracy 在某个 epoch 达峰之后持续下滑)。早期工作如 Zi et al. (2021) 报告了「鲁棒饱和」,Lee & Chung (2026) 把这种失败归因于「可迁移对抗样本 (TAS) 稀缺」,但这些都只是失败的症状,并未给出机制层面的解释。
核心矛盾:作者观察到一个反直觉的现象——只要不是过拟合教师,AD 即便用一个独立看上去更弱的教师也常常优于一个更强的教师;问题不在于教师是否「鲁棒」,而在于教师与学生在哪些样本上「步调一致」。这意味着背后存在一个被忽略的因子:训练集中某些样本对特定容量的学生天然不可鲁棒学习,教师在这些样本上的行为决定一切。
本文目标:(1) 在数据层面识别这个关键子集;(2) 在理论层面解释它如何主导鲁棒过拟合;(3) 在实践层面给出 a priori 选择有效教师的指标。
切入角度:作者跨 6 种鲁棒训练方式 × 10 个随机种子取「预测交集」,发现总有一群样本被所有模型在峰值鲁棒精度时都错分,这群「鲁棒不可学习集 (robustly unlearnable set, \(\mathcal{S}_U\))」大小随模型容量单调下降,且对它们做特征反演只能得到崩塌的伪特征。这天然提示:不可学习性是「数据-架构」对的属性,而非数据本身的噪声。
核心 idea:把鲁棒过拟合归结为「教师在学生表征盲区上的置信度」与「学生容量限制」之间的错配——教师在 \(\mathcal{S}_U\) 上越自信,学生越被迫用噪声补全这部分置信度,最终噪声响应反客为主。
方法详解¶
整体框架¶
论文分三段递进:(i) 经验段——构造一个跨方法稳定的不可学习集判定流程,并展示它与鲁棒过拟合的因果联动;(ii) 理论段——在 patch-级特征学习模型上为 AT 与 AD 各证一个二分定理,把「噪声响应是否被放大」绑定到「教师在 \(\mathcal{S}_U\) 上是否置信」;(iii) 实践段——把「教师在不可学习样本上的预测熵」作为先验选择指标做大规模验证。
关键设计¶
-
鲁棒不可学习集 \(\mathcal{S}_U\) 的稳定识别:
- 功能:从训练集中提取一个跨方法、跨种子稳定的「学不会」子集,作为鲁棒过拟合的因果触发器。
- 核心思路:跑 6 种鲁棒训练范式 (PGD-AT / TRADES / 4 个教师下的 AD) × 10 个随机种子共 60 个模型,每个模型取其峰值鲁棒精度 epoch 的预测,把被全部 60 个模型一致错分的样本定义为 \(\mathcal{S}_U\),被一致正确分类的定义为可学习集 \(\mathcal{S}_L\);这避免了「只是某次训练的坏运气」这种解释。结果显示 \(|\mathcal{S}_U|\) 随容量单调下降——MobileNet-V2 约 9000 张、WRN-34-10 仅约 1500 张,对它们的特征反演 (feature inversion) 也呈现明显的语义崩塌。
- 设计动机:以往「过拟合」研究常按 loss/置信度阈值划分难样本,但难样本会随训练阶段漂移;本文取「峰值鲁棒精度」时刻的预测交集,等价于在「该容量下能力上限」处取硬约束,从而把「不可学习」从「难」中剥离出来,成为「容量-数据」的内在属性。
-
特征学习理论框架与教师二分:
- 功能:用一个可分析的 patch 模型同时刻画 AT 与 AD 的训练动力学,把鲁棒过拟合写成噪声响应是否放大的二选一。
- 核心思路:数据由 \(P\) 个 patch 拼接,构造两个正交鲁棒特征 \(\mathbf{u}=\mathbf{e}_1\) (可学习) 与 \(\mathbf{v}=\mathbf{e}_d\) (不可学习);\(\mathcal{S}_L\) 的信号 patch 为 \(\alpha y\mathbf{u}\),\(\mathcal{S}_U\) 的信号 patch 为 \(\alpha y\mathbf{v}\),其余 patch 为正交高斯噪声 \(\mathcal{N}(\mathbf{0},\sigma_n^2(\mathbf{I}_d-\Pi_{\mathcal{F}}))\)。学生是两层立方激活网络 \(\phi(z)=(\max\{0,z\})^3\),且显式约束所有滤波器 \(\langle \mathbf{w}_r,\mathbf{v}\rangle=0\) 来模拟「学生对 \(\mathbf{v}\) 结构性盲视」。对抗扰动只施加在信号 patch 方向 (按 \(\|\delta\|_\infty\le\epsilon\)),AT 用 \(\ell(yf_W(\tilde X))\)、AD 用 teacher 软标签加权的 \(\sigma(\pm yf_{W_T}(X))\ell(\pm yf_W(\tilde X))\)。在「unlearnable 稀疏」区间 \(CN^{-1}\le p_{un}\le C^{-1}N^{-1}\log d\) 与「信号强于噪声」条件 \(\alpha\ge\tilde\Omega(\sigma_n\sqrt{d}/N^{1/3})\) 下,证明 AT 与 AD 都先把 \(\mathbf{u}\) 学到 \(w_{r,1}^{(T)}\ge\tilde\Omega(\alpha^{-1})\);随后噪声响应是否被推到 \(\tilde\Omega(1)\) 完全取决于不可学习样本上残余梯度是否被持续激励。
- 设计动机:先前理论 (lazy regime / 线性模型) 不足以解释鲁棒性,本文沿用 feature learning 路线 (Allen-Zhu & Li 2022; Li & Li 2025) 把分析延伸到 AD;关键创新是把「学生容量瓶颈」编码成对滤波器的硬正交约束,使得「教师能看到、学生看不到」的不对称成为可推导对象,从而精确分离出「信号学习」和「噪声记忆」两条独立轨迹。
-
Good vs Bad Teacher 与可证选择准则:
- 功能:刻画「能用的鲁棒教师」与「同样鲁棒但有害」的教师之间的本质差异,并落地为可计算的先验筛选指标。
- 核心思路:在 \(\mathcal{S}_L\) 上两类教师都满足目标对齐的大间隔 \(y_i f_{W_T}(X_i)\ge\Gamma\) (即同样鲁棒);但 Good Teacher 与 \(\mathbf{v}\) 正交,即 \(y_i f_{W_G}(X_i)=0\) 在 \(\mathcal{S}_U\) 上保持不确定;Bad Teacher 反而在 \(\mathbf{v}\) 方向高置信 \(y_i f_{W_B}(X_i)\ge\Gamma\)。在 \(\Gamma\ge\tilde\Omega(d)\) 的饱和教师区,AD 软标签近似硬标签,残余梯度被教师 sigmoid 因子 \(\sigma(-yf_{W_T}(X))\) 调制:Good Teacher 让该因子在 \(\mathcal{S}_U\) 上保持 \(\Theta(1)\) 但梯度方向均匀抵消、噪声响应被压在初始化尺度 \(\tilde O(\sigma_0\sigma_n\sqrt d)\);Bad Teacher 让该因子在 \(\mathcal{S}_U\) 上指数衰减、但残余项偏置不变,最终把噪声响应推到 \(\tilde\Omega(1)\)。由此给出可直接计算的实践准则——用候选教师在训练集 \(\mathcal{S}_U\) 上的预测熵作为先验筛选指标,熵越高越接近 Good Teacher。
- 设计动机:传统的「教师选择」要么靠经验 (用早 epoch 教师)、要么靠事后指标 (TAS),都需要先训练学生才能评估;本文准则只依赖教师本身在已识别的 \(\mathcal{S}_U\) 上的输出分布,O(N) 一次前向即可完成,使「a priori 教师选择」从工程经验升级为有理论支撑的可计算流程。
损失函数 / 训练策略¶
AT 目标为 \(\mathcal{L}_{AT}=\ell(yf_W(\tilde X))\),AD 目标为 \(\mathcal{L}_{AD}=\sigma(yf_{W_T}(X))\ell(yf_W(\tilde X))+\sigma(-yf_{W_T}(X))\ell(-yf_W(\tilde X))\)。优化用全 batch 梯度下降 \(W^{(t+1)}=W^{(t)}-\frac{\eta}{N}\sum\nabla_W\mathcal{L}\),训练 \(T\ge\tilde\Omega(N/(\eta\sigma_0\sigma_n^3 d^{3/2}))\) 步以覆盖信号学习与可能的噪声记忆双相。理论统一在事件 \(\mathcal{E}\) 上以 \(1-\delta\) 高概率成立。
实验关键数据¶
主实验:不可学习集与鲁棒过拟合的耦合¶
基于 60 个模型预测交集统计的 \(\mathcal{S}_U\) 与 \(\mathcal{S}_L\) 大小,反映鲁棒不可学习性是容量函数:
| 模型架构 | PGD-AT 不可学习 | TRADES 不可学习 | 跨方法交集 (Intersection) | 跨方法交集 (可学习) |
|---|---|---|---|---|
| MobileNet-V2 | 13,898 | 12,261 | 8,979 | 19,385 |
| ResNet-18 | 8,360 | 10,217 | 5,217 | 21,899 |
| WRN-28-10 | 2,816 | 5,084 | 1,697 | 19,610 |
| WRN-34-10 | 2,608 | 4,511 | 1,559 | 16,397 |
不可学习集大小随容量从约 9k 单调降到约 1.5k,但永远非零;CIFAR-100 (Table 7) 同样观察到该单调下降,表明这是结构性现象而非 CIFAR-10 特例。
消融实验:教师类型 vs 学生过拟合¶
论文用同样独立强鲁棒的两个教师对比 AD 的最终表现 (按 Figure 1 与 Table 3 的结构整理):
| 配置 | 学生峰值 robust acc | 学生末期 robust acc | 是否过拟合 | 解读 |
|---|---|---|---|---|
| Standard PGD-AT | 中等 | 显著下降 | 是 | \(\mathcal{S}_U\) 上残余梯度无人压制 |
| Self-Distill (Best teacher) | 较高 | 接近峰值 | 否 | 早期教师对 \(\mathcal{S}_U\) 不自信 → 抑制噪声梯度 |
| Self-Distill (Last teacher) | 中等 | 明显下降 | 是 (更严重) | 过拟合教师在 \(\mathcal{S}_U\) 上自信 → 噪声记忆放大 |
| AD with Gowal teacher | 较高 | 维持 | 否 | 教师在 \(\mathcal{S}_U\) 上熵高 → 等价 Good Teacher |
| AD with Chen teacher | 中等 | 持续下降 | 是 | 同样强鲁棒但 \(\mathcal{S}_U\) 上熵低 → Bad Teacher |
关键发现¶
- 过拟合驱动者是 \(\mathcal{S}_U\) 而非 AT 本身:定理 4.7 表明只要 \(p_{un}=0\),AT 的所有噪声响应都被压在 \(\tilde O(\sigma_0\sigma_n\sqrt d)\),鲁棒测试误差 \(\to 0\);只要 \(p_{un}\) 落在稀疏区间,就一定存在某个 \(i\in\mathcal{S}_U\) 使噪声响应被推到 \(\tilde\Omega(1)\)、鲁棒误差锁在 \(\ge 1/2-o(1)\)。
- 教师强度不是充分条件:定理 4.8 表明两个同样满足 \(\Gamma\) 大间隔的教师 (Good vs Bad) 只在 \(\mathcal{S}_U\) 上的行为不同,AD 学生结局却完全相反——把「鲁棒教师」与「好教师」彻底解耦。
- 熵作为先验指标:实验段验证「教师在 \(\mathcal{S}_U\) 上预测熵」与学生最终鲁棒精度的正相关,给出无需先训学生的教师筛选流程。
- 结构盲视假设的合理性:作者用容量与 \(|\mathcal{S}_U|\) 的单调关系 (从 9k 到 1.5k) 解释为何同样的样本对小模型是 unlearnable、对大模型是 learnable,与理论中对 \(\mathbf{v}\) 方向的强制正交一一对应。
亮点与洞察¶
- 把「难样本」从经验启发上升到理论对象:通过「跨方法预测交集」剔除了训练随机性,把不可学习性定义成数据-架构对的稳定属性,这一思路可迁移到 robust fairness、long-tail learning 等任何「容量瓶颈触发偏差」的场景。
- 教师正交性假设是巧设:把「学生看不到的鲁棒特征」编码为对滤波器的硬正交约束,使得 AD 中教师与学生之间的不对称信息得以解析处理;这是首次把 feature learning 框架扩到带 soft-label 的对抗蒸馏。
- 熵作为筛选指标可即插即用:相比 TAS 这类需要训完学生才能评估的事后指标,「在 \(\mathcal{S}_U\) 上算一次教师 softmax 熵」就能预判 AD 结局,对工程团队极友好。
局限与展望¶
- 理论建立在两层立方激活网络 + patch 数据 + 仅在信号 patch 方向扰动的简化设定上,从 ResNet/WRN 的非线性卷积特征到 patch 模型的迁移仍是经验性的。
- \(\mathcal{S}_U\) 的识别需要先训 60 个模型,虽然只需一次性完成,但对于新数据集仍有非平凡的前置成本;自然延伸是用 capacity-aware 的代理指标 (如对抗损失曲率) 在线估计 \(\mathcal{S}_U\)。
- 教师正交假设把 Good 和 Bad 处理成「全黑全白」,但现实教师在 \(\mathcal{S}_U\) 上的置信度通常是连续谱;未来可把熵指标推广为「梯度可消化性」之类的连续度量并给出 trade-off 曲线。
相关工作与启发¶
- vs Lee & Chung (2026, TAS):他们用「可迁移对抗样本稀缺」作为 AD 失败的经验信号,本文给出机制级解释——TAS 稀缺等价于教师在 \(\mathcal{S}_U\) 上过于自信,本文准则更可计算且 a priori。
- vs Li & Li (2025, AT feature learning):同样用 feature learning 框架,但他们只分析 AT;本文把 soft-label 教师纳入分析并给出关于「教师不对称信息」的新分支结论。
- vs Goldblum et al. (2020, ARD) / Zi et al. (2021):ARD 等只关注「能否传递鲁棒性」,未触及「为何更强教师反而更糟」这一悖论;本文用 \(\mathcal{S}_U\) 上的 entropy 把悖论彻底解开。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次把 robust overfitting 解释为「教师-学生在不可学习集上的信息错配」并配可证明的二分定理。
- 实验充分度: ⭐⭐⭐⭐ 跨 4 种架构 × 6 种方法 × 10 种子覆盖充分,但主要在 CIFAR-10/100 上验证,缺 ImageNet。
- 写作质量: ⭐⭐⭐⭐⭐ 经验现象 → 理论模型 → 实践指标的三段论非常顺。
- 价值: ⭐⭐⭐⭐⭐ 给 AD 工程团队提供了一个 O(N) 即可执行的教师筛选准则,几乎零成本落地。
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评