Inconsistency-Aware Minimization: Improving Generalization with Unlabeled Data¶
会议: ICML 2026
arXiv: 2605.31324
代码: https://github.com/heesung-k/IAM
领域: 优化与正则化 / 半监督 / 自监督
关键词: 泛化界, Fisher 信息矩阵, 锐度感知优化, KL 散度正则, 无标签数据
一句话总结¶
本文提出一种只用无标签数据就能计算的"局部不一致性" \(S_\rho(\theta)\) —— 即参数球内 KL 散度的最坏值 —— 并把它当作训练正则项,得到 IAM 优化器,在监督任务上和 SAM/ASAM 持平甚至更好,在半监督 (FixMatch) 与自监督 (SimCLR) 场景下因能吃无标签批量数据而带来额外提升。
研究背景与动机¶
领域现状:深度网络的泛化研究目前主要沿两条线展开 —— 一是以 SAM/ASAM 为代表的锐度感知优化器,把 loss Hessian 的最大特征值 \(\lambda_{\max}(H)\) 当作"平坦度"代理量来逼近最小值附近的几何;二是 Jiang 等人提出的 disagreement、Johnson–Zhang 的 inconsistency 这类基于"输出差异"的度量,把多模型/多数据划分之间的 KL 当作泛化代理。
现有痛点:两条线各有硬伤。锐度类度量在不同权重衰减、不同数据增广组合下,会出现"局部正相关、全局负相关"的反常现象,被 Andriushchenko 等指出其本质是和训练超参纠缠而非真泛化。Disagreement/inconsistency 虽然只用无标签数据就能算,但定义上要训多套模型再取期望,单模型场景下既不可微也不可正则化,工程上不可用。
核心矛盾:作者把矛盾点定位到——能不能找到一个"既只依赖单个模型、又可微、又只需无标签数据"的几何度量,让它既能预测泛化差,又能直接塞进训练 loss 当成正则项?锐度类满足前两条但要训练数据;inconsistency 类只满足"无标签"。
本文目标:构造一个新度量 \(S_\rho(\theta)\),同时具备 (i) 单模型可算 (ii) 可微 (iii) 只需无标签数据 三条性质;并基于它设计一个能同时服务监督、半监督、自监督的统一正则器。
切入角度:从信息几何视角看,KL 散度在参数空间的二阶展开恰好是 Fisher 信息矩阵的二次型 \(\tfrac12\delta^\top F(\theta)\delta\),而 Gauss–Newton 近似又让 \(F\) 与 loss Hessian \(H\) 在交叉熵下重合。如果把"输出分布对参数扰动的最坏 KL"作为度量,那它既继承了锐度类的 Hessian 含义,又因为 KL 是输出空间的量、不需要真实标签,所以无标签可算。
核心 idea:定义 \(S_\rho(\theta)=\max_{\|\delta\|\le\rho}\mathbb{E}_x[\mathrm{KL}(f(x;\theta)\|f(x;\theta+\delta))]\),证明它近似 \(\tfrac12\rho^2\lambda_{\max}(F(\theta))\),再用一步 Power Iteration 算它的梯度,把它当作 SAM 的"KL 替身"塞进训练目标。
方法详解¶
整体框架¶
方法分两层:度量层定义并估计 \(S_\rho(\theta)\),优化层把它接入训练目标。度量估计走 Algorithm 1:从各向同性高斯采初始扰动 \(\delta_0\),迭代 \(K\) 步 normalized gradient ascent —— 因为 KL 对 \(\delta\) 的二阶近似是 \(F\delta\),所以归一化梯度上升一步等价于 Power Iteration 一步,可以以 \(K\) 次反传的代价逼近 \(F\) 的主特征向量。优化层提供两种变体:IAM-D 把 \(\beta S_\rho(\theta)\) 直接加到训练 loss 上做软正则;IAM-S 仿 SAM,在估计出的扰动点 \(\theta+\delta^*\) 处算训练 loss 的梯度,得到 KL 驱动的对抗式更新。整套 pipeline 与 SAM 在每步开销上几乎一致(都需要一次额外的梯度计算),但 KL 那一支只看模型输出分布,不接触 \(y\),因此可以在 FixMatch、SimCLR 这类有大批无标签数据的 pipeline 中天然吃进所有无标签样本。
关键设计¶
-
局部不一致性 \(S_\rho(\theta)\) 与 FIM 联系:
- 功能:用一个单模型、单 batch 的量预测泛化差,并提供可微的正则信号。
- 核心思路:定义 \(S_\rho(\theta)=\max_{\|\delta\|\le\rho}\mathbb{E}_x[\mathrm{KL}(f(x;\theta)\|f(x;\theta+\delta))]\),对 \(\delta\) 做二阶 Taylor 展开后变为 \(\max\tfrac12\delta^\top F(\theta)\delta=\tfrac12\rho^2\lambda_{\max}(F(\theta))\)。因为 \(F\) 的计算只用到 \(\nabla_\theta z\) 与 softmax 输出 \(f\),整个过程不出现真实标签 \(y\)。在交叉熵设置下又有 \(H\approx G=F\),所以 \(S_\rho\) 在解的邻域里几何上等同于"无标签版的最大特征值锐度"。
- 设计动机:要破"锐度需要标签 + inconsistency 要训多模型"的二选一困境,需要在输出空间而非 loss 空间做几何,KL 的二阶展开恰好把"输出敏感度"翻译回 FIM 主轴,从而获得理论可解释性。论文还给出 Theorem 4.1 把 \(\lambda_{\max}(F_S)\) 嵌入到 Luo 等的泛化界里,论证近插值情形下用 \(S_\rho\) 替换 \(\lambda_{\max}(H)\) 不掉精度。
-
Power Iteration 估计 + IAM-S/D 两种注入方式:
- 功能:把不可解的 \(\max\) 问题降为 \(K=1\) 步可执行算法,并提供两种把 \(S_\rho\) 注入训练目标的接口。
- 核心思路:用 \(\delta_{k+1}=\rho\,g_k/\|g_k\|\),其中 \(g_k=\nabla_\delta \mathbb{E}_x \mathrm{KL}(f(x;\theta)\|f(x;\theta+\delta))\),等价于对 \(F\) 做归一化 Power Iteration,\(K=1\) 即可逼近主特征方向。注入层面 IAM-D 直接最小化 \(L(\theta)+\beta S_\rho(\theta)\);IAM-S 最小化 \(L(\theta+\delta^*)\),跟 SAM 同形但扰动方向来自 KL 而非训练梯度。作者论证因为 \(\pm\delta\) 等概率出现,一阶项 \(\delta^\top\nabla_\theta L\) 在期望下被抵消,IAM-S 隐式地在压制 \(G(\theta)=F(\theta)\) 的主特征值。
- 设计动机:单步归一化梯度上升的计算量恰好与 SAM 的一步对抗扰动等价,使 IAM 在"每步成本"维度上与 SAM 公平可比;同时 D/S 两种接口让它既能做 plug-in 正则(D 易拼到 FixMatch/SimCLR)也能做 SAM 风格的 worst-case minimization(S 在监督任务上效果更稳)。
-
无标签数据的天然适配:
- 功能:让正则项可在半监督、自监督训练中吃下所有无标签样本,缓解"锐度只能在小标签子集上估"的偏差。
- 核心思路:\(S_\rho\) 的估计只需要前向跑模型拿 \(f(x;\theta)\) 和反向求 \(\nabla_\delta \mathrm{KL}\),过程中没有 \(y\)。在 FixMatch 中,作者把 \(\beta S_\rho(\theta)\) 直接加在原 FixMatch 目标上,KL 期望在整个 batch(labeled+unlabeled)上取;在 SimCLR 中,KL 期望在投影头输出上取,仍然不需要标签。
- 设计动机:论文指出,"在稀疏标签集上度量平坦度"并不能反映整个数据流形上的真实平坦度——把 SAM 直接套到 FixMatch 的 labeled loss 上反而无提升(见 Appx. E.4)。IAM 借助 KL 的标签无关性把二阶几何信号扩展到无标签分布上,这是它在半/自监督上能超 SAM 的关键。
损失函数 / 训练策略¶
监督训练目标为 \(L_{\text{IAM-D}}=L(\theta)+\beta S_\rho(\theta)\) 或 \(L_{\text{IAM-S}}=L(\theta+\delta^*)\),每步用 Algorithm 1 取 \(K=1\) 估扰动。CIFAR-10 用 \(\beta=1.0,\rho=0.1\),CIFAR-100 取 \(\beta=10.0,\rho=0.1\)(IAM-D)或 \(\rho=0.5\)(IAM-S);ImageNet 用 \(\rho=0.2\) (S) / \(0.1\) (D)。半监督场景里 KL 在 labeled+unlabeled 整个 batch 上取期望;自监督里 KL 在投影头输出分布上算。
实验关键数据¶
主实验¶
| 数据集 | 模型 | 指标 | SGD | SAM | ASAM | IAM-D | IAM-S |
|---|---|---|---|---|---|---|---|
| CIFAR-10 | WRN-16-8 | Test Error | 3.68 | 3.31 | 3.15 | 3.28 | 3.28 |
| CIFAR-100 | WRN-16-8 | Test Error | 19.17 | 17.63 | 17.15 | 17.16 | 16.82 |
| F-MNIST | WRN-28-10 | Test Error | 4.45 | 4.13 | 4.11 | 4.13 | 4.10 |
| SVHN | WRN-28-10 | Test Error | 3.82 | 3.47 | 3.24 | 3.13 | 3.13 |
| ImageNet | ResNet-50 | Top-1 Err | 22.66 | 21.80 | – | 21.36 | 21.72 |
| ImageNet | ResNet-50 | Top-5 Err | 6.51 | 5.99 | – | 5.70 | 5.90 |
监督场景下 IAM 在小数据集上和 ASAM/SAM 同档,在更难的 CIFAR-100 上 IAM-S 反超 SAM 0.81%;ImageNet 上 IAM-D 直接打过更强的 SAM 基线。
消融实验¶
| 配置 | CIFAR-10 (250 labels) | CIFAR-10 (4000 labels) | CIFAR-100 (2500 labels) | CIFAR-100 (10000 labels) | 说明 |
|---|---|---|---|---|---|
| SGD | 63.82 | 22.45 | 68.91 | 45.94 | 无几何正则 |
| SAM (labeled only) | 63.91 | 19.95 | 69.53 | 43.30 | 锐度只见标签子集 |
| IAM-D (labeled+unlabeled) | 61.77 | 15.07 | 66.98 | 40.02 | KL 吃整 batch |
| FixMatch | 6.26 | 4.10 | 32.84 | 22.93 | 强半监督基线 |
| FixMatch + IAM-D | 5.30 | 3.88 | 28.95 | 21.99 | 即插即用提升 |
可以看到在 250 labels 的极端稀缺设置下,SAM 反而比 SGD 略差(63.91 vs 63.82),印证作者关于"小标签集上的平坦度不可靠"的论断;而 IAM-D 把信号扩展到无标签批次后稳定降到 61.77,叠加 FixMatch 后再压到 5.30,是该设置下相对 FixMatch 最大的相对降幅。
关键发现¶
- 在 6CNN 这种小模型上,\(S_\rho\)、\(\mathrm{Tr}(H)\)、\(\lambda_{\max}(H)\) 与泛化差的 Kendall \(\tau\) 都在 0.51–0.54,差别不大;但在 WRN28-2 加大数据增广和权重衰减后,\(\mathrm{Tr}(H)\) 和 \(\lambda_{\max}(H)\) 的全局相关性翻到负值 (\(-0.04\)、\(-0.12\)),而 \(S_\rho\) 保持正相关 (\(0.37\))。这说明 KL 度量对训练超参的尺度效应更鲁棒。
- IAM-D 在训练动态图里明显压制了 \(S_\rho\) 的上升,并且学习率衰减后没出现 SGD 那种"测试精度回落 + inconsistency 反弹"的过拟合行为,说明它确实把模型限在输出更稳的参数区域。
- 把 SAM 直接套在 FixMatch 的 labeled loss 上无提升(Appx. E.4),但换成 IAM-D 在整 batch 上算 KL 就有显著提升,反推论证了"标签无关 + 用上无标签数据"是这个增益的关键来源,不是单纯"加个 KL 项"。
亮点与洞察¶
- 把 KL 散度的二阶展开当作"输出空间锐度"来用,是这篇论文最干净的一步。它一次解决了三个问题:单模型可算(不像 inconsistency 要训多套模型)、可微(disagreement 不可微)、无标签(锐度需要标签)。这种"重新选坐标"的思路很值得在其它正则量上复用。
- 论文用 Power Iteration 视角解释为什么 \(K=1\) 就够:单步归一化梯度上升等价于一次 Power Iteration,已能逼近 FIM 主特征向量;同时 \(\pm\delta\) 对称采样让一阶项在期望下消失,使 IAM-S 隐式做的就是主特征值最小化。这把 SAM 的成功解释为"FIM 主轴上的压制",给出了一个更几何的解释。
- 半监督里 IAM-D + FixMatch 的提升告诉我们:很多 SSL 方法只压一致性损失,没有压"参数扰动下输出分布的最坏移动量"。后者其实可以作为新的 SSL 正则套件,适用于任何输出概率分布的网络(分类、对比学习投影头、扩散模型 score head 等)。
局限与展望¶
- 估计 \(S_\rho\) 仍然要一次额外的全模型反传,与 SAM 同代价但是是 SGD 的 2 倍。论文承认未来需要更便宜的版本(如低秩近似 FIM 或 Hutchinson 估计)。
- 理论部分(Theorem 4.1)依赖近插值假设 \(\varepsilon_R\approx 0\),离插值较远的中间阶段 \(\lambda_{\max}(F)\) 与 \(\lambda_{\max}(H)\) 的差距没被覆盖。
- 论文只在 CV 与 ResNet/WRN/ViT 上做了实验,对 LLM、扩散模型、回归任务尚未验证;当输出不是 categorical softmax(如连续高斯输出)时,KL 二阶展开形式会改变,需要重新推导对应的 \(F\)。
- 自监督部分只测了 SimCLR + ResNet-18 + linear probe,没在 MAE/DINO/MoCo 等更强的 SSL 上验证;且自监督的 \(\rho\)、\(\beta\) 调参敏感性论文里没系统报告,工程落地仍需调参。
相关工作与启发¶
- vs SAM (Foret et al., 2021):SAM 在训练 loss 的最坏扰动点求梯度,需要 \(y\)。本文把 KL 的最坏扰动点拿来求 \(L\) 的梯度(IAM-S)或直接做软正则(IAM-D),不需要 \(y\)。两者每步成本相同但 IAM 在 CIFAR-100/ImageNet/半监督上更强。
- vs ASAM (Kwon et al., 2021):ASAM 用 adaptive sharpness 解决 SAM 的尺度不变性问题,但仍依赖训练 loss。本文从输出 KL 出发自然就有尺度不变性(softmax 输出对线性重参数化不变),不需要额外 reweighting。
- vs Johnson & Zhang (2023) Inconsistency:他们的 inconsistency 要训多个模型再取 KL 期望,论文证明在各向同性后验假设下 \(S_\rho\) 与他们的条件 inconsistency 成比例(系数 \(m/(2C)\) 到 \(m/2\))。也就是说 IAM 本质上是把多模型 inconsistency 压缩成单模型可微版本,去掉了 ensembling 代价。
- vs Explicit Jacobian Regularization (Lee et al., 2023):他们证明"随机噪声经 Jacobian 列空间投影后变成有意义扰动",本文的 \(F(\theta)\varepsilon\) 实际上就是该机制在 FIM 主特征空间上的实例化,给 EJR 提供了输出空间的解释。
评分¶
- 新颖性: ⭐⭐⭐⭐ KL 的二阶展开当输出空间锐度并接到无标签 SSL 是清晰的新视角,但单看任一组件(FIM/SAM/inconsistency)都不算新。
- 实验充分度: ⭐⭐⭐⭐ 覆盖了 CIFAR/F-MNIST/SVHN/ImageNet + 半监督 + 自监督,缺 LLM 与扩散模型,且自监督只一个基线。
- 写作质量: ⭐⭐⭐⭐ 理论与算法描述都很清晰,公式与算法伪代码完整,但中间几个 figure 描述较散。
- 价值: ⭐⭐⭐⭐ 对 SSL 工程师有立即可用价值,可作为 FixMatch/SimCLR 的 plug-in 正则;对锐度泛化理论方向也提供了输出空间的新坐标。