ICLR 2026 模型压缩知识蒸馏条件互信息(CMI) 可微 JPEG 输入扰动冻结教师交替优化

Differentiable JPEG-based Input Perturbation for Knowledge Distillation Amplification via Conditional Mutual Information Maximization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ZKYPoPn0fP
代码: 待确认
领域: 模型压缩 / 知识蒸馏
关键词: 知识蒸馏, 条件互信息(CMI), 可微 JPEG, 输入扰动, 冻结教师, 交替优化

一句话总结¶

在冻结教师前面插一层可微 JPEG 压缩层，只训练 128 个量化参数来扰动教师输入、直接最大化教师的条件互信息(CMI)，从而让教师输出更"软"更有信息量的监督信号——一个即插即用、不改教师权重的蒸馏增益器，学生 Top-1 最高提升 4.11%。

研究背景与动机¶

领域现状: 知识蒸馏(KD)是主流模型压缩手段，但传统教师只用交叉熵(CE)训练，没人关心它"会不会教"。近期 MCMI(Ye et al., 2024)证明：训练教师时最大化条件互信息 \(I(X;\hat{Y}\mid Y)\) 能让同类样本预测分布在概率单纯形上更分散、教师监督信号更软，从而提升蒸馏效果。
现有痛点: ① MCMI 这类"面向学生的教师"必须微调教师权重，而现实里教师往往是固定/闭源/超大的，重训练不现实；② MCMI 用代理目标且固定类中心 \(S_y\)，微调时中心会漂移，代理本身不精确；③ 另一条路是输入扰动(对抗样本/CKD 自适应压缩)，但要额外生成样本或逐图选量化表，计算开销大。
核心矛盾: 既想吃到"CMI 最大化让教师变好教"的红利，又不能动教师权重，还不能引入高昂的逐样本生成成本。
本文目标: 在完全冻结教师的前提下，用极少参数把教师的 CMI 拉高，且即插即用、与任意 KD 流程正交。
核心 idea: 把"改教师"换成"改教师看到的输入"——在教师前插一个可微 JPEG 层 \(J_d\)，仅训练它的量化参数 \(w\) 来扰动输入图像，使扰动后 CMI 最大化；并用交替优化动态更新类中心，绕开 MCMI 固定中心的缺陷。

方法详解¶

整体框架¶

DJIP 分两阶段：(1) 可微 JPEG 层训练——输入 \(x\) 经 \(\tilde{x}_w=J_d(x,w)\) 扰动后送入冻结教师，在 CE 与 DJIP 双目标下只优化 JPEG 编码参数 \(w\) 以最大化扰动后 CMI；(2) 学生蒸馏——把训好的 JPEG 层接进标准 KD 流程，教师吃扰动后的图像、吐出更有信息量的软标签，照常蒸馏学生。JPEG 层是"一面透镜"：拿掉即恢复原模型，且不改任何 KD 超参。

flowchart LR
    X[输入图像 x] --> JD[可微 JPEG 层 J_d<br/>仅 128 个量化参数 w]
    JD --> XT[扰动图像 x̃_w]
    XT --> T[冻结教师 f]
    T --> CMI[最大化扰动后 CMI<br/>+ 最小化 CE]
    CMI -.交替优化更新 w 与中心.-> JD
    JD ==训练完成,接入标准KD==> KD[学生蒸馏]
    X --> KD
    KD --> S[学生网络]

关键设计¶

1. 可微 JPEG 层作为输入扰动器：用压缩参数当"旋钮"调教师。 标准 JPEG 把 RGB 转 YCbCr、分 8×8 块做 DCT、再用量化表 \(Q\) 均匀量化，但其硬量化 \(Q_u\) 不可导。DJIP 沿用 JPEG-DL 的可微软量化 \(Q_d\)（由量化步长 \(q\) 和锐度 \(\alpha\) 参数化，用 bin 上的平滑期望近似 \(Q_u\)），使整层 \(J_d\) 端到端可微，重建图为 \(\tilde{x}_w=J_d(x,w)\)，\(w=(Q,\alpha)\)。与 JPEG-DL 把该层当 DNN 一部分联合训权重不同，DJIP 把它从教师剥离、教师彻底冻结，只用这 128 个量化参数当作扰动旋钮——这也是它"轻量"的根源：搜索空间极小却能撬动教师行为。

2. CE–CMI 联合目标 + 扰动后 CMI。 因为 \(\tilde{X}_w\) 是 \(X\) 的确定性函数，马尔可夫链 \(Y\to X\to\tilde{X}_w\to\hat{Y}\) 成立，于是 \(I(X;\hat{Y}\mid Y)=I(\tilde{X}_w;\hat{Y}\mid Y)\)（即"扰动后 CMI"）。目标是在压低 CE 的同时把扰动后 CMI 拉高，优化变量从 MCMI 的教师参数 \(\theta\) 换成 JPEG 参数 \(w\)：

\[\min_{w}\ \Big\{\,\mathbb{E}_X\big[H(P_{Y|X},f(\tilde{X}_w))\big]-\lambda\, I(\tilde{X}_w;\hat{Y}\mid Y)\,\Big\}\]

其中 \(\lambda>0\) 权衡 CE 与 CMI。CMI 的表达式里 \(I(X;\hat{Y}\mid Y=y)=\mathbb{E}_{X|Y}[D_{KL}(f(X)\|S_y)]\)，\(S_y\) 是 \(y\)-簇在单纯形上的中心，CMI 越大说明同类预测越分散、监督越软。

3. 引入"反向通道"把问题改写成双重最小化。 直接最大化 CMI 的麻烦在于中心 \(S_y\) 依赖该类全部样本的 \(f(x_j)\)，难以数值求解、无法 GPU 并行；MCMI 干脆固定中心，但中心会漂移、理论不严。DJIP 引入一个虚拟"反向通道"分布 \(Q(\cdot\mid i,y)\)，由 Theorem 1 把原目标等价改写为对 \(w\) 和 \(\{Q\}\) 的双重最小化，且内层最小化在 \(Q(x\mid i,y)=\dfrac{P_{X|Y}(x\mid y)\,f(\tilde{x}_w)[i]}{P_{\hat{Y}|Y}(i\mid y)}\) 时取得。经验目标在 mini-batch 上写成 \(L_B=L_{CE}-\lambda L_{DJIP}\)，其中 \(L_{DJIP}=-\frac{1}{|B|}\sum_{(x,y)}\sum_i f(\tilde{x}_w)[i]\ln Q(x\mid i,y)\)。

4. 交替优化算法：让类中心动态更新。 基于双重最小化，算法交替两步——Step 1（固定 \(w\)）按 \(S_y[i]=\frac{1}{|D_y|}\sum_{x_j\in D_y}f(J_d(x_j,w))[i]\) 经验更新中心，再据此算出 \(Q(x\mid i,y)\)；Step 2（固定 \(\{Q\}\)）用标准 SGD 更新 \(w\)。如此每轮都重新估计中心，避免 MCMI 固定中心的近似误差，训练更稳更有效——这正是 DJIP 在自由度远小于 MCMI（128 参数 vs 整个教师）时仍能匹敌甚至超越它的原因。

实验关键数据¶

在 CIFAR-100 与 ImageNet 上覆盖同构/异构、CNN/ViT 多种师生对，每组 3 次取平均；CMI 在无数据增强的训练集上测量。

主实验（CIFAR-100 同构师生，节选 Top-1 %）¶

Teacher→Student	方法	CE 教师	DJIP 教师	Δ
ResNet-32×4→ResNet-8×4	KD	73.33	74.38	+1.05
VGG-13→VGG-8	KD	72.98	74.01	+1.03
ResNet-110→ResNet-32	KD	73.08	73.71	+0.63
ResNet-32×4→ResNet-8×4	FT	72.86	73.76	+0.90
WRN-40-2→WRN-40-1	RKD	72.22	72.36	+0.14

CMI 普遍从 CE 教师的 ~0.006–0.16 抬升到 DJIP 教师的 ~0.25–0.72，证明扰动确实显著放大了教师 CMI。

关键发现 / ImageNet & 跨范式¶

设置	方法	CE	DJIP	Δ
ResNet-34→ResNet-18 (ImageNet)	KD	70.66	71.65	+0.99
ResNet-50→MobileNetV1 (ImageNet)	AT	69.56	70.57	+1.01
CIFAR-100 异构师生(节选)	SP	73.48	75.92	+2.44
CIFAR-100 异构(最大增益)	—	—	—	+4.11

增益在异构师生(容量差大)时更显著——CIFAR-100 同构最高 +2.44%，异构/跨范式最高 +4.11%。
正交性强：在 KD/DKD/DIST/WTTM/CC/RKD/AT/FitNet/FT/SP/ITRD/CRD/LSKD 等 13 种 distiller 上几乎全员提升，且可叠加在 MCMI 之上。
以小博大：仅调 128 个量化参数即可在多数场景匹敌或超越自由度大得多的 MCMI；相比逐图选量化表的 CKD/TALD，用一张全局共享量化表就取得相当或更好的结果，开销低得多。

亮点与洞察¶

范式转换：把"让教师变好教"的优化对象从教师权重搬到教师输入，彻底回避重训练大教师/闭源教师的现实障碍。
极致轻量：128 个量化参数是整个可训练面，即插即用、拔掉无残留、不动任何 KD 超参，工程友好度极高。
理论补强：用"反向通道 + 双重最小化"给 CMI 最大化一个可并行、可动态更新中心的严格形式，修正了 MCMI 固定中心的近似缺陷。
CMI 视角的可解释性：实验直接报告 CMI 数值随扰动上升，把"软标签更有信息量"量化成可观测指标。

局限与展望¶

依赖 CMI 假设：方法建立在"更高 CMI ⇒ 更好蒸馏"的前提上，若教师本身分布异常或任务不满足该规律，增益可能受限。
JPEG 表达力上限：128 个量化参数+单张全局量化表自由度有限，作者也承认这是相对 MCMI 的"先天劣势"，在某些场景增益较小(+0.04~+0.2)。
SGD 非全局最优：交替算法收敛到局部解，是 SGD 类方法的通病而非本算法独有。
图像域绑定：JPEG 压缩天然面向自然图像，迁移到非图像模态(文本/音频/点云)需另设可微扰动算子。

评分¶

新颖性: ⭐⭐⭐⭐ — "冻结教师 + 可微 JPEG 扰动输入最大化 CMI"是清晰且少见的视角转换，反向通道改写为方法提供了扎实理论支撑。
实验充分度: ⭐⭐⭐⭐ — 两数据集、同构/异构、CNN/ViT、13 种 distiller、与 MCMI/CKD/TALD 全面对比，覆盖面足够；但增益部分场景偏小、缺更大规模教师与多模态验证。
写作质量: ⭐⭐⭐⭐ — 动机—理论—算法—实验脉络清晰，CMI 与双重最小化推导交代到位，框架图与表格规整。
价值: ⭐⭐⭐⭐ — 即插即用、不改教师、参数极少，对教师闭源/超大或部署受限的工业场景实用性高。