Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework with Unbiased Recovery and Relabeling¶
会议: AAAI 2026
arXiv: 2511.18858
代码: 无
领域: 模型压缩
关键词: 数据集蒸馏, 长尾分布, 单层优化, BN统计量校准, 无偏恢复
一句话总结¶
提出首个面向长尾分布的单层(uni-level)数据集蒸馏框架,通过专家模型去偏、BN统计量公平校准和置信度引导初始化三大策略,在CIFAR-100-LT上提升15.6%、Tiny-ImageNet-LT上提升11.8%,全面超越DAMED。
研究背景与动机¶
数据集蒸馏(Dataset Distillation, DD)旨在合成一个极小但具有代表性的数据集,使在此数据集上训练的模型达到近似在完整数据上训练的效果,对资源受限场景至关重要。
长尾分布下的核心挑战:现实场景中类别不平衡普遍存在(少数头类样本丰富,大量尾类样本稀少),但现有DD方法(DREAM、DATM、EDC等)都假设数据均匀分布,导致:
合成集被头类主导:尾类表示不足
BN统计量偏倚:不平衡的类别频率破坏了BN的均值和方差估计
训练不稳定:中频类接收到不稳定或不充分的梯度反馈
DAMED的局限(唯一先前工作):DAMED是唯一明确针对长尾DD的工作,但存在三个根本问题:
尾类表示不足:依赖在长尾数据上训练但未去偏的特征提取专家,尾类表示质量差
轨迹匹配的无意权衡:双层优化中,中频类受到不稳定梯度影响
计算开销大:双层轨迹优化需要大量GPU内存和时间
核心矛盾:轨迹匹配(trajectory matching)方法天然与去偏策略冲突——去偏操作(如重加权、logit校正)会改变专家的优化路径,破坏轨迹匹配的前提;而事后去偏又不可行。
切入角度:放弃轨迹匹配范式,转向单层统计对齐框架(uni-level statistical alignment)。通过两个互补组件实现无偏蒸馏:无偏合成图像恢复(通过Observer模型)+ 无偏软标签重标注(通过Teacher模型),配合三个专门策略实现。
方法详解¶
整体框架¶
Pipeline分为准备阶段和蒸馏阶段: 1. 训练去偏的Observer模型(用于BN统计量对齐)和Teacher模型(用于软标签生成) 2. 冻结Observer模型,在整个训练集上进行公平的BN统计量校准 3. 使用Teacher模型引导的置信度多轮初始化策略生成合成图像初始集 4. 通过BN统计量对齐恢复合成图像,然后用Teacher模型重标注软标签 5. 在蒸馏集上训练学生模型评估质量
关键设计¶
1. 专家模型去偏(Observer + Teacher)¶
- 功能:消除Observer和Teacher模型中的类别不平衡偏差
- 混合一致性损失(增强鲁棒性): $\(\mathcal{L}_{robust} = -\sum_{i=1}^{2} \cos(\mathbf{z}_i, \text{sg}(\mathbf{p}_{\bar{i}}))\)$ 对两个混合标签增强视图进行对称对齐,\(\text{sg}(\cdot)\) 为停止梯度算子,确保单侧对齐
- 类别去偏损失(重平衡类别监督): $\(\mathcal{L}_{debias} = \alpha \sum_{k=0}^{C-1} \frac{-(r_k)^{-q} y_k \log p_k}{\sum_j (r_j)^{-q}} - \beta \sum_{k=0}^{C-1} y_k \log p_k\)$ 其中 \(\alpha = (t/T)^2\), \(\beta = 1-\alpha\),动态调度使焦点逐渐转向少数类
- 设计动机:Observer偏倚→BN统计量偏→合成图像偏;Teacher偏倚→软标签不准→语义指导失效。必须在源头去偏
2. 公平BN统计量校准¶
- 功能:消除BN统计量中的样本内偏差(intra-class bias)和类间偏差(inter-class bias)
- 动态动量校准:冻结Observer模型参数,在整个训练集上做一次前向传播。对每个BN层、每个类别,使用动态调整的动量更新: $\(\mu_{l,t}^c = (1 - \alpha_t^c) \cdot \mu_{l,t-1}^c + \alpha_t^c \cdot \hat{\mu}_{l,t}^c, \quad \alpha_t^c = \frac{B_t^c}{N_{t-1}^c + B_t^c}\)$ 其中 \(B_t^c\) 是当前batch中类c的样本数,\(N_{t-1}^c\) 是之前的累积计数
- 全局均衡平均: $\(\mu_l(\mathcal{D}; \theta_R) = \frac{1}{C} \sum_{c=0}^{C-1} \mu_{l,T}^c(\mathcal{D}; \theta_R)\)$
- 设计动机:标准BN用固定动量的指数移动平均,最近的batch主导统计量而早期被遗忘。在长尾设置下,尾类每个样本都有高代表性价值,必须平等贡献。动态动量确保每个样本对最终统计量的贡献相等
3. 置信度引导的多轮初始化¶
- 功能:为合成数据集提供多样且高质量的初始化
- 核心思路:对每张真实图像生成多个增强变体(如随机裁剪),使用Teacher模型的负交叉熵评分。采用多轮选择策略:每轮每张图像最多贡献一个未使用的最高置信增强,确保样本级多样性
- 尾类处理:当尾类真实样本不足时,插入零初始化的占位符以保持跨类的结构一致性
- 设计动机:随机初始化收敛差;直接采样真实图像在尾类不可行(尾类样本太少)。多轮选择+置信度引导兼顾质量和多样性
损失函数 / 训练策略¶
- 专家模型训练:\(\mathcal{L} = \gamma_1 \mathcal{L}_{robust} + \gamma_2 \mathcal{L}_{debias}\)
- 统计对齐损失:\(\mathcal{L}(\mathcal{S}) = \sum_{l=1}^{L} \mathbf{D}_l^\mu(\mathcal{S}, \mathcal{D}; \theta_R) + \mathbf{D}_l^\sigma(\mathcal{S}, \mathcal{D}; \theta_R)\)
- 学生模型训练(评估):\(\mathcal{L}_{match} = \kappa_1 \cdot \mathcal{L}_{CE}(s(x_s^i), y_s^i) + \kappa_2 \cdot \|\tilde{\mathbf{y}}_s^i - s(x_s^i)\|_2^2\)
- 学生网络:CIFAR用depth-3 ConvNet,Tiny-ImageNet用depth-4 ConvNet,ImageNet-LT额外用ResNet-50
- 评估训练1000 epochs,实验重复5次,主要在单张RTX 3090上进行
实验关键数据¶
主实验¶
| 数据集 | IF | IPC | DAMED | 本文 | 提升 |
|---|---|---|---|---|---|
| CIFAR-10-LT | 100 | 10 | 53.4% | 62.7% | +9.3% |
| CIFAR-10-LT | 100 | 50 | 64.0% | 68.8% | +4.8% |
| CIFAR-100-LT | 10 | 10 | 31.5% | 47.1% | +15.6% |
| CIFAR-100-LT | 50 | 10 | 29.8% | 42.1% | +12.3% |
| Tiny-ImageNet-LT | 10 | 10 | 26.0% | 37.8% | +11.8% |
| ImageNet-LT | 5 | 10 | 20.8% | 24.7% | +3.9% |
| ImageNet-LT | 10 | 10 | 20.3% | 23.5% | +3.2% |
极端设置(IPC=1,每类仅1张合成图像)¶
| 数据集 | DAMED | 本文 | 提升 |
|---|---|---|---|
| CIFAR-10-LT (IF100) | 24.1% | 44.8% | +20.7% |
| CIFAR-100-LT (IF50) | 7.8% | 31.8% | +24.0% |
| Tiny-ImageNet-LT (IF100) | 6.0% | 20.1% | +14.1% |
消融实验(CIFAR-100-LT, IF=50)¶
| 配置 | IPC=10 | IPC=20 | IPC=50 |
|---|---|---|---|
| 无模型去偏 | 31.7 | 32.3 | 32.8 |
| 无统计量校准 | 40.9 | 41.8 | 42.1 |
| 无自适应初始化 | 40.8 | - | - |
| 完整方法 | 42.1 | 43.4 | 44.2 |
计算效率对比(运行时间)¶
| 方法 | CIFAR-10-LT (IF100) | CIFAR-100-LT (IF50) |
|---|---|---|
| DAMED: 专家训练 | 31388s | 26269s |
| DAMED: 蒸馏合成 | 30141s | 29328s |
| 本文: 专家训练 | 2395s | 2183s |
| 本文: 蒸馏合成 | 118s | 273s |
总耗时不到DAMED的1/20。
关键发现¶
- 模型去偏是最关键组件:移除后性能下降最大(42.1→31.7),因为偏倚专家直接限制了蒸馏的性能上限
- 极端不平衡下优势更大:IF=256(ImageNet-LT, ResNet-50)下本文48.2% vs DAMED 17.2%,提升31%
- 跨架构泛化强:在ConvNet-3/VGG-11/ResNet-18/AlexNet上均显著超越DAMED,且各架构间性能方差更小
- 尾类精度大幅提升:class-wise分析显示本文方法在头类和尾类上均优于DAMED,尤其尾类提升显著
- 内存恒定:不同IPC下GPU内存保持不变(约3.1GB),而DAMED内存随IPC线性增长
亮点与洞察¶
- 范式转变:从双层轨迹匹配→单层统计对齐,从根本上解决了去偏与轨迹匹配之间的矛盾
- 动态动量的数学优雅:\(\alpha_t^c = B_t^c / (N_{t-1}^c + B_t^c)\) 这一简单公式自然保证了每个样本无论出现顺序如何都平等贡献,同时消除了intra-class和inter-class偏差
- 20倍加速+内存恒定:计算效率的巨大提升使方法具有很强的实用性
- IPC=1的极端场景:在每类仅1张图像时仍能大幅超越基线,证明了去偏策略在信息极度匮乏时的价值
- 超越平衡数据集蒸馏:在IF=256时甚至超过了在完整平衡ImageNet-1K上蒸馏的某些方法
局限与展望¶
- 当前仅在图像分类任务上验证,可扩展到检测、分割等任务
- Teacher和Observer用相同去偏策略,可探索差异化的去偏方案
- 置信度初始化依赖增强策略的质量
- 可扩展到联邦学习或多域数据集蒸馏场景
- 未探索生成模型辅助的初始化方式
相关工作与启发¶
- DAMED (CVPR 2025):唯一先前长尾DD工作,用轨迹匹配+频率感知偏移,但继承了偏倚专家的表示偏差
- EDC (NeurIPS 2024):单层优化的数据集蒸馏,在平衡设置下效果好,但缺乏去偏策略
- RDED (CVPR 2024):基于真实图像增强的单层方法,在不平衡下尾类采样困难
- SRe2L (CVPR 2023):通过特征匹配替代轨迹匹配降低内存开销
- UniMix:类别感知的Mixup增强策略,为长尾识别中的尾类增强提供启发
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐