Rethinking Long-tailed Dataset Distillation: A Uni-Level Framework with Unbiased Recovery and Relabeling¶

会议: AAAI 2026
arXiv: 2511.18858
代码: 无
领域: 模型压缩
关键词: 数据集蒸馏, 长尾分布, 单层优化, BN统计量校准, 无偏恢复

一句话总结¶

提出首个面向长尾分布的单层(uni-level)数据集蒸馏框架，通过专家模型去偏、BN统计量公平校准和置信度引导初始化三大策略，在CIFAR-100-LT上提升15.6%、Tiny-ImageNet-LT上提升11.8%，全面超越DAMED。

研究背景与动机¶

数据集蒸馏(Dataset Distillation, DD)旨在合成一个极小但具有代表性的数据集，使在此数据集上训练的模型达到近似在完整数据上训练的效果，对资源受限场景至关重要。

长尾分布下的核心挑战：现实场景中类别不平衡普遍存在（少数头类样本丰富，大量尾类样本稀少），但现有DD方法（DREAM、DATM、EDC等）都假设数据均匀分布，导致：

合成集被头类主导：尾类表示不足

BN统计量偏倚：不平衡的类别频率破坏了BN的均值和方差估计

训练不稳定：中频类接收到不稳定或不充分的梯度反馈

DAMED的局限（唯一先前工作）：DAMED是唯一明确针对长尾DD的工作，但存在三个根本问题：

尾类表示不足：依赖在长尾数据上训练但未去偏的特征提取专家，尾类表示质量差

轨迹匹配的无意权衡：双层优化中，中频类受到不稳定梯度影响

计算开销大：双层轨迹优化需要大量GPU内存和时间

核心矛盾：轨迹匹配(trajectory matching)方法天然与去偏策略冲突——去偏操作（如重加权、logit校正）会改变专家的优化路径，破坏轨迹匹配的前提；而事后去偏又不可行。

切入角度：放弃轨迹匹配范式，转向单层统计对齐框架(uni-level statistical alignment)。通过两个互补组件实现无偏蒸馏：无偏合成图像恢复（通过Observer模型）+ 无偏软标签重标注（通过Teacher模型），配合三个专门策略实现。

方法详解¶

整体框架¶

Pipeline分为准备阶段和蒸馏阶段： 1. 训练去偏的Observer模型（用于BN统计量对齐）和Teacher模型（用于软标签生成） 2. 冻结Observer模型，在整个训练集上进行公平的BN统计量校准 3. 使用Teacher模型引导的置信度多轮初始化策略生成合成图像初始集 4. 通过BN统计量对齐恢复合成图像，然后用Teacher模型重标注软标签 5. 在蒸馏集上训练学生模型评估质量

关键设计¶

1. 专家模型去偏（Observer + Teacher）¶

功能：消除Observer和Teacher模型中的类别不平衡偏差
混合一致性损失（增强鲁棒性）： $$\mathcal{L}_{robust} = -\sum_{i=1}^{2} \cos(\mathbf{z}_i, \text{sg}(\mathbf{p}_{\bar{i}}))$$ 对两个混合标签增强视图进行对称对齐，$\text{sg}(\cdot)$ 为停止梯度算子，确保单侧对齐
类别去偏损失（重平衡类别监督）： $$\mathcal{L}_{debias} = \alpha \sum_{k=0}^{C-1} \frac{-(r_k)^{-q} y_k \log p_k}{\sum_j (r_j)^{-q}} - \beta \sum_{k=0}^{C-1} y_k \log p_k$$ 其中 $\alpha = (t/T)^2$, $\beta = 1-\alpha$，动态调度使焦点逐渐转向少数类
设计动机：Observer偏倚→BN统计量偏→合成图像偏；Teacher偏倚→软标签不准→语义指导失效。必须在源头去偏

2. 公平BN统计量校准¶

功能：消除BN统计量中的样本内偏差(intra-class bias)和类间偏差(inter-class bias)
动态动量校准：冻结Observer模型参数，在整个训练集上做一次前向传播。对每个BN层、每个类别，使用动态调整的动量更新： $$\mu_{l,t}^c = (1 - \alpha_t^c) \cdot \mu_{l,t-1}^c + \alpha_t^c \cdot \hat{\mu}_{l,t}^c, \quad \alpha_t^c = \frac{B_t^c}{N_{t-1}^c + B_t^c}$$ 其中 $B_t^c$ 是当前batch中类c的样本数，$N_{t-1}^c$ 是之前的累积计数
全局均衡平均： $$\mu_l(\mathcal{D}; \theta_R) = \frac{1}{C} \sum_{c=0}^{C-1} \mu_{l,T}^c(\mathcal{D}; \theta_R)$$
设计动机：标准BN用固定动量的指数移动平均，最近的batch主导统计量而早期被遗忘。在长尾设置下，尾类每个样本都有高代表性价值，必须平等贡献。动态动量确保每个样本对最终统计量的贡献相等

3. 置信度引导的多轮初始化¶

功能：为合成数据集提供多样且高质量的初始化
核心思路：对每张真实图像生成多个增强变体（如随机裁剪），使用Teacher模型的负交叉熵评分。采用多轮选择策略：每轮每张图像最多贡献一个未使用的最高置信增强，确保样本级多样性
尾类处理：当尾类真实样本不足时，插入零初始化的占位符以保持跨类的结构一致性
设计动机：随机初始化收敛差；直接采样真实图像在尾类不可行（尾类样本太少）。多轮选择+置信度引导兼顾质量和多样性

损失函数 / 训练策略¶

专家模型训练：$\mathcal{L} = \gamma_1 \mathcal{L}_{robust} + \gamma_2 \mathcal{L}_{debias}$
统计对齐损失：$\mathcal{L}(\mathcal{S}) = \sum_{l=1}^{L} \mathbf{D}_l^\mu(\mathcal{S}, \mathcal{D}; \theta_R) + \mathbf{D}_l^\sigma(\mathcal{S}, \mathcal{D}; \theta_R)$
学生模型训练（评估）：$\mathcal{L}_{match} = \kappa_1 \cdot \mathcal{L}_{CE}(s(x_s^i), y_s^i) + \kappa_2 \cdot \|\tilde{\mathbf{y}}_s^i - s(x_s^i)\|_2^2$
学生网络：CIFAR用depth-3 ConvNet，Tiny-ImageNet用depth-4 ConvNet，ImageNet-LT额外用ResNet-50
评估训练1000 epochs，实验重复5次，主要在单张RTX 3090上进行

实验关键数据¶

主实验¶

数据集	IF	IPC	DAMED	本文	提升
CIFAR-10-LT	100	10	53.4%	62.7%	+9.3%
CIFAR-10-LT	100	50	64.0%	68.8%	+4.8%
CIFAR-100-LT	10	10	31.5%	47.1%	+15.6%
CIFAR-100-LT	50	10	29.8%	42.1%	+12.3%
Tiny-ImageNet-LT	10	10	26.0%	37.8%	+11.8%
ImageNet-LT	5	10	20.8%	24.7%	+3.9%
ImageNet-LT	10	10	20.3%	23.5%	+3.2%

极端设置（IPC=1，每类仅1张合成图像）¶

数据集	DAMED	本文	提升
CIFAR-10-LT (IF100)	24.1%	44.8%	+20.7%
CIFAR-100-LT (IF50)	7.8%	31.8%	+24.0%
Tiny-ImageNet-LT (IF100)	6.0%	20.1%	+14.1%

消融实验（CIFAR-100-LT, IF=50）¶

配置	IPC=10	IPC=20	IPC=50
无模型去偏	31.7	32.3	32.8
无统计量校准	40.9	41.8	42.1
无自适应初始化	40.8	-	-
完整方法	42.1	43.4	44.2

计算效率对比（运行时间）¶

方法	CIFAR-10-LT (IF100)	CIFAR-100-LT (IF50)
DAMED: 专家训练	31388s	26269s
DAMED: 蒸馏合成	30141s	29328s
本文: 专家训练	2395s	2183s
本文: 蒸馏合成	118s	273s

总耗时不到DAMED的1/20。

关键发现¶

模型去偏是最关键组件：移除后性能下降最大（42.1→31.7），因为偏倚专家直接限制了蒸馏的性能上限
极端不平衡下优势更大：IF=256（ImageNet-LT, ResNet-50）下本文48.2% vs DAMED 17.2%，提升31%
跨架构泛化强：在ConvNet-3/VGG-11/ResNet-18/AlexNet上均显著超越DAMED，且各架构间性能方差更小
尾类精度大幅提升：class-wise分析显示本文方法在头类和尾类上均优于DAMED，尤其尾类提升显著
内存恒定：不同IPC下GPU内存保持不变（约3.1GB），而DAMED内存随IPC线性增长

亮点与洞察¶

范式转变：从双层轨迹匹配→单层统计对齐，从根本上解决了去偏与轨迹匹配之间的矛盾
动态动量的数学优雅：$\alpha_t^c = B_t^c / (N_{t-1}^c + B_t^c)$ 这一简单公式自然保证了每个样本无论出现顺序如何都平等贡献，同时消除了intra-class和inter-class偏差
20倍加速+内存恒定：计算效率的巨大提升使方法具有很强的实用性
IPC=1的极端场景：在每类仅1张图像时仍能大幅超越基线，证明了去偏策略在信息极度匮乏时的价值
超越平衡数据集蒸馏：在IF=256时甚至超过了在完整平衡ImageNet-1K上蒸馏的某些方法

局限与展望¶

当前仅在图像分类任务上验证，可扩展到检测、分割等任务
Teacher和Observer用相同去偏策略，可探索差异化的去偏方案
置信度初始化依赖增强策略的质量
可扩展到联邦学习或多域数据集蒸馏场景
未探索生成模型辅助的初始化方式

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐