Rethinking Dataset Distillation: Hard Truths about Soft Labels¶

会议: CVPR 2026 (Oral)
arXiv: 2604.18811
代码: 无（截至笔记时未在摘要中给出）
领域: 模型压缩 / 数据集蒸馏
关键词: 数据集蒸馏, 软标签, coreset, 计算预算, 难度剪枝

⚠️ 本篇 arXiv HTML 全文暂未发布（/html/ 返回 404），笔记基于摘要 + 公开信息的尽力还原版本。文中带 ⚠️ 的具体数字/实现细节请以原文为准。

一句话总结¶

这是一篇"打假"性质的分析论文：作者系统证明了大规模数据集蒸馏（DD）方法看似领先，其实主要是下游训练时用了软标签在撑场面——一旦在不同标签制度下做可扩展性分析，高质量子集相对随机子集的优势几乎消失；据此他们提出计算感知的难度剪枝指标 CAD-Prune 和对齐计算预算的蒸馏方法 CA2D，在 ImageNet-1K 多个 IPC 设置上超过现有 DD 方法。

研究背景与动机¶

领域现状：数据集蒸馏（Dataset Distillation, DD）想把一个大数据集"浓缩"成每类只有几张（IPC, images-per-class）的小合成集，使得在小集上训练的模型逼近在全量数据上训练的效果。近年的大规模方法（如 SRe²L 及其后继）号称在 ImageNet-1K 上取得了巨大成功。

现有痛点：但最近有证据指出，简单的"随机选图"基线（random image baseline）就能和 SRe²L 这类 SOTA DD 方法打平。这和 coreset（核心子集选择）文献的经验恰恰相反——在 coreset 里，精心挑选的高质量子集稳定地优于随机子集。同一件事（"选好的样本"），在 DD 里没用、在 coreset 里有用，矛盾从何而来？

核心矛盾：作者锁定的根因是评测时用的标签制度。DD 的下游评测普遍使用软标签（soft labels）（教师网络给出的概率分布，往往配合知识蒸馏 KD 在线生成），而经典 coreset 评测用的是硬标签（hard labels, 一次性 one-hot）。一旦下游训练有了源源不断的软标签监督，子集"质量"这个维度对最终精度的影响就被抹平了——于是 DD 方法的"好"，可能根本不来自它合成的图，而来自软标签这套训练范式。

本文目标：把"数据质量到底有多重要"这个问题，放到不同标签制度的可扩展性坐标系里量化清楚；再据此设计一个真正在公平（硬标签 / 固定算力）条件下管用的方法。

切入角度：把标签监督的"丰沛程度"切成三档梯度——从充裕软标签（SL+KD） → 固定软标签（SL） → 硬标签（HL），分别测高质量 coreset 相对随机基线的增益，看增益在哪一档消失。

核心 idea：用一句话概括——"在软标签制度下，子集质量几乎不影响精度（性能饱和），DD 的领先是软标签的功劳；只有在硬标签 + 对齐算力预算下选对难度的样本才真有用"，并把这一发现工程化为 CAD-Prune / CA2D。

方法详解¶

整体框架¶

本文与其说是"提方法"，不如说是"先做一套受控分析、再把分析结论落成一个方法"。整体分两段：

可扩展性分析（诊断）：固定下游算力预算，沿三种标签制度（SL+KD / SL / HL）改变子集规模与子集质量（随机 vs 高质量 coreset vs 现有 DD 合成集），观察精度曲线，回答"质量在什么条件下才重要"。
方法设计（处方）：分析发现"硬标签 + 匹配算力预算下、最优难度的样本"才是真正有效的信号，于是提出 CAD-Prune 计算感知剪枝指标来挑选这种样本，并用它构造 CA2D 这一对齐算力的 DD 方法。

由于核心贡献是分析结论（而非一条多模块串行管线），方法本身可以一句话说清（"按算力预算选最优难度的样本"），故此处不画 pipeline 图。下面"关键设计"即按分析发现 1→2→3 + 落地方法的顺序展开。

关键设计¶

1. 三档标签制度的可扩展性分析：把"质量重要性"放进受控坐标系

针对"为什么 DD 里随机基线打平 SOTA、coreset 里却不会"这个矛盾，作者设计了一个受控实验框架，沿三档标签监督强度测量"高质量子集 vs 随机子集"的增益： - SL+KD（abundant soft labels）：训练全程由教师在线对（增广后的）样本打软标签，相当于软标签无限供给 + 知识蒸馏。 - SL（fixed soft labels）：用一批固定的预计算软标签，量有限、不随增广刷新。 - HL（hard labels）：经典 one-hot 硬标签，无教师参与。

关键控制变量是固定的下游算力预算（given compute budget），在此之下扫子集规模与质量。这个坐标系让"标签信号丰沛度"与"数据质量"两个因素被解耦，从而能干净地归因。⚠️ 三档的精确定义/教师配置以原文为准。

2. 核心发现——软标签下出现"性能饱和"，子集质量被抹平

分析得到的"hard truth"：在 SL 和 SL+KD 两档下，高质量 coreset 都无法令人信服地超过随机基线。尤其在 SL+KD 档，给定算力预算后，精度会逼近相对全量数据的近最优水平，且几乎与子集大小、子集质量无关——即出现性能饱和（performance saturation）。

这条发现的杀伤力在于：它直接质疑了"用软标签评测 DD"这一被广泛采用的做法。因为在软标签制度下，子集质量对最终精度的影响可以忽略，那么用这种评测刷出来的 DD"提升"就无法说明合成数据本身更好——之前看到的领先很可能是软标签 + KD 训练范式带来的，而不是蒸馏算法的功劳。与之对照，硬标签（HL）档里质量才重新变得重要，这也解释了 coreset 文献与 DD 文献的结论分歧。

3. 硬标签制度下的系统复评——只有 RDED 真打得过随机，但偏科于"易样本 patch"

把战场切回公平的 HL 设置后，作者系统评测了 5 个大规模 + 4 个小规模 DD 方法。结论很冷峻：在 ImageNet-1K 上只有 RDED 能稳定超过随机基线；其余方法在硬标签下并不可靠。而即便是 RDED，仍可能落后于强 coreset 方法——原因是它过度依赖"容易样本"的图像 patch（over-reliance on easy sample patches），样本难度结构不对，导致在没有软标签兜底时吃亏。这条把"现有 DD 在哪里不行"定位到了具体机制：难度选错了。⚠️ 9 个被评方法的具体名单/各自数值以原文为准。

4. CAD-Prune + CA2D——按算力预算挑"最优难度"的样本，把分析落成方法

既然问题出在"难度选择与算力不匹配"，作者提出 CAD-Prune（Compute-Aware Difficulty pruning，计算感知难度剪枝指标）：核心思想是样本的"最优难度"取决于给定的算力预算——算力多时较难样本更有价值，算力紧时过难样本反而拖累，于是用一个计算感知的指标高效地筛出"对当前算力预算而言难度恰到好处"的样本，避免 RDED 那种一边倒堆易样本的偏科。

在此指标之上构造 CA2D（Compute-Aligned Dataset Distillation，对齐算力的数据集蒸馏方法）：用 CAD-Prune 选出难度与预算对齐的样本来组成蒸馏集。结果是 CA2D 在 ImageNet-1K 的多个 IPC 设置上超过当前 DD 方法。⚠️ CAD-Prune 的精确打分公式、CA2D 是否含合成/优化步骤、各 IPC 下的具体数值以原文为准。

⚠️ 框架↔关键设计一致性：本文"框架"即"先诊断（设计 1-3）后处方（设计 4）"，四个设计点已覆盖分析坐标系、两条核心发现、硬标签复评与最终方法，无遗漏组件。

损失函数 / 训练策略¶

论文核心是分析 + 一个剪枝指标，未围绕新损失展开。下游评测在三种标签制度下进行：HL 用标准交叉熵 one-hot；SL 用固定软标签；SL+KD 用教师在线软标签 + 知识蒸馏。CA2D 训练遵循其对齐的算力预算约束。⚠️ 具体优化器/超参以原文为准。

实验关键数据¶

⚠️ 下表为基于摘要的定性还原，用于传达结论方向；精确数值请以原文表格为准。

主实验¶

设置 / 制度	对比	结论（定性）	含义
SL+KD（充裕软标签）	高质量 coreset vs 随机	几乎打平，且逼近全量近最优 → 性能饱和	子集质量影响可忽略
SL（固定软标签）	高质量 coreset vs 随机	高质量子集无法令人信服地胜出	软标签仍抹平质量差异
HL（硬标签）	coreset vs 随机 vs DD	质量重新重要；9 个 DD 中仅 RDED 稳超随机	公平制度下 DD 普遍不灵
HL, ImageNet-1K	RDED vs 强 coreset	RDED 仍可能落后（偏科易样本 patch）	难度选择是关键
HL, ImageNet-1K, 多 IPC	CA2D vs 现有 DD	CA2D 超过现有 DD 方法	计算对齐的难度剪枝有效

消融实验¶

配置	关键变量	说明（定性）
标签制度 SL+KD→SL→HL	软标签丰沛度	越往硬标签走，子集质量增益越明显（饱和消失）
子集规模扫描（固定算力）	IPC / 子集大小	SL+KD 下精度对规模/质量不敏感（饱和证据）
RDED 的样本难度结构	易样本 patch 占比	过度依赖易样本 → 落后强 coreset
CAD-Prune 难度 vs 算力对齐	难度选择策略	难度匹配预算的样本带来增益

关键发现¶

最致命的发现：软标签（尤其 SL+KD）会让"子集质量"这个维度对最终精度几乎不起作用（性能饱和），因此用软标签评测 DD 会高估算法贡献——领先很可能来自训练范式而非合成数据。
硬标签才是试金石：只有在 HL 设置下，数据质量/难度的差异才显现；9 个 DD 方法中仅 RDED 稳定打过随机基线。
难度选择是钥匙：RDED 偏科易样本 patch 是它落后强 coreset 的原因；按算力预算挑"最优难度"样本（CAD-Prune）能修正这一点，CA2D 因此在多个 IPC 上领先。

亮点与洞察¶

方法学贡献大于刷点：它没有急着提新蒸馏算法，而是先把"评测制度"这个被忽视的混杂变量拎出来量化，证明了之前一批"SOTA"很可能是软标签的红利。这种"先证伪再建设"的范式对整个 DD 社区是当头一棒。
"性能饱和"是可迁移的洞察：给定算力预算 + 充裕软标签时精度对子集质量不敏感——这个现象提示，凡是用 KD/软标签做数据高效学习的评测（不止 DD），都该补一个硬标签对照，否则结论可能不成立。
把"难度"和"算力预算"绑定：CAD-Prune 的核心洞察——最优样本难度随算力预算变化——可以迁移到一般的 coreset/数据剪枝与课程学习里：算力紧时别堆难样本，算力足时别只喂易样本。

局限性 / 可改进方向¶

⚠️ 结论以 ImageNet-1K 为主：系统复评与 CA2D 的领先主要在 ImageNet-1K 报告，跨数据集/跨架构的普适性需更多验证（以原文为准）。
方法本身相对简单：CA2D 是"按难度剪枝对齐算力"，相对那些复杂合成式 DD 更轻，但也意味着它更像一个强基线/诊断工具，绝对精度上限可能受限于"选样本"而非"造样本"。
软标签并非一无是处：论文强调的是"软标签会掩盖质量差异、不适合做公平评测"，并非说软标签训练没价值；如何在保留软标签收益的同时还能区分数据质量，是开放问题。
CAD-Prune 的难度度量依赖代理模型：难度估计本身需要算力与一个打分模型，其偏差如何影响选样仍待考察（⚠️ 实现细节以原文为准）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 不是又一个 DD 算法，而是揭示"软标签评测会系统性高估 DD"的结构性洞察，并配套诊断工具
实验充分度: ⭐⭐⭐⭐ 三档标签制度 × 9 个 DD 方法的系统复评分量很足；⚠️ 具体规模/跨数据集广度待原文确认
写作质量: ⭐⭐⭐⭐ 摘要逻辑链清晰（矛盾→分析→发现→方法），"hard truths"叙事有力
价值: ⭐⭐⭐⭐⭐ 直接影响 DD 社区的评测规范，并给出可立即用的 CAD-Prune / CA2D 工具，CVPR Oral 实至名归