D2C: Accelerating Diffusion Model Training under Minimal Budgets via Condensation¶
会议: CVPR 2026
arXiv: 2507.05914
代码: 无(但方法完全可复现)
领域: 图像生成 / 高效训练 / 数据集蒸馏
关键词: 扩散模型训练, 数据集压缩, 难度评分, 区间采样, REPA加速
一句话总结¶
首次将数据集压缩(Dataset Condensation)应用于扩散模型训练,提出D2C两阶段框架——Select阶段用扩散难度分数+区间采样选出紧凑子集、Attach阶段为每个样本附加文本和视觉表示——仅用0.8% ImageNet(10K图像)在40K步即达FID 4.3,比REPA快100×、比vanilla SiT快233×。
背景与动机¶
扩散模型训练极其耗资源——SiT-XL/2需700万步在128万图像上训练。REPA等方法从模型侧优化(表示对齐),但数据侧减少训练集的可能性未被探索。数据集压缩(DC)在判别式模型上研究成熟,但直接将已有DC方法(SRe2L/RDED)用于扩散训练导致崩溃——因为DC方法优化类别判别特征而非真实图像分布,生成的合成图像结构和语义保真度差。
核心问题¶
能否通过数据集压缩将训练数据减少到原来的0.8-8%,同时保持扩散模型的生成质量和大幅加快训练收敛?
方法详解¶
整体框架¶
D2C 要回答的是:能不能把扩散训练的数据砍到原来的 0.8–8%、还保住生成质量并大幅加速收敛。它是两阶段框架——Select 阶段用预训练扩散模型给每个样本算去噪难度分数,按难度排序后用间隔 \(k\) 均匀采样选出紧凑子集;Attach 阶段再给选中样本附上两类信息(DC-Embedding 文本+类别嵌入、DINOv2 视觉特征作 REPA 式对齐目标),让小数据也能训出好模型。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["全量数据<br/>ImageNet 1.28M"] --> B
subgraph SEL["Select 阶段:选紧凑子集"]
direction TB
B["扩散难度分数<br/>预训练扩散模型去噪损失"] --> C["区间采样<br/>类内按难度排序、每隔 k 取一个"]
end
SEL --> D["紧凑子集(10K,占 0.8%)"]
subgraph ATT["Attach 阶段:富化条件信号"]
direction TB
E["DC-Embedding 双条件嵌入<br/>T5 文本嵌入 + 类别嵌入"]
F["视觉信息注入<br/>DINOv2 patch 特征"]
end
D --> E
D --> F
E --> G["富化后的压缩数据集"]
F --> G
G --> H["训练扩散模型<br/>去噪损失 + 0.5·REPA 对齐损失"]
关键设计¶
1. 扩散难度分数:用去噪损失衡量样本复杂度
要选样本先得有个难度度量。作者把样本在预训练扩散模型上的平均去噪损失 \(s_{diff}(x) = -p_\theta(x|c) \propto -\mathbb{E}[\|\epsilon - \epsilon_\theta(x_t, t, c)\|^2]\) 当难度分数——损失高=模型难预测=样本复杂/模糊;通过 Bayesian 推导 \(p_\theta(c|x) \propto p_\theta(x|c)\),去噪损失直接反映样本属于某类的置信度。关键发现是最易(Min)和最难(Max)样本都不好用——Min 太简单缺多样性、Max 太嘈杂学不动,中等难度的分布 discrepancy 最小(U 型曲线,Fig.8 Right)。
2. 区间采样:按难度每隔 k 个取一个
知道了难度还得选得均匀。作者在类内按难度排序后每隔 \(k\) 个取一个,\(k\) 与数据量正相关(10K 子集用 \(k=96\)、50K 用 \(k=16\)),这样天然覆盖从易到中难的整段范围、又避开极端困难样本。比"只取中间"(Medium)更好,因为完全跳过容易样本会丢掉基础分布覆盖。
3. 双条件嵌入(DC-Embedding):用文本嵌入补回类间语义关系
这是 Attach 阶段的第一类附加信息。纯类别嵌入丢了类间语义关系(猫和狗只是两个无关的 one-hot 向量)。作者用 T5 编码器把类名("a photo of a cat")编码成文本嵌入,再经 1D 卷积+残差 MLP 与可学习类别嵌入融合,效果比纯类别嵌入好很多(FID 9.01 vs 14.96),因为文本嵌入天然编码了语义关系——相似品种的狗在 T-SNE 里自然聚类(Fig.9)。
4. 视觉信息注入:用 DINOv2 特征补回类内细节
这是 Attach 阶段的第二类附加信息。文本嵌入解决了类间关系,却抓不住类内的实例差异(同一类里不同个体的纹理、姿态),而这正是高保真生成的关键。作者对每张选中图像用预训练视觉编码器(DINOv2)提取 patch 级特征 \(y_{vis}\in\mathbb{R}^{N\times d}\),只保留前 \(h\) 个 token(\(h\) 为扩散 transformer 的 token 数)压成紧凑表示,和文本嵌入一样预计算后存盘当附加元数据。训练时按 REPA 的方式,把扩散骨干某中间层的输出经投影头 \(\phi\) 对齐到 \(y_{vis}\),给模型注入局部真实性和空间一致性的语义先验。消融显示仅加视觉注入就把 FID 从 37.07 降到 10.37,和 DC-Embedding 合用进一步降到 7.62,且换 CLIP/MoCov3/MAE 都有效(DINOv2 最好)。
损失函数 / 训练策略¶
\(\mathcal{L}_{total} = \mathcal{L}_{diff} + 0.5 \mathcal{L}_{proj}\),\(\mathcal{L}_{diff}\)是标准去噪损失(以DC-Embedding为条件),\(\mathcal{L}_{proj}\)是DINOv2特征对齐(REPA式)。Adam lr=1e-4,8×A800/4090。10K子集训练仅需7.4小时(比REPA的750小时少101×)。
实验关键数据¶
ImageNet 256² (SiT-XL/2, CFG=1.5):
| 方法 | 数据量 | 训练步数 | gFID-50K |
|---|---|---|---|
| Vanilla SiT | 1.28M | 7M | 8.3 |
| + REPA | 1.28M | 4M | 5.9 |
| + REPA-E | 1.28M | 235K | 5.9 |
| + REG | 1.28M | 200K | 5.0 |
| D2C | 10K (0.8%) | 40K | 4.3 |
| D2C | 50K (4%) | 180K | 2.78 |
SRe2L/RDED在扩散训练中完全崩溃(FID > 80)——证实判别式DC方法不适用于生成任务。
D2C在512²、CIFAR-10上也work:CIFAR-10 gFID 3.95 (random 9.72)。
消融实验要点¶
- Select单独有效:仅选择(无Attach)从37.07降至14.96 FID
- DC-Embedding贡献最大:Select+DC Emb=9.01,Select+Visual=10.37,Select+Both=7.62
- 所有视觉编码器都有帮助:DINOv2-L(7.62) > CLIP-L(8.59) > MoCov3-L(8.78) > MAE-L(9.23) >> 无(37.07)
- 最优\(k\)与数据量成比例:10K→k=96, 50K→k=16,约=数据量/类别数×比例
- 预训练scorer非必需:从头训练scorer(FID 4.9)也远超random(37.07)
亮点¶
- 233×加速是惊人的数字——意味着原本需要几周的训练可以在几小时内完成
- 首次将数据集压缩引入扩散训练——填补了一个明显的学术空白
- 扩散难度分数的信息论推导优雅——从\(p(c|x) \propto p(x|c)\)到去噪损失的等价性
- 区间采样比K-Center/Herding/random在扩散训练中都好——说明难度排序比几何/特征多样性更重要
- 极低的附加开销——Select仅2h,Attach预计算后存储在磁盘上
局限与展望¶
- 依赖预训练扩散模型做难度评分——冷启动场景需要额外一步
- 仅验证了C2I(类别到图像),T2I(文本到图像)仅有初步探索(Appendix G)
- 区间\(k\)需要手动选择——虽然有经验法则但不完全自动化
- 10K子集的类别覆盖(10/类)可能限制类别多样性
- 未与T2I的数据效率方法(如PixArt的数据策划)直接对比
与相关工作的对比¶
- vs REPA (模型侧加速):REPA加速但仍用全量数据(1.28M)。D2C仅用0.8%数据(10K)+REPA的视觉对齐,效果更好(4.3 vs 5.9)且快100×
- vs SRe2L/RDED (判别式DC):这些方法在扩散训练中完全失败(FID>80)——因为优化目标是判别特征而非像素分布
- vs 数据剪枝 (Pruning then Reweighting):近期Li et al.的方法也做数据选择但不做Attach阶段且仅在小规模验证
- vs HoneyBee (CVPR'26 VLM数据):HoneyBee研究VLM推理数据策划,D2C研究扩散训练数据策划——思路相似,领域不同
启发与关联¶
- "扩散难度分数"概念可推广到其他生成模型的数据选择——如自回归模型、VAE
- 潜在idea: 将D2C的Select策略用于持续学习——当新数据到来时,仅选择最有信息量的样本来增量更新扩散模型
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将DC引入扩散训练,扩散难度分数+区间采样的组合是原创贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 3种数据比例、2种分辨率、2种架构(DiT/SiT)、5种基线、详尽消融
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,理论推导与实验紧密配合,附录极其详尽
- 价值: ⭐⭐⭐⭐⭐ 233×加速+数据极端压缩——定义了扩散模型训练效率的新标杆