Beyond Loss Values: Robust Dynamic Pruning via Loss Trajectory Alignment¶
会议: CVPR 2026
arXiv: 2604.07306
代码: GitHub
领域: 模型压缩/数据剪枝
关键词: 动态数据剪枝, 噪声标签, 损失轨迹, 即插即用模块, 训练效率
一句话总结¶
提出AlignPrune——一个基于损失轨迹对齐的即插即用模块,通过Dynamic Alignment Score(DAS)替代传统损失值排序,使动态数据剪枝在噪声标签场景下准确率提升最高6.3%。
研究背景与动机¶
领域现状:大规模数据集训练成本高昂,数据剪枝(data pruning)通过丢弃低效样本减少训练量。动态剪枝(每轮自适应选择子集)比静态剪枝(一次性选定)更灵活鲁棒。
核心矛盾:现有动态剪枝方法(InfoBatch、SeTa)依赖单样本损失值排序——损失高的样本被保留。但在噪声标签下,噪声样本恰恰产生高损失,导致它们被优先保留,污染训练过程。
关键观察:干净样本的损失轨迹呈平滑单调下降,而噪声样本的损失轨迹呈非单调、不规则波动。这种时序模式差异可以被利用。
核心idea:用损失轨迹与干净参考集的相关性(而非单点损失值)来评估样本质量,低相关性的样本更可能是噪声,应被剪枝。
方法详解¶
整体框架¶
输入:含噪声的训练集 \(\mathcal{D}\) + 少量干净参考集 \(\mathcal{D}_{ref}\) → 每轮计算DAS → 替换原始损失排序 → 动态剪枝子集选择 → 正常训练
关键设计¶
-
损失轨迹(Loss Trajectory):对每个样本 \(i\) 维护最近 \(N\) 个epoch的损失序列 \(\mathbf{v}_i^{(t)} = [\ell_i^{(t-N+1)}, \ldots, \ell_i^{(t)}]\)。同时对干净参考集计算平均损失轨迹 \(\mathbf{v}_{ref}^{(t)}\)。
- 设计动机:单点损失无法区分"难样本"和"噪声样本"(两者都有高损失),但它们的时序行为截然不同。
-
Dynamic Alignment Score (DAS):计算样本损失轨迹与参考轨迹的Pearson相关系数: \(DAS_i^{(t)} = \rho(\mathbf{v}_i^{(t)}, \mathbf{v}_{ref}^{(t)})\)
- 正DAS → 学习动态与干净模式同步 → 大概率干净
- 负DAS → 学习动态与干净模式冲突 → 大概率噪声
- 为什么选Pearson:尺度不变(不受绝对损失值影响)且计算高效
-
AlignPrune即插即用集成:直接替换InfoBatch/SeTa的损失排序为DAS排序:\(score_i^{(t)} := DAS_i^{(t)}\)。不修改模型架构、训练流程或梯度更新规则。保留原始方法的梯度期望无偏性。
损失函数 / 训练策略¶
- 训练目标不变,仅样本选择策略改变
- 损失轨迹存储在固定窗口大小 \(N\) 的memory bank中,batch级向量化计算,额外开销极小
- 参考集 \(\mathcal{D}_{ref}\) 假设为干净(实验表明即使含少量噪声也鲁棒)
实验关键数据¶
主实验(CIFAR-100N, ResNet-18, ~30%剪枝率)¶
| 方法 | Clean | Real | Sym-0.5 | Sym-0.8 | Asym-0.2 | 平均Δ |
|---|---|---|---|---|---|---|
| Full-training | 78.2 | 56.1 | 58.6 | 39.8 | 72.4 | -- |
| InfoBatch | 79.0 | 56.1 | 59.7 | 41.8 | 71.9 | +0.6 |
| InfoBatch+Ours | 79.3 | 59.4 | 66.0 | 41.8 | 72.6 | +2.7 |
| SeTa | 79.0 | 55.6 | 59.0 | 41.6 | 71.4 | +0.0 |
| SeTa+Ours | 79.3 | 56.3 | 60.5 | 41.6 | 71.9 | +0.7 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 相关函数选择 | Pearson > Spearman > Cosine | Pearson兼具尺度不变和效率 |
| 窗口大小N | N=10最优 | 太小噪声敏感,太大响应迟钝 |
| 参考集大小 | 1%数据即足够 | 极少量干净参考即可有效 |
| 参考集含噪 | 10%噪声仍鲁棒 | 平均操作天然抗噪 |
| 大规模数据 | WebVision/Clothing-1M/ImageNet均有效 | 方法可扩展到真实场景 |
关键发现¶
- 在高噪声场景(Symmetric-0.5)下,AlignPrune在InfoBatch上提升+6.3%
- 干净标签场景下性能持平或略有提升,不损害原方法表现
- 训练效率也有提升:更高准确率的同时减少总训练时间
亮点与洞察¶
- 简洁有效:仅替换一个排序准则就实现显著提升,体现了"正确的信号比复杂的方法更重要"
- 损失轨迹的时序模式是区分干净/噪声样本的强信号,之前被数据剪枝领域忽视
- 参考集需求极少(1%数据),实际中易获取
局限与展望¶
- 需要少量干净参考集(虽然量少但仍是额外假设)
- 轨迹窗口前N个epoch无法计算DAS,早期仍依赖损失排序
- 仅验证了分类任务,检测/分割等下游任务待探索
- 与其他噪声学习方法(DivideMix等)的组合潜力未充分挖掘
相关工作与启发¶
- 与静态鲁棒剪枝Prune4ReL形成对比:动态+DAS显著优于静态鲁棒方法
- 损失轨迹思想可推广到主动学习、课程学习等场景
- 对大规模预训练数据清洗有直接应用价值
评分¶
- 新颖性: ⭐⭐⭐⭐ 损失轨迹对齐思路新颖简洁,首次将动态剪枝引入噪声标签场景
- 实验充分度: ⭐⭐⭐⭐⭐ 5个数据集、多种噪声类型、多种剪枝率、详尽消融
- 写作质量: ⭐⭐⭐⭐ 动机清晰,图示直观,理论分析完整
- 价值: ⭐⭐⭐⭐ 即插即用特性使之具有很强的实际应用潜力