跳转至

Beyond Loss Values: Robust Dynamic Pruning via Loss Trajectory Alignment

会议: CVPR 2026
arXiv: 2604.07306
代码: GitHub
领域: 模型压缩/数据剪枝
关键词: 动态数据剪枝, 噪声标签, 损失轨迹, 即插即用模块, 训练效率

一句话总结

提出AlignPrune——一个基于损失轨迹对齐的即插即用模块,通过Dynamic Alignment Score(DAS)替代传统损失值排序,使动态数据剪枝在噪声标签场景下准确率提升最高6.3%。

研究背景与动机

领域现状:大规模数据集训练成本高昂,数据剪枝(data pruning)通过丢弃低效样本减少训练量。动态剪枝(每轮自适应选择子集)比静态剪枝(一次性选定)更灵活鲁棒。

核心矛盾:现有动态剪枝方法(InfoBatch、SeTa)依赖单样本损失值排序——损失高的样本被保留。但在噪声标签下,噪声样本恰恰产生高损失,导致它们被优先保留,污染训练过程。

关键观察:干净样本的损失轨迹呈平滑单调下降,而噪声样本的损失轨迹呈非单调、不规则波动。这种时序模式差异可以被利用。

核心idea:用损失轨迹与干净参考集的相关性(而非单点损失值)来评估样本质量,低相关性的样本更可能是噪声,应被剪枝。

方法详解

整体框架

输入:含噪声的训练集 \(\mathcal{D}\) + 少量干净参考集 \(\mathcal{D}_{ref}\) → 每轮计算DAS → 替换原始损失排序 → 动态剪枝子集选择 → 正常训练

关键设计

  1. 损失轨迹(Loss Trajectory):对每个样本 \(i\) 维护最近 \(N\) 个epoch的损失序列 \(\mathbf{v}_i^{(t)} = [\ell_i^{(t-N+1)}, \ldots, \ell_i^{(t)}]\)。同时对干净参考集计算平均损失轨迹 \(\mathbf{v}_{ref}^{(t)}\)

    • 设计动机:单点损失无法区分"难样本"和"噪声样本"(两者都有高损失),但它们的时序行为截然不同。
  2. Dynamic Alignment Score (DAS):计算样本损失轨迹与参考轨迹的Pearson相关系数: \(DAS_i^{(t)} = \rho(\mathbf{v}_i^{(t)}, \mathbf{v}_{ref}^{(t)})\)

    • 正DAS → 学习动态与干净模式同步 → 大概率干净
    • 负DAS → 学习动态与干净模式冲突 → 大概率噪声
    • 为什么选Pearson:尺度不变(不受绝对损失值影响)且计算高效
  3. AlignPrune即插即用集成:直接替换InfoBatch/SeTa的损失排序为DAS排序:\(score_i^{(t)} := DAS_i^{(t)}\)。不修改模型架构、训练流程或梯度更新规则。保留原始方法的梯度期望无偏性。

损失函数 / 训练策略

  • 训练目标不变,仅样本选择策略改变
  • 损失轨迹存储在固定窗口大小 \(N\) 的memory bank中,batch级向量化计算,额外开销极小
  • 参考集 \(\mathcal{D}_{ref}\) 假设为干净(实验表明即使含少量噪声也鲁棒)

实验关键数据

主实验(CIFAR-100N, ResNet-18, ~30%剪枝率)

方法 Clean Real Sym-0.5 Sym-0.8 Asym-0.2 平均Δ
Full-training 78.2 56.1 58.6 39.8 72.4 --
InfoBatch 79.0 56.1 59.7 41.8 71.9 +0.6
InfoBatch+Ours 79.3 59.4 66.0 41.8 72.6 +2.7
SeTa 79.0 55.6 59.0 41.6 71.4 +0.0
SeTa+Ours 79.3 56.3 60.5 41.6 71.9 +0.7

消融实验

配置 关键指标 说明
相关函数选择 Pearson > Spearman > Cosine Pearson兼具尺度不变和效率
窗口大小N N=10最优 太小噪声敏感,太大响应迟钝
参考集大小 1%数据即足够 极少量干净参考即可有效
参考集含噪 10%噪声仍鲁棒 平均操作天然抗噪
大规模数据 WebVision/Clothing-1M/ImageNet均有效 方法可扩展到真实场景

关键发现

  • 在高噪声场景(Symmetric-0.5)下,AlignPrune在InfoBatch上提升+6.3%
  • 干净标签场景下性能持平或略有提升,不损害原方法表现
  • 训练效率也有提升:更高准确率的同时减少总训练时间

亮点与洞察

  • 简洁有效:仅替换一个排序准则就实现显著提升,体现了"正确的信号比复杂的方法更重要"
  • 损失轨迹的时序模式是区分干净/噪声样本的强信号,之前被数据剪枝领域忽视
  • 参考集需求极少(1%数据),实际中易获取

局限与展望

  • 需要少量干净参考集(虽然量少但仍是额外假设)
  • 轨迹窗口前N个epoch无法计算DAS,早期仍依赖损失排序
  • 仅验证了分类任务,检测/分割等下游任务待探索
  • 与其他噪声学习方法(DivideMix等)的组合潜力未充分挖掘

相关工作与启发

  • 与静态鲁棒剪枝Prune4ReL形成对比:动态+DAS显著优于静态鲁棒方法
  • 损失轨迹思想可推广到主动学习、课程学习等场景
  • 对大规模预训练数据清洗有直接应用价值

评分

  • 新颖性: ⭐⭐⭐⭐ 损失轨迹对齐思路新颖简洁,首次将动态剪枝引入噪声标签场景
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个数据集、多种噪声类型、多种剪枝率、详尽消融
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,图示直观,理论分析完整
  • 价值: ⭐⭐⭐⭐ 即插即用特性使之具有很强的实际应用潜力