Beyond Loss Values: Robust Dynamic Pruning via Loss Trajectory Alignment¶

会议: CVPR 2026
arXiv: 2604.07306
代码: GitHub
领域: 模型压缩/数据剪枝
关键词: 动态数据剪枝, 噪声标签, 损失轨迹, 即插即用模块, 训练效率

一句话总结¶

提出AlignPrune——一个基于损失轨迹对齐的即插即用模块，通过Dynamic Alignment Score（DAS）替代传统损失值排序，使动态数据剪枝在噪声标签场景下准确率提升最高6.3%。

领域现状：大规模数据集训练成本高昂，数据剪枝（data pruning）通过丢弃低效样本减少训练量。动态剪枝（每轮自适应选择子集）比静态剪枝（一次性选定）更灵活鲁棒。

核心矛盾：现有动态剪枝方法（InfoBatch、SeTa）依赖单样本损失值排序——损失高的样本被保留。但在噪声标签下，噪声样本恰恰产生高损失，导致它们被优先保留，污染训练过程。

关键观察：干净样本的损失轨迹呈平滑单调下降，而噪声样本的损失轨迹呈非单调、不规则波动。这种时序模式差异可以被利用。

核心idea：用损失轨迹与干净参考集的相关性（而非单点损失值）来评估样本质量，低相关性的样本更可能是噪声，应被剪枝。

输入：含噪声的训练集 \(\mathcal{D}\) + 少量干净参考集 \(\mathcal{D}_{ref}\) → 每轮计算DAS → 替换原始损失排序 → 动态剪枝子集选择 → 正常训练

损失轨迹（Loss Trajectory）：对每个样本 \(i\) 维护最近 \(N\) 个epoch的损失序列 \(\mathbf{v}_i^{(t)} = [\ell_i^{(t-N+1)}, \ldots, \ell_i^{(t)}]\)。同时对干净参考集计算平均损失轨迹 \(\mathbf{v}_{ref}^{(t)}\)。
- 设计动机：单点损失无法区分"难样本"和"噪声样本"（两者都有高损失），但它们的时序行为截然不同。
Dynamic Alignment Score (DAS)：计算样本损失轨迹与参考轨迹的Pearson相关系数： \(DAS_i^{(t)} = \rho(\mathbf{v}_i^{(t)}, \mathbf{v}_{ref}^{(t)})\)
- 正DAS → 学习动态与干净模式同步 → 大概率干净
- 负DAS → 学习动态与干净模式冲突 → 大概率噪声
- 为什么选Pearson：尺度不变（不受绝对损失值影响）且计算高效
AlignPrune即插即用集成：直接替换InfoBatch/SeTa的损失排序为DAS排序：\(score_i^{(t)} := DAS_i^{(t)}\)。不修改模型架构、训练流程或梯度更新规则。保留原始方法的梯度期望无偏性。

方法	Clean	Real	Sym-0.5	Sym-0.8	Asym-0.2	平均Δ
Full-training	78.2	56.1	58.6	39.8	72.4	--
InfoBatch	79.0	56.1	59.7	41.8	71.9	+0.6
InfoBatch+Ours	79.3	59.4	66.0	41.8	72.6	+2.7
SeTa	79.0	55.6	59.0	41.6	71.4	+0.0
SeTa+Ours	79.3	56.3	60.5	41.6	71.9	+0.7

配置	关键指标	说明
相关函数选择	Pearson > Spearman > Cosine	Pearson兼具尺度不变和效率
窗口大小N	N=10最优	太小噪声敏感，太大响应迟钝
参考集大小	1%数据即足够	极少量干净参考即可有效
参考集含噪	10%噪声仍鲁棒	平均操作天然抗噪
大规模数据	WebVision/Clothing-1M/ImageNet均有效	方法可扩展到真实场景