跳转至

Batch Loss Score for Dynamic Data Pruning

会议: CVPR 2026
arXiv: 2604.04681
代码: https://github.com/mrazhou/BLS
领域: 训练效率 / 数据剪枝
关键词: dynamic data pruning, batch loss, EMA, training efficiency, sample importance

一句话总结

提出 Batch Loss Score (BLS),一种仅用均值 batch loss(而非难以获取的逐样本 loss)来估计样本重要性的方法,通过 EMA 低通滤波的信号处理视角提供理论保证,仅需 3 行代码即可集成到现有动态剪枝框架中。

研究背景与动机

动态数据剪枝通过跳过不太信息化的样本来加速深度学习训练。逐样本 loss 是最直观的重要性度量,但在实践中获取它面临重大障碍:标准训练管线高度优化于计算均值 batch loss,从聚合后的损失恢复个体 loss 并非易事。对于复杂目标函数(如多组件检测 loss),定义和分离逐样本标量需要深度的任务特定知识和代码修改。

BLS 的核心洞察:虽然逐样本 loss 难以获取,但均值 batch loss 是无处不在的。通过为每个样本维护一个 EMA 分数(仅在该样本出现在当前 batch 时更新),可以间接推断样本重要性。

方法详解

整体框架

每个样本关联一个分数 s_i(t),当样本 i 出现在 batch B_t 中时用 EMA 更新:s_i(t) = α·s_i(t-1) + (1-α)·L(B_t,t)。BLS 作为透明代理替换现有框架中的逐样本 loss。

关键设计

  1. 信号分解与滤波:从单个样本视角,均值 batch loss = 缩放信号(该样本的 1/B · l_i(t))+ 批组成噪声(其他 B-1 个样本的 loss 贡献)。EMA 作为一阶 IIR 低通滤波器,衰减高频批组成噪声,保留低频的持久 loss 趋势。

  2. 频率分离假设:批组成噪声的高频波动(每步随机抽样导致)远高于缩放逐样本 loss 的演变频率(模型参数缓慢更新导致),使低通滤波有效。

  3. 无缝代理集成:BLS 作为逐样本 loss 的即插即用替代品,下游剪枝算法完全不感知分数来源,无需修改核心调度逻辑或超参数。3 行代码注入 vs InfoBatch 的 33+ 行侵入式修改。

损失函数 / 训练策略

BLS 本身不改变训练损失,仅影响样本选择。EMA 衰减因子 α 控制滤波特性:α 越大噪声抑制越强但响应越慢。

理论保证

从信号分解角度,单个样本 \(i\) 所在 batch 的均值 loss 可分解为缩放信号 \(\frac{1}{B} l_i(t)\) 和批组成噪声 \(\frac{1}{B}\sum_{j \neq i} l_j(t)\)。频率分离假设指出批组成噪声的高频波动远高于缩放逐样本 loss 的演变频率。EMA 作为一阶 IIR 低通滤波器 \(H_\alpha\),其脉冲响应为 \(h[n] = (1-\alpha)\alpha^n u[n]\),频率响应 \(|H(e^{j\omega})| = \frac{1-\alpha}{\sqrt{1-2\alpha\cos(\omega)+\alpha^2}}\)\(\omega=0\) 处最大,滤除高频噪声保留低频趋势。

实验关键数据

主实验

数据集/任务 方法 剪枝率 性能 说明
ToCa (3M, 零样本字幕) BLS-SeTa 32% CIDEr 71.2 ≈ SeTa 71.5
MJ+ST (15M, 文字识别) BLS-SeTa 33% IIIT5k 96.2% ≈ Full 96.1%
CIFAR10 BLS-InfoBatch 30% 95.5% ≈ Full 95.6%

BLS 作为 InfoBatch 和 SeTa 两种剩下框架的透明代理,仅需 3 行代码注入(vs InfoBatch 33+ 行侵入式修改)。 下游剪枝算法完全不感知分数来源,无需修改核心调度逻辑或超参数。

关键发现

  • BLS 在 14 个数据集、11 个任务、18 个模型上验证,可无损剪枝 20%-50% 的样本
  • 作为代理替换逐样本 loss 后,性能与原始方法相当甚至更优
  • 特别适合复杂场景(多组件 loss、大规模数据)中逐样本 loss 难以获取的情况
  • BLS 初始化为第一个 batch 的均值 loss,之后仅在样本出现在当前 batch 时更新

亮点与洞察

  • 从信号处理角度(低通滤波)为 BLS 提供了严格的理论保证
  • 3 行代码的极简实现降低了使用门槛
  • 解耦了"样本评分"和"样本选择",使其可与任何基于 loss 的剪枝策略组合
  • 频率分离假设直觉清晰且有实验验证

局限与展望

  • EMA α 需要根据任务调优
  • 在训练极早期(分数未充分积累时)可能不够准确

评分

  • 新颖性:⭐⭐⭐⭐ — 用 batch loss 代理逐样本 loss 思路新颖
  • 技术深度:⭐⭐⭐⭐⭐ — 信号处理理论分析严谨
  • 实验充分度:⭐⭐⭐⭐⭐ — 14 数据集 11 任务 18 模型
  • 实用价值:⭐⭐⭐⭐⭐ — 3行代码,极高实用性