On the Role of Label Noise in the Feature Learning Process¶

会议: ICML 2025
arXiv: 2505.18909
代码: 无
领域: 学习理论
关键词: label noise, feature learning, training dynamics, early stopping, sample selection, CNN

一句话总结¶

从特征学习理论视角严格分析了两层ReLU CNN在标签噪声下的训练动态，揭示清晰的二阶段行为——Stage I模型学信号拟合干净样本（泛化好），Stage II损失收敛后模型记忆噪声过拟合噪声样本（泛化退化）——并为早停和小损失样本选择提供严格理论保证。

研究背景与动机¶

领域现状：过参数化深度网络面对标签噪声时容易过拟合导致泛化下降。大量实用方法（早停、样本选择、标签修正等）已被开发，但这些方法为何有效的理论理解仍不充分。

现有痛点：已有理论分析主要局限于lazy training regime（NTK框架），要求权重不偏离初始化太远或网络无限宽，本质上是静态核的线性动态，无法捕捉真实的特征学习行为。Frei et al. (2021)虽分析训练早期，但那阶段和线性分类器无异。

核心矛盾：经验观察清楚地表明网络"先学简单模式、后记忆噪声"，但在feature learning理论下缺少完整数学刻画。根本难点在于当 \(n \cdot \text{SNR}^2 = \Theta(1)\) 时信号和噪声在同一量级，动态交织难以解耦。

本文目标：在feature learning理论框架下完整刻画标签噪声对训练动态的影响，揭示二阶段机制，为早停和样本选择提供正确性证明。

切入角度：信号-噪声数据分布（每个样本 = label-dependent信号patch + label-independent噪声patch），\(n \cdot \text{SNR}^2 = \Theta(1)\) 的关键条件使信号和噪声处于竞争关系。

核心 idea：标签噪声在训练中创造了信号学习与噪声记忆的"竞赛"——前者先胜出但后者最终追上，分界点就是早停最佳位置。

方法详解¶

整体框架¶

分析三个支柱：（1）数据 \(\mathbf{x} = [y\boldsymbol{\mu}, \boldsymbol{\xi}]\)，信号 \(\boldsymbol{\mu}\) 固定、噪声 \(\boldsymbol{\xi} \sim \mathcal{N}(0, \sigma_\xi^2 \mathbf{I}_d)\)，标签以 \(\tau\) 概率翻转；（2）两层ReLU CNN \(f = F_{+1} - F_{-1}\)；（3）信号-噪声分解 \(\mathbf{w}_{j,r}^{(t)} = \mathbf{w}_{j,r}^{(0)} + j\gamma_{j,r}^{(t)}\|\boldsymbol{\mu}\|^{-2}\boldsymbol{\mu} + \sum_i \rho_{j,r,i}^{(t)}\|\boldsymbol{\xi}_i\|^{-2}\boldsymbol{\xi}_i\)，\(\gamma\) 追踪信号学习、\(\rho\) 追踪噪声记忆。

关键设计¶

Stage I 分析（Theorem 4.1）:
- 功能：刻画训练前期——网络拟合干净样本、忽略噪声样本
- 核心思路：在 \(T_1 = \Theta(\eta^{-1}nm\sigma_\xi^{-2}d^{-1})\) 处，信号系数和噪声系数均达 \(\Theta(1)\)，但 \(\gamma_{j,r}^{(T_1)} > \bar{\rho}_{\tilde{y}_i,r,i}^{(T_1)}\) 成立——信号严格大于噪声。因为此阶段所有样本的损失导数 \(|\ell_i'|\) 有常数下界，梯度贡献平衡。干净样本中信号噪声协同（\(\tilde{y}=y\)），噪声样本中对抗（\(\tilde{y} \neq y\)）。结果：干净样本正确分类，噪声样本被分类到真实标签方向（即模型"拒绝"错误标签）
- 设计动机：\(n \cdot \text{SNR}^2 = \Theta(1)\) 确保信号只是"微弱地"超过噪声——这是二阶段行为的必要条件
Stage II 分析（Theorem 4.2）:
- 功能：刻画后期——损失收敛，网络过拟合噪声样本
- 核心思路：损失要收敛就需要正确分类所有样本（包括噪声标签方向）。对噪声样本，信号方向与噪声标签相反，只能靠增大噪声系数 \(\bar{\rho}\) 实现。最终至少 \(\tau'n\) 个噪声样本的噪声系数超过信号系数，测试误差下界 \(\geq 0.5\min\{\tau_+, \tau_-\}\) 不可消除。反证法证明：若没有足够噪声样本被过拟合，训练损失就无法收敛
- 设计动机：证明过拟合不是可选的——只要继续训练让损失收敛就必然记忆噪声
早停+样本选择保证（Proposition 4.3）:
- 功能：为两种实用技术提供严格证明
- 核心思路：早停：\(T_1\) 处停止，测试误差 \(\leq \exp(-dn^{-1}/C')\)。样本选择：\(T_1\) 处干净样本损失 \(\leq \log 2\)、噪声样本损失 \(\geq \log 2\)，\(\log 2\) 阈值实现完美分离
- 设计动机：虽然实际无法精确计算 \(T_1\)，但理论保证了最优停止点存在，验证集准确率可做实际代理

损失函数¶

Logistic loss \(\ell(f, \tilde{y}) = \log(1 + \exp(-f \cdot \tilde{y}))\)，全批GD，常数学习率。

实验关键数据¶

主定理概览¶

定理	阶段	结论
Thm 4.1	Stage I (\(t=T_1\))	γ > ρ；干净样本全正确；噪声样本按真实标签分类
Thm 4.2	Stage II (损失收敛)	干净仍正确；τ'n个噪声样本ρ>γ；测试误差≥0.5min{τ+,τ-}
Thm 4.4	无噪声对比	所有样本始终正确，测试误差指数小
Prop 4.3	早停/选择	停在T₁测试误差≤exp(-d/nC')；log(2)阈值完美分离

噪声vs无噪声对比¶

设定	Stage I测试误差	损失收敛后测试误差
无标签噪声	低	仍低（\(\leq \exp(-n\\|\mu\\|^4 / C_D\sigma_\xi^4 d)\)）
有标签噪声 (τ>0)	低（接近0）	不可避免地高 (\(\geq 0.5\min\{\tau_+,\tau_-\}\))

关键发现¶

两阶段转换的机制清晰：Stage I中 \(|\ell_i'|\) 对所有样本均匀，梯度贡献平衡；Stage II中干净样本 \(|\ell_i'| \to 0\)（已被拟合），噪声样本 \(|\ell_i'|\) 占主导驱动噪声记忆
\(\log 2\) 作为损失分离阈值由logistic函数在决策边界处的值决定，与数据分布无关——具有普适性
与Kou et al. (2023)的关键区别：后者 \(n \cdot \text{SNR}^2 \gg 1\) 条件下信号始终主导不出现两阶段
信号系数 \(\gamma\) 在Stage II可能暂时下降但始终正——模型不会"忘记"信号，只是噪声叠加

亮点与洞察¶

首个在feature learning框架下完整刻画标签噪声二阶段行为的理论，不是lazy regime的线性分析
\(\log 2\) 阈值的发现优雅且实用——为Co-teaching等小损失方法提供首个严格理论依据
Stage II的反证法论证技巧精妙：假设没够多噪声被过拟合→损失无法收敛→矛盾
无噪声对比清晰展示了标签噪声的"成本"：有噪声时测试误差有正下界，无噪声时可指数小

局限性¶

理论限于两层CNN+二分类+signal-noise数据分布，距实际深层网络和自然数据有差距
\(n \cdot \text{SNR}^2 = \Theta(1)\) 要求信号强度和样本数精确匹配，实际中SNR变化大
未考虑instance-dependent标签噪声（更现实的噪声模型）
全批GD而非SGD，未考虑mini-batch随机性的影响
未给出 \(T_1\) 的实用计算方法

评分¶

新颖性: ⭐⭐⭐⭐ 首次完整刻画标签噪声的二阶段特征学习行为
实验充分度: ⭐⭐⭐ 以理论为主，合成+小规模CIFAR验证
写作质量: ⭐⭐⭐⭐⭐ 定理→直觉→证明思路的叙述层次清晰
价值: ⭐⭐⭐⭐ 为早停和样本选择提供坚实理论基础