A Statistical Theory of Overfitting for Imbalanced Classification¶
会议: ICLR2026
OpenReview: cKthi6QfUr
代码: https://github.com/jlyu55/Imbalanced_Classification_iclr
领域: 统计学习理论
关键词: 不平衡分类, 过拟合, 高维渐近, 截断高斯, margin rebalancing
一句话总结¶
本文为高维不平衡线性分类建立统计理论:在两类高斯混合模型下,测试集 logit 服从 \(N(0,1)\),但训练集 logit 收敛到 \(\max\{\kappa, N(0,1)\}\)(截断高斯),并用一个变分问题刻画这种"截断"如何随维度发生,进而严格解释了为什么少数类受过拟合伤害更重、为什么 margin rebalancing 有效、以及过拟合如何连带恶化置信度校准。
研究背景与动机¶
领域现状:不平衡分类(rare disease、异常检测、长尾群体)里,少数类只占训练样本的一小撮。在深度学习时代,一个常见做法是冻结预训练网络当特征提取器、只重训最后一层线性分类头(即 linear probing),这本质上就是在高维特征 \(x\in\mathbb{R}^d\) 上做一个线性分类器 \(f(x)=\langle x,\beta\rangle+\beta_0\)。
现有痛点:经典统计理论建立在大样本渐近和有限样本修正之上,在 \(d\) 与 \(n\) 可比的高维场景里基本失效。人们反复观测到两个现象却解释不清:① 少数类的过拟合(训练/测试精度差)明显比多数类严重;② 维度、不平衡度、信号强度这些因素到底如何影响测试精度和不确定性量化,缺乏系统刻画。现有的 reweighting、重采样、margin-based 损失都是 ad hoc 的,对超参选择和特征解释几乎没有指导。
核心矛盾:高维下数据往往线性可分,SVM/逻辑回归能把训练误差压到零,但测试误差并不为零——这个 train/test 差距就是过拟合。问题在于:单看 train/test accuracy 太粗糙,看不出过拟合在"分布层面"到底对两个类做了什么、为什么不对称地伤害少数类。
本文目标:① 给出过拟合在 logit 分布层面的精确刻画;② 量化维度/不平衡/信号强度对测试误差和校准的单调影响;③ 给 margin rebalancing 这个常用 trick 一个最优超参的理论解释。
切入角度:不要只盯着标量的测试误差,而是去刻画整条 logit 分布——训练集 logit 的经验分布(ELD)和测试集 logit 分布(TLD)。作者发现 TLD 是高斯、而 ELD 是被 margin "顶住"的截断高斯,这个差异恰好就是过拟合的指纹。
核心 idea:用高维统计的 Gordon 定理把 max-margin 训练化简成一个变分问题,揭示出"过拟合 = 把重叠的 TLD 质量搬到 margin 边界上的截断操作",而两类共享同一个有限的"过拟合预算",导致少数类被截断得更狠。
方法详解¶
整体框架¶
本文不是一篇提方法的论文,而是一篇为现象"立定理"的统计理论论文。它锁定一个可解析的玩具模型——两类各向同性高斯混合(2-GMM):\(P(y=+1)=\pi\)(少数类),\(P(y=-1)=1-\pi\),\(x\mid y\sim N(y\mu, I_d)\),信号向量 \(\mu\in\mathbb{R}^d\)。在这个模型上训练标准的(硬 margin)SVM 或逻辑回归,关心两个量:参数 \((\hat\beta,\hat\beta_0,\hat\kappa)\) 和 logit \(\hat f(x_i)=\langle x_i,\hat\beta\rangle+\hat\beta_0\)。
分析的主线是在比例渐近 \(n/d\to\delta\)(\(\delta\) 称 aspect ratio)下,让 \(n,d\to\infty\),看 logit 分布收敛到什么。整篇文章沿三个 section 递进:Section 2 刻画过拟合本身(ELD vs TLD 的截断现象),Section 3 用这个刻画推导 margin rebalancing 的最优超参,Section 4 把同一套刻画外推到置信度校准,并在 Section 5 把结论从 2-GMM 推广到多类和非各向同性协方差。整条逻辑链是单一变分问题(公式 5)往三个下游应用的辐射,所以这里不需要 pipeline 框架图。
关键设计¶
1. ELD/TLD:把过拟合从"标量误差"升级为"分布截断"
直接比较 train/test accuracy 只能告诉你过拟合存在、却说不清它怎么发生。本文定义两个对象:经验 logit 分布 ELD \(\hat\nu_n^{\text{train}}=\frac1n\sum_i \delta_{(y_i,\hat f(x_i))}\)(训练集上 logit 的直方图),和测试 logit 分布 TLD \(\hat\nu_n^{\text{test}}=\mathrm{Law}(y_{\text{test}},\hat f(x_{\text{test}}))\)。关键观察是:当训练集线性可分(margin \(\hat\kappa_n=\min_i y_i\hat f(x_i)>0\),高维下普遍成立)时,TLD 对每个类都是高斯,而 ELD 是同一个高斯被 margin 截断后的"整流高斯"(rectified Gaussian) \(\max\{Z,\kappa\}\)。直观地说,TLD 里那些会落到决策边界另一侧、本该贡献测试误差的质量,在训练集上被优化器强行"推"到了 margin 边界上,于是训练误差为零、却在测试时暴露。这个截断现象不是 2-GMM 的特例:作者在 RNA-seq 表格数据、CIFAR-10(ResNet-18 特征)、IMDb(BERT 特征)乃至 Llama-3-8B 在 TruthfulQA 上的激活探针里都验证到了同样的整流高斯,说明它是高维线性分类头的普遍规律。
2. 变分问题 + 共享过拟合预算:少数类为何被截断得更狠(核心定理 2.1)
这是全文的技术核心。把 max-margin SVM(公式 2b)改写成一个 min–max 形式 \(\min_\beta\max_\lambda(\lambda^\top G\beta+\langle\lambda,c\rangle)\),其中 \(G\) 是 \(n\times d\) 的 i.i.d. 标准高斯矩阵;再用 Gordon 定理把双线性项 \(\lambda^\top G\beta\) 替换成 \(\|\beta\|\langle\lambda,N(0,I_n)\rangle+\|\lambda\|\langle\beta,N(0,I_d)\rangle\),从而把随机矩阵问题降成只含随机向量的问题。最终(定理 2.1)参数 \((\hat\rho,\hat\beta_0,\hat\kappa)\) 收敛到下面变分问题的唯一解:
其中 \(\rho=\langle\hat\beta/\|\hat\beta\|,\mu/\|\mu\|\rangle\) 是斜率与最优方向的余弦相似度,\((Y,G)\sim P_y\times N(0,1)\),而 \(\xi\) 是一个待优化的"自由"随机变量。这里 \(\xi\) 的物理含义极其关键:\(\rho\|\mu\|_2+G+Y\beta_0\) 是输入投影到 \(\beta\) 上的"有用"成分,而 \(d\) 维里剩下那些与信号无关的维度给了模型"乱拟合的空间",正是由 \(\xi\) 编码。约束 \(\mathbb{E}[\xi^2]\le1/\delta\) 就是一个有限的"过拟合预算"——\(\delta\) 越小(维度相对样本越高),预算越宽松,TLD 被扭曲得越厉害、截断越强。把第一个不等式取紧,可解出 \(\sqrt{1-\rho^2}\,\xi=(\kappa-\rho\|\mu\|_2-G-Y\beta_0)_+\),这正是把 TLD 重叠质量搬到 margin 的"运输映射"。
由此 ELD 收敛到 \(\mathrm{Law}(Y,\,Y\max\{\kappa^*,\rho^*\|\mu\|_2+G+Y\beta_0^*\})\),TLD 收敛到 \(\mathrm{Law}(Y,\,Y(\rho^*\|\mu\|_2+G+Y\beta_0^*))\),两者只差一个 \(\max\{\kappa^*,\cdot\}\) 的截断。少数类更惨的原因被精确化:因为两类共享同一个预算 \(\mathbb{E}[\xi^2]\le1/\delta\),搬运少数类 ELD 的质量对总预算的"花费"更小,于是优化器更偏向截断少数类。形式上可证 \(\rho^*>0,\beta_0^*<0\),使少数类 TLD 均值 \(\rho^*\|\mu\|_2+\beta_0^*\) 更靠近决策边界,少数类测试误差 \(\mathrm{Err}_+\to\Phi(-\rho^*\|\mu\|_2-\beta_0^*)\) 因而更大。作者还从最优传输视角证明 \(T^*(x)=\max\{\kappa^*,x\}\) 正是从 ELD 到 TLD 的 \(W_2\) 最优传输映射。当 \(\delta>\delta_c\)(不可分)时,过拟合不再是截断而是由 proximal 算子(Moreau 包络梯度)支配的非线性收缩。
3. margin rebalancing 的最优 \(\tau\) 与高不平衡下的三相变(Prop 3.1 / 定理 3.2)
实践里对付少数类过拟合的常用招是 margin rebalancing:引入 \(\tau>0\),把少数类的 margin 约束乘上 \(\tau\)(公式 7,令 \(\tilde y_i=\tau-1\) 若 \(y_i=+1\))。本文给这招一个理论落点。Proposition 3.1 证明:在比例渐近下,最优 \(\tau^{\text{opt}}=\arg\min_\tau \mathrm{Err}_b^*\)(\(\mathrm{Err}_b=(\mathrm{Err}_++\mathrm{Err}_-)/2\) 是平衡误差)会让 \(\beta_0^*=0\),从而 \(\mathrm{Err}_+^*=\mathrm{Err}_-^*=\mathrm{Err}_b^*\),并且这个平衡误差随不平衡度 \(\pi\)、信号强度 \(\|\mu\|_2\)、aspect ratio \(\delta\) 单调递减。值得注意的是:调 \(\tau\) 只改 \(\hat\beta_0\)(决策边界平移)、不改 \(\hat\beta\)(方向),且在非退化情形大致满足 \(\tau^{\text{opt}}\asymp\sqrt{1/\pi}\)——一个干净可用的经验法则。
在更极端的高不平衡 regime(\(\pi\propto d^{-a},\|\mu\|_2^2\propto d^b,n\propto d^{c+1}\))下,定理 3.2 给出三相变:① 高信号 \(a-c<b\):任意不太大的 \(\tau\) 都能让两类误差都 \(o(1)\),rebalancing 可有可无;② 中信号 \(b<a-c<2b\):只有把 \(\tau\) 调到 \(d^{a-b-c}\ll\tau\ll d^{(a-c)/2}\) 才能两类都对,若 naive 地取 \(\tau\asymp1\),少数类误差会 \(1-o(1)\)(彻底失败)——这一相 rebalancing 是必需的;③ 低信号 \(a-c>2b\):无论怎么调 \(\tau\),平衡误差都 \(\ge\frac12-o(1)\),不比随机猜好。这清楚地划出了 margin rebalancing"有用/无用/无救"的边界。
4. 过拟合连带恶化置信度校准(定理 4.1)
同一套 logit 分布刻画还能外推到校准。定义 max-margin 分类器的置信度 \(\hat p(x)=\sigma(\hat f(x))\),希望它逼近贝叶斯最优概率 \(p^*(x)=P(y=1\mid x)\)。本文证明(定理 4.1):三种 miscalibration 指标——calibration error、MSE、confidence error——都有确定的渐近极限,例如 \(\mathrm{MSE}\to\mathrm{MSE}^*=\mathbb{E}[\sigma(-\rho^*\|\mu\|_2-G-Y\beta_0^*)^2]\),且 \(\mathrm{MSE}^*\) 随 \(\pi,\|\mu\|_2,\delta\) 单调递减。换句话说,数据越不平衡(\(\pi\) 越小)、信号越弱、维度越相对高,分类器不仅测试误差更高、置信度也被吹得越离谱(reliability diagram 上 CalErr 从 \(\pi=0.5\) 的 0.001 涨到 \(\pi=0.05\) 的 0.18)。这揭示了过拟合的一个"副作用":那些抬高测试误差的参数变化,会同时恶化校准,二者同源同向。
损失函数 / 训练策略¶
分析对象是两个标准凸问题:逻辑回归 \(\min_{\beta,\beta_0}\frac1n\sum_i\ell(y_i(\langle x_i,\beta\rangle+\beta_0))\)(\(\ell\) 取严格凸递减函数,logistic loss 是特例),和硬 margin SVM \(\max_{\beta,\beta_0,\kappa}\kappa\) s.t. \(y_i(\langle x_i,\beta\rangle+\beta_0)\ge\kappa,\|\beta\|_2\le1\)。作者主攻 SVM,因为高维下数据常线性可分、硬 margin SVM 即 max-margin 分类器,而逻辑回归的梯度下降迭代在方向上收敛到 max-margin 解(implicit bias),故两者紧密相关。margin rebalancing 通过把 \(\tau\) 并入 margin 约束或损失实现,理论上只平移决策边界。
实验关键数据¶
本文的"实验"是数值仿真验证定理 + 真实数据验证截断现象的普遍性,而非刷 benchmark。
主实验:截断现象的普遍性¶
| 数据 / 模态 | 特征提取器 | 维度 \(d\) | 不平衡 \(\pi\) | 观测 |
|---|---|---|---|---|
| 合成 2-GMM | — | 4000 | 0.15 | ELD 整流高斯、TLD 高斯,少数类 ELD 因截断丢失过半质量 |
| IFNB RNA-seq(表格) | 原始 | 2000 | 0.2 | ELD 被 margin 截断,少数类截断更重 |
| CIFAR-10(图像) | ResNet-18 | 512 | 0.1 | 同上整流高斯规律 |
| IMDb(文本) | BERT-base(110M) | 768 | 0.02 | 同上 |
| TruthfulQA(LLM 激活探针) | Llama-3-8B | — | 0.04 | 第一方向截断、第二方向扭曲,提示 LLM probing 的过拟合/记忆 |
跨表格/图像/文本/LLM 激活四类模态都观测到同一整流高斯,说明截断不是模型特例。
误差与校准的单调性(定理对应表)¶
| 参数 ↑ | \(\mathrm{Err}^*\)(测试误差) | \(\mathrm{CalErr}^*/\mathrm{MSE}^*/\mathrm{ConfErr}^*\) |
|---|---|---|
| 不平衡度 \(\pi\uparrow\)(越平衡) | ↓ Prop 3.1 | ↓ Thm 4.1 / Claim D.10 |
| 信号强度 \(\|\mu\|_2\uparrow\) | ↓ Prop 3.1 | ↓ |
| aspect ratio \(\delta=n/d\uparrow\) | ↓ Prop 3.1 | ↓ |
仿真曲线(\(n=100,d=200\),100 次平均)与定理 2.1 的渐近误差曲线高度吻合:naive SVM(\(\tau=1\))下 \(\pi\downarrow\) 时 \(\mathrm{Err}_+\nearrow1\)、\(\mathrm{Err}_-\searrow0\)、\(\mathrm{Err}_b\to\frac12\);取最优 \(\tau\) 后两类误差对齐,\(\mathrm{Err}_b\) 显著下降。
关键发现¶
- 过拟合 = 截断:高维可分时,训练 logit 是被 margin 顶住的整流高斯,这一个机制就解释了 train/test 差距,无需额外假设。
- 少数类更惨有了根因:两类共享 \(\mathbb{E}[\xi^2]\le1/\delta\) 的过拟合预算,搬运少数类质量更"便宜",于是 \(\rho^*>0,\beta_0^*<0\) 把少数类 TLD 推向边界。
- \(\tau^{\text{opt}}\asymp\sqrt{1/\pi}\):margin rebalancing 只平移决策边界、不转方向;中信号相里它是必需的,低信号相里它无力回天。
- 过拟合伤校准:同样让误差变大的参数(更不平衡、更弱信号、更高维)也让置信度更膨胀,二者同源。
亮点与洞察¶
- 把模糊的"过拟合"翻译成一个具体可证的分布操作:\(T^*(x)=\max\{\kappa^*,x\}\) 的截断/整流高斯,是本文最"啊哈"的地方——它把人人都在说却说不清的现象钉成了一个最优传输映射。
- "共享过拟合预算"是迁移性最强的直觉:少数类受害更重,本质是两类抢同一份由 \(1/\delta\) 决定的有限预算。这个视角可迁移到任何高维、可分、类别不均的最后一层线性头(包括 LLM 激活探针的可解释性分析)。
- 给 margin rebalancing 一个可执行法则:\(\tau\asymp\sqrt{1/\pi}\) 且只动 bias 不动方向,既解释了它为何有效、也给了超参一个明确起点,比纯靠调参强。
- 可解释性的潜在用途:在 Llama-3 激活探针里观测到的截断/扭曲,提示用不平衡探针集做 probing 时要警惕过拟合带来的"假信号",对理解 LLM 的非预期记忆有指导意义。
局限与展望¶
- 模型仍是 stylized 的 2-GMM:核心定理建立在两类各向同性高斯混合 + 线性分类器上。虽然 Section 5 把结论外推到多类(猜想 logit 联合分布渐近为投影到凸多面体的多元高斯)和非各向同性协方差(异方差、spiked covariance),但多类情形主要靠数值实验和猜想,缺完整证明。
- 只覆盖最后一层 / linear probing:分析的是冻结特征 + 线性头,没有触及特征本身随训练演化(端到端训练)的过拟合,真实深度网络的非线性、特征学习不在刻画范围内。
- 若干结论是 informal / Claim 形式:表 2 里部分单调性是 Claim D.10、定理是 informal 版本,严格性依赖附录。⚠️ 涉及 \(\tau^{\text{opt}}\asymp\sqrt{1/\pi}\)、相变阈值等定量结论以原文附录的 formal 版为准。
- 改进方向:把截断刻画从"固定特征"推到"特征学习"阶段、把多类猜想证成定理、以及把过拟合-校准的同源关系用于设计同时优化误差与校准的 rebalancing 方案,都是自然的下一步。
相关工作与启发¶
- vs 高维逻辑回归渐近(Sur & Candès, Montanari 等):他们用 Gordon 定理刻画 MLE 的估计误差和测试误差,但只看标量误差、且基本不涉及类别不平衡;本文把刻画对象升级到整条 ELD/TLD 分布,并专门处理不平衡如何不对称地放大过拟合。
- vs benign overfitting / double descent(Bartlett, Belkin 等):那条线解释过参数化下"过拟合却泛化"的良性现象;本文反过来聚焦不平衡下过拟合的"恶性"一面——少数类被截断、校准被恶化,并给出精确的相变边界。
- vs margin-based 泛化界(Bartlett & Mendelson 等)与 LDAM 等 rebalancing 损失(Cao et al. 2019):经典 margin 界与数据分布无关、往往过于保守;本文在具体 2-GMM 上给出依赖分布的精确渐近,把 margin rebalancing 的最优超参 \(\tau^{\text{opt}}\asymp\sqrt{1/\pi}\) 和三相变结构算了出来,从"有界"走到"可计算的最优"。
- vs Montanari & Zhou (2022) 的 projection pursuit:最接近的工作,分析低维投影的高维渐近,但没有刻画类别不平衡对过拟合与校准的影响——这正是本文补上的缺口。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次把不平衡过拟合刻画为 ELD 的整流高斯截断,并用共享预算解释少数类受害更重。
- 实验充分度: ⭐⭐⭐⭐ 仿真与定理高度吻合、跨四类模态验证普遍性;但真实数据偏"验证现象"而非系统评测。
- 写作质量: ⭐⭐⭐⭐ 定理-直觉-仿真三段式清晰,三相变和单调性表很好用;部分结论 informal、依赖附录。
- 价值: ⭐⭐⭐⭐⭐ 给长尾/不平衡分类、linear probing、LLM 激活探针的过拟合提供了可计算的理论与可执行的 rebalancing 法则。